多模态大模型方向确定,从通用到垂直场景智能化升级的统一和差异


一、多模态大模型是 AI 大模型的发展方向

多模态大模型是AI大模型的发展方向,也是AI厂商竞争的关键领域。多模态大模型可接受文字、图像、语音等多种不同类型数据的输入、处理、分析,并将结果以不同的模态形式对外输出,实现异构模态数据协同推理。在ChatGPT推出之后,谷歌、微软、百度等海内外科技公司纷纷加速了对多模态大模型的研发进度。相较于经过单一的文字类数据训练的自然语言类模型,多模态模型在训练阶段融合了文字、图像、三维物体等多维度数据的训练,可交互的信息类型较多,通用性得到了大大增强,可应用的场景有较大拓展。我们判断,多模态大模型的技术迭代、产品设计和商业模式的探索将成为下一阶段各厂商竞争的关键。接下来,我们从算法模型、算力和数据三方面对多模态大模型的技术原理进行深入分析。

(一)算法方面,多模态大模型技术壁垒更高,可拓展性更强

自然语言类大模型的训练是对不同文字信息编解码的过程。自然语言类大模型的训练数据类型较为单一、组织方式比较有规律性。在语句的分析中,标点符号、空格是AI天然的可识别分隔符,可简单快速的识别不同语句。其次,在字词的属性(主谓宾)等较为固定的情况下,语句中的语义信息的提取和识别有规律可循。将标点符号、不同属性的字词编码,根据其在文中的作用对编码反复进行排列组合的训练即可以得到自然语言类的大模型。

多模态大模型开发的难度更大,技术壁垒更高。与自然语言类大模型相比,多模态大模型需要对多种类型数据进行编码、配对、拟合,训练过程更加复杂。在“文字-图像”的对照训练的过程中,首先通过分别解构文字和图像的内容,将各自内容中的单一元素抽象出来,单独编码;然后再对文字和图像不同编码间建立一一映射的关系,最后得到的“文字-图像”的编码配对组合即是多模态模型的雏形。对图像类数据的编解码难度更大。图像数据是大量像素排列组合而成的,不仅单个像素的固定属性难以确定,其排列组合的方式也无规律可循。总体而言,多模态大模型需要处理的数据类型更多、开发难度更大、技术壁垒更高。

多模态大模型的拓展性较好。多模态大模型采用多种类型数据的编码配对拟合的方法训练得到。除了“文字-图像”两种类型的数据可以建立编码配对组合外,我们也可以建立类似“图像-音频-文字”等多种类型数据间的编码配对组合,从而训练出通用性更强、应用场景更丰富的多模态大模型。谷歌在2023年3月发布的Palm-E多模态大模型的训练数据不仅包括文字、图像、语音类数据,还包括三维空间状态和感知数据,除了具备一般语言来大模型的能力外,还能执行视觉问答、感知推理、机器操作等复杂的任务。我们认为,多模态大模型可通过增加训练数据类型,打造出交互方式更多、生成内容更丰富以及更加泛化的能力,可拓展的应用场景更加丰富。

OpenAI已推出多款多模态大模型,并且开放了API。OpenAI已经开发的多模态大模型包括可识别图像大模型GPT-4、文生图模型DALL E 2、以及语音转文字模型Whisper。近期,以上多模态大模型的API接口陆续开放供程序开放人员调用。在不同场景中,传统软件厂商在既有软件产品上调用多模态大模型的API进行二次开发,可有效提升其产品的智能化水平和用户体验。我们判断,OpenAI的多模态大模型在开放API接口后,其在各场景的渗透有望呈现出加速和扩散的趋势,推动不同应用领域IT产品的智能化升级。GPT4、DALL E 2和Whisper模型的具体介绍如下:

(1)GPT-4:2023年3月,OpenAI推出了GPT-4多模态模型并开放了API接口,不仅在对话的准确性、语言丰富性以及长文本生成能力上较GPT-3.5有较大提升,还可识别、理解图像类的数据,并根据图像内容与用户进行互动问答。我们认为,相较于ChatGPT自然语言类模型,GPT-4多模态模型与人类可交互的信息类型更多、信息量更大、通用性更强、应用场景更加广阔。

(2)DALL E 2:DALL E大模型是OpenAI于2021年1月公布的产品,并于2022年4推出第二代,可根据自然语言的描述创作高质量的图像。DALL E大模型的文生图功能的训练过程是将图像的特征提取后抽象为一组编码,将其与文字的编码建立一一映射的关系。在推理阶段,DALL E大模型可根据用户给的文字提示词,通过自回归算法或扩散算法,推演出图片的编码,将编码重新组合后得到最终的图片。2022年11月,OpenAI将DALL E 2的API开放供第三方调用。

(3)Whisper:Whisper大模型是OpenAI于2021年9月推出的产品,可将语音信息转换为文字信息。其可实现多语言、多方言以及嘈杂背景音环境下的语音转换,识别和转换的准确率较高。2023年3月1日,OpenAI宣布开放Whisper大模型的API,供程序开放人员调用。

谷歌的Palm-E大模型可用于机器操作。2023年3月,谷歌和柏林工业大学共同发表论文《PaLM-E: An Embodied Multimodal Language Model》,对其已开发的PaLM E多模态大模型的训练方法、训练环境及通用化效果进行了详细阐述。拥有的5620亿参数的PaLM-E大模型是在语言类模型PaLM(5400亿参数)和视觉类模型ViT(220亿参数)的基础上开发的。通过在预训练的语言类大模型中嵌入图像、状态、感知等多类型数据,PaLM-E模型不仅具备通用化语言能力,还能执行视觉问答、感知推理、机器操作等复杂的任务。相较于自然语言类AI模型,PaLM-E多模态模型具备的能力得到了很大程度的提升,其功能拓展如下:

(1)机器人操作:嵌入PaLM-E模型的机器人手臂可以执行人类给出的语音指令。

(2)空间感知:PaLM-E模型可以识别三维空间的物体并根据人类指令给予实现目标的动作规划。

(3)视觉问答:根据图像内容,PaLM-E可以和人类进行自由对话。

(4)人机对话:PaLM-E可应对较多话题的日常交流。2023年5月,谷歌召开2023年I/O开发者大会,发布最新大语言模型PaLM 2,融入AI能力的搜索引擎、升级版聊天机器人Bard和Workspace中的AI工具包Duet AI等。在2023年I/O开发者大会上,谷歌推出了最新一代大语言模型PaLM 2,其基于Pathways架构,使用TPU v4和JAX框架训练,在高级推理任务,包括代码和数学,分类和问答,翻译和多语言能力,以及自然语言生成方面都比前一代PaLM大模型表现得更好。我们认为,此次谷歌发布大模型并导入旗下产品,有助于谷歌增强与其它生成式AI大模型厂商竞争的能力,展示了谷歌在人工智能领域的强大创新能力和产品化落地能力。

Meta公司的ImageBind模型融合了6种类型的训练数据。2023年5月,Meta公司推出的多模态大模型ImageBind融合了文本、图像/视频、音频、热量、空间深度、三维惯性(位置和运动)数据。其以某一物体的视觉类数据为核心,设置了多种传感器搜集对应的声音、3维形状、热量以及运动数据。ImageBind的训练是通过将各种类型的数据在多维向量空间中建立一一映射关系,使其具备跨模态的能力,具体包括:

(1)多模态信息转换:根据单一类型的信息,生成对应的多种类型的信息。例如,根据火车汽笛声,即可生成多张火车的图像,或是火车在某一场景中的空间深度信息,或是火车鸣笛的情境描述文字。

(2)组合信息转换:在输入两种不同类型的信息进行嵌入和叠加后,可智能化提取其组合信息。例如,将一张小鸟的图片数据和一段摩托车的音频数据输入到ImageBind后,可自动生成多张摩托车骑行时小鸟飞翔的图像。

国内的多模态大模型主要集中于文字和图像信息的转换。当前,国内厂商推出的多模态大模型多以文生图或图像描述生成文字为主等。与海外相比,国内多模态大模型融合的数据类型较少,应用场景有限,通用性有待提升。不同厂商有不同的自身技术优势及数据积累领域,因此不同多模态模型在不同细分领域各有优劣。典型例如百度在搜索领域、阿里巴巴在电商领域、商汤在视觉领域均有其独特积累及数据,在这样的技术调教及数据喂养下,生成的多模态大模型自然也各有特点。

在文生图多模态大模型领域,百度文心ERNIE-ViLG 2.0模型已具备较强竞争力。百度文心ERNIE-ViLG 2.0模型通过引入基于时间步的混合降噪专家网络,让模型在不同的生成阶段选择不同的“降噪专家”,从而提升生成图像的精细度。在提升图文一致性方面,该模型通过视觉、语言等多源知识指引扩散模型学习,强化文图生成扩散模型对于语义的精确理解,以提升生成图像的可控性和语义一致性。在图文相关性和图像保真度两个维度的人工评估上,ERNIE-ViLG 2.0相对DALL-E 2 和StableDiffusion等模型已具有一定优势。

(二)数据层面,多模态大模型需要处理的数据量庞大、数据类型多样

多模态大模型的训练数据量庞大、数据类型多样,需要大数据产品的支持。从传统AI模型向多模态大模型发展的过程中,数据的计算、分析、转换和存储方式也发生着较大变化。过去识别类AI模型(物体识别、人脸识别)训练数据的类型较为单一且数据量较小,多数情况下传统的集中式数据库即可满足训练数据的预处理、存储和分析需求。在自然语言类大模型出现后,训练数据量快速增长到TB级别,导致其部分场景中的数据训练需要采用分布式架构的数据平台产品才能解决。多模态大模型训练的数据量庞大、数据类型多样,需要分布式架构下的大数据产品才能满足其数据训练的要求。我们认为,未来分布式大数据软件产品将在多模态大模型的开发过程中扮演重要的作用。

分布式大数据平台较好的满足多源、异构的数据处理需求。分布式大数据平台是一个集数据接入、处理、存储、查询检索、分析挖掘等为一体的平台。而数据库是按照数据结构来组织、存储和管理数据的仓库。在异构的分布式数据库中,不同的节点可采用不同的数据模型、数据管理工具、操作系统和硬件。各子节点通过应用程序接口、全局模式和联邦计算等方式实现不同数据类型的信息共享及融合分析。总体而言,分布式大数据平台具有以下优势:

(1)单机硬件性能要求较低,扩容成本较低:在分布式架构中,软件平台可搭载于普通的PC服务器上,摆脱了对小型机、高端存储等高价格硬件设备的依赖,扩容的成本较低。

(2)海量数据处理能力,扩容过程便捷:分布式架构采用多台服务器,存储和计算资源天然比集中式架构的单台服务器要多,扩容便捷,可扩展性强。

(3)多源数据融合处理和分析能力:不同节点的数据平台上可存储和计算不同类型的数据,各节点数据处理和分析的结果汇总和集成在控制节点后可实现较好的融合分析。

向量数据库可满足多模态大模型中较多的向量相似性搜索需求。多模态大模型和用户交互的信息往往包含大量的非结构化的数据。例如,用户将图片输入到GPT-4后,就图片信息进行问答。在这一过程中,原始的图像(由像素组成)需要转化成为向量数据才能被多模态大模型识别和理解,之后这一组向量数据需要遍历庞大的神经网络,搜索与之对应的另一组向量数据后才能生成用户想要的文字。在多模态大模型中,向量搜索的过程往往耗时较长,可能会影响到即刻需要得到内容生成的用户体验。而向量数据库通过ANN(Approximate Nearest Neighbor)算法给不同的向量数据构建索引,有效提升搜索效率,缩短生成内容的反馈时间。

2023年5月,星环科技发布向量数据库产品Transwarp Hippo。Hippo主要用于AI领域,支持快速高效的数据存储和检索以及管理向量式数据集,能够高效地解决向量相似度检索、高密度向量聚类等常见的AI问题。与开源的向量数据库不同,Hippo具据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,能很好地满足企业针对海量向量数据的高实时性查询、检索、召回等场景。

我国在分布式大数据平台领域与海外厂商的性能、生态方面的差距较小。从技术演进角度而言,我国分布式数据平台技术与海外公司发展历史相当。基于Hadoop等开源生态,国产分布式大数据平台快速开发和迭代,且在金融、公共部门、能源等行业商业化落地过程中持续打磨产品,性能与海外竞品差距较小。以星环科技TDH为代表的大数据产品不仅凭借分布式架构的优势对传统数据库Oracle、IBM DB2以及Teradata等传统数据库实现了较好的替代,还以较高的性价比和安全性实现了Ealstic Search、CDP等海外分布式架构数据产品的替代。

随着多模态大模型的训练和应用的增多,国产大数据产品和向量数据库有望快速增长。分布式大数据产品拥有的海量、异构、多源数据的处理能力,以及向量数据库的高效数据搜索能力,在多模态大模型的训练和推理中有较好的应用前景。另一方面,大数据是新兴技术,发展时间较短,国产大数据产品和海外竞品的差距较小。在大数据领域,星环科技技术积累深厚、技术原创性强,已实现对关键组件和核心功能的自主研发,有望受益于多模态大模型的快速渗透。我们认为,在各科技公司对于多模态大模型持续研发投入,以及AI大模型在各行业加速渗透的趋势下,国产大数据产品有望迎来发展机遇,实现快速成长。

(三)算力层面,海量和多源的数据

处理需要更大的算力支持表达同级别的信息量,非结构化比结构化所需的数据量更大。同一数据大小情况下,不同数据类型所包含的信息量不同。一般而言,文字类的数据组织方式较为简单,同级别的数据量可包含的信息量较大,例如1MB的数据量可包含500页的文字内容。与之相比,图像、音频、网页等非结构化数据组织方式更为复杂。一张图片是由成千上万个像素点组成;音频的组织方式是由一系列的数据帧组成。同级别数据量的非结构化数据包含的信息量较小,例如1MB的数据只包含1张2048X1536像素的JPEG格式图片或1分钟MP3格式的音频。因此,相较于训练数据为纯文字的自然语言类大模型,多模态大模型的训练过程若要包含相同量级的信息,其所需的非结构化数据的数量更大。

OpenAI的大模型生成图像的成本高于生成文字的成本。OpenAI的自然语言大模型的收费标准是0.002-0.012美元/1000 tokens。Tokens是包括了单词、标点符号在内的字符,因此可以简单理解为单个文字。与之相比,多模态大模型DALL E生成图片的价格为0.016-0.02美元/张。从用户需求角度,用户与平台单词对话所需生成内容是文字信息在千个单词的级别,是图片信息则在1-4张图片之间。因此,单次对话对于图像信息生成所需的成本要高于文字信息生成的成本。我们认为,多模态大模型需要处理的非结构化数据较多,相较于自然语言类模型,在训练和推理阶段消耗的成本更大,所需的算力支持更高。

英伟达AI芯片每秒钟推理图像类模型(3D U-Net)远低于自然语言类模型(BERT)。针对不同的AI模型,英伟达的AI芯片推理计算的性能不同。以A100为例,其对BERT自然语言模型推理运算性能为每秒1828次,而对3D U-Net医疗影像模型的推理运算性能为每秒4次。H100在采用更先进制程芯片,矩阵运算性能优化的情况下,其推理运算性能有较大提升。我们认为,多模态大模型所需处理的数据类型更多、算法更复杂的情况下,在应用和推理阶段对算力的消耗也更大。未来,随着多模态大模型开发量和应用量的增加,AI芯片的需求有望加速增长。

英伟达H100对大模型运算的性能较A100提升较大。2022年3月,英伟达推出Hopper架构的新品H100,浮点数算力较A100有2.6倍提升,整数算力较A100有4.8倍提升。H100的算力提升不仅通过采用4nm先进制程的方式从物理层面提升晶体管密度芯片,在软件层面还针对大模型设计了Transformer引擎,有针对性的提升大模型的算力水平。在GPT-3大模型训练任务中,H100的速度可以达到A100的4倍。2023年3月,英伟达又推出了H100 NVL产品。其通过拓展GPU内存带宽,升级GPU和GPU互联技术NVLink,将产品在大型计算集群中的性能进一步提升。在GPT-3大模型训练任务中,搭载H100 NVL的AI服务器的速度达到了搭载A100的服务器12倍的效果。

国产AI芯片已经追赶上英伟达Ampere架构GPU的水平。国产高端AI芯片在过去几年性能有了较大提升,以华为昇腾910和寒武纪思元370为代表的国产AI芯片已经追赶上英伟达Ampere架构下的AI芯片的性能,但距离其最新一代H100仍有一定差距。我们判断,随着国产AI芯片与英伟达等海外竞品性能差距逐渐缩小,AI芯片国产替代范围有望扩大。另一方面,在芯片制造环节,中国大陆晶圆厂的先进制程芯片规模化量产能力与国际一流厂商仍有一定差距。未来,AI芯片国产替代的节奏仍取决于美国对华实施高端芯片出口管制政策的变化以及芯片制造产业链自主可控建设的进展。

二、从通用到垂直场景,智能化升级的路径一致但方式

各异多模态大模型的开放推动各垂直应用领域智能化升级加速。OpenAI在2022年11月开放了文生图AI大模型DALL E 2的API,2023年3月开放了ChatGPT、Whisper、GPT-4的API接口,供程序开放人员调用。2023年5月,Meta公司推出的ImageBind多模态大模型采用完全开源的方式对用户开放。在不同场景中,垂直领域厂商通过调用多模态大模型的API进行二次开发,可实现既有应用的快速智能化升级。目前已有来自教育、金融、电商等领域的公司使用GPT-4的API来提升人机交互的智能化水平。我们认为,多模态大模型的开放将大大降低各垂直领域厂商开发AI应用的门槛,各场景智能化升级有望呈现出加速和扩散的趋势。

受AI大模型影响,各领域智能化升级的节奏和实现方式有所区别。由于各行业在数据安全、技术壁垒以及监管要求方面存在差异性,因此,其受AI大模型影响导致不同行业的智能化升级的节奏和实现方式有所区别。具体而言:

(1)在智能化升级节奏方面,To C场景比如通用行政办公、个人创意设计等由于各类通用性数据可获取门槛较低,受监管的要求较低,使得相应领域在接入通用AI大模型后的应用产品化落地较快,普适性较高。而医疗、金融、工业等To B领域专业性较强、安全要求较高,其智能化升级或需要更多的专业领域数据的训练,因此,该类行业受AI大模型的影响后的智能化升级节奏较慢,相应的商业化进程较慢。

(2)在智能化的实现方式方面,我们认为,医疗、金融、工业等领域应用场景的高专业性导致通用的AI大模型可赋能进行升级改造的空间较小。其次,在该类行业中的数据敏感性和法律合规性上的高要求导致AI功能的开发和应用都呈现私域封闭的特点。因此在专业程度较高的行业中,各家公司或借鉴通用AI大模型的技术原理,结合自身专业数据积累,针对实际功能需求,打造属于企业内部的小模型。AI大模型预计给在行业私域数据和模型训练有所积累的企业提供了重塑竞争格局的机会。而通用行政办公、个人创意设计等To C场景技术安全要求较低的领域或可直接调用通用AI大模型的API,利用已开放的技术资源,升级既有产品线。接下来,我们通过分析多模态大模型在通用行政办公、软件开发、创意设计、金融、医疗等不同领域的应用,来探讨不同垂直场景智能化升级的统一性和差异点。

(一)生成式 AI 技术驱动通用行政办公类软件行业快速变革

从技术到商业化,国产通用行政办公软件的智能化升级进展距离海外有差距。在海外AI大模型技术较为成熟的情况下,嵌入了Copilot的微软办公类和企业管理类软件已经表现出较为显著的智能化升级效果,已吸引海外较多客户尝试使用其产品。从技术、产品到商业化,微软在各方面都已经走在了行业前列。与之相比,国内的WPSAI、新钉钉等办公类AI应用离成熟到大量客户认可还有较长的时间,主要障碍在于国内AI大模型的功能和性能距离海外仍有一定差距。总体而言,国内公司的AI应用整体落后海外公司一个阶段,即产品化初中期 vs 商业化前夜。国内AI大模型在通用行政办公类软件的应用仍需要一段时间克服从产品化到商业化的挑战。

1. 微软走在行业前列,树立了多模态大模型技术和商业化探索的标杆

Office系列软件嵌入Copilot,内容生成功能亮眼。2023年3月,微软发布Microsoft365 Copilot智能插件产品,对于其既有的Microsoft Graph工具包和Microsoft 365办公软件产品进行了全面升级。Copilot是基于大规模语言模型开发的。通过嵌入Copilot,微软打通了Word、PowerPoint、Excel、Outlook、Teams等各软件产品间内容共享的通道,原本各自独立的办公软件可以根据用户的指令自动引用全类别Office软件中的既有内容,并自动编辑成满足客户需求的内容。例如,根据Word中的既有文字,用户可自动生成Powerpoint中的演示稿。Copilot对各软件产品具体提升效果如下:

(1)嵌入了Copilot的Word软件可根据用户指令自动生成文字,例如,新品发布会的演讲稿。此外,其还可以根据既有文字内容进行要点总结、扩写等高级别功能。

(2)嵌入了Copilot的Powerpoint软件根据用户指令不仅可以自动生成演示稿的文字和图片等内容,还能实现演示稿的美化、添加动画等高级功能。

(3)嵌入了Copilot的Excel软件可以根据用户指令自动生成分析表格并可视化为柱状图、曲线图等图表。

(4)嵌入了Copilot的Outlook软件可总结较长邮件内容,并根据用户回复内容的草稿进行扩写、添加图表等。

(5)嵌入了Copilot的Teams软件可在会议中实时进行要点总结、咨询讨论话题等Bing全面开放,智能化的搜索引擎应用前景广阔。2023年2月7日,微软首次推出嵌入了AI大模型的New Bing搜索引擎和Bing Chat产品,可通过直接问答的方式得到用户所需内容。之后,微软进行了一系列的升级。2023年3月,Bing Chat在嵌入了DALL E大模型后升级了Bing Image Creator功能,用户可在Bing搜索栏中输入文字生成图片。随着Bing的智能化功能持续升级,其用户数量快速增长。截止2023年5月4日,用户在New Bing上已累计完成5亿次对话,生成了2亿张图片。New Bing的日活量已经超过1亿人次。在Bing和Edge的智能化功能已实现较大突破,用户数量积累到一定规模的背景下,微软于2023年5月4日宣布了下一步的产品开放和升级计划,具体如下:

1. 全面开放:自5月4日起,New Bing的智能化功能将不再设置候补名单。用户使用微软账户登录Bing后,即可直接使用Bing Chat功能。

2. 回答内容的表现形式更加生动和丰富:Bing Chat的回答内容由此前的纯文本形式,升级为文字、图像、网页链接等更加直观和丰富的表现形式。

3. 对话内容的保存和继续对话:Bing Chat中的对话内容可实现在Edge浏览器中的保存。用户在下次打开浏览器后,可选择上次未完成的聊天记录继续对话。

4. 面向开发者的第三方插件即将推出:Bing Chat上即将推出第三方插件功能,并创建一个开发者平台。开发者在平台上创建了满足自己需求的插件后,在聊天过程中可自由调用插件的功能(例如:可以通过OpenTable插件自动查找、预订餐馆)。

相较于办公类软件,企业管理软件功能复杂,门槛较高,智能化升级的难度较大。微软的Dynamic 365是面向企业用户,覆盖从内部管理到对外销售,从产品采购到售后服务等各个环节的企业管理软件产品线,其中企业资源规划(ERP)和客户管理管理(CRM)是两个重要软件产品。与办公类软件不同,企业管理软件的功能复杂,门槛较高,其需要对包括采购、生产、存储、分销、运输、财务、人力资源等企业内部所有资源进行整合,合理规划后实现效益最大化。因此,企业管理软件通过AI大模型赋能后智能化升级的难度较大。

Copilot赋能Dynamic 365,提高信息在各流程间流转的效率。2023年3月,微软推出Dynamic 365 Copilot,对其ERP和CRM等企业管理软件智能化升级。过去Dynamic 365涉及到需要手动输入、编辑、标注等繁重的人工操作,较大部分将由Copilot所替代。通过减少机械的、重复的工作,Copilot赋能采购、生产、销售等各环节人员快速响应,提升供应链敏捷性、并降低业务风险。Copilot对于各企业管理软件的提升效果如下:

1. 在 Dynamics 365 Sales和Viva Sales中,Copilot能够帮助销售显著减少花在案头工作上的时间。Copilot可根据CRM系统中产品、报价之类的数据,自动生成回复给客户的邮件内容。这大大减少了销售回复邮件等文案工作的时间,从而可以将更多精力用于客户交流工作。

2. 嵌入了Copilot的Dynamics 365 Customer Insights软件,市场人员只要用自然语言与客户数据平台进行一些简单的对话,就能得到高度定制化和目标明确的客户分类,较大提升了用户分类以及发现潜在用户的效率。

3. 嵌入了Copilot的供应链管理软件Dynamics 365 Supply Chain Management能主动为影响供应链流程的事件发出预警,例如天气、财务或者地理环境等;随后预测洞察将筛选出受影响的订单,并将物料、库存、承运商、配送网络等细节信息提供给客户。供应链规划功能随后会自动撰写一封由Copilot生成的电子邮件向受到影响的合作伙伴发出预警,提醒防范可能出现的负面影响。

Copilot对Dynamic 365的智能化升级更多是效率提升,而非核心功能的颠覆。Copilot对Office系列软件产品的智能化升级效果更加显著,其主要原因是涉及办公软件的核心功能。例如,Word的核心功能文字撰写可以被Copilot替换;PowerPoint的核心功能演示文稿制作可以被Copilot替换。而Copilot在Dynamic 365的应用中并未涉及核心功能颠覆。企业管理的关键环节仍需要管理人员做部分工作,并最终决策。我们认为,B端应用软件面临的可靠性、扩展性、稳定性和数据交互涉及的安全性等要求,使得其智能化改造的程度和节奏较C端应用软件或呈现出不同的发展趋势。

AI实质性推动微软应用软件实现功能性上质的飞跃。

我们在2023年2月14日发布的AI行业深度报告《ChatGPT通用化效果突破、前景广阔,国内AI产业链追赶仍有较大挑战》曾提到“未来,GPT系列AI大模型最具有成功潜力的商业化落地形式是其与微软从浏览器Bing到Office的全线软件的融合应用。二者的融合应用有望对微软的软件产品的门槛和附加值有较大提高效果,同时对相应竞品实现降维竞争。我们可以预期微软相关产品线的竞争优势会迅速扩大并能逐步新增体现在全球市场份额和财务回报上。”微软Copilot智能插件产品的推出并有效赋能其办公软件产品验证了我们此前对于AI大模型商业化落地的判断。我们看好嵌入了Copilot的微软办公类和企业管理类未来商业化应用前景。

在AI大模型商业化落地的探索方面,微软已走在行业前列。AI时代,通过算力、数据、算法模型和商业软件的有机融合方面,微软正快速积累用户数量,培养用户习惯,构建生态壁垒,先发优势明显。一方面,这进一步增加了各同行公司进行智能化升级的压力和时间紧迫感;另一方面,微软的不断突破树立了技术和商业化探索的标杆,给国内相关应用生态发展开拓了可供学习的经验路径。同行公司通过学习微软模式,也有望实现应用软件产品在智能化升级后的商业化规模落地。

2. 国产行政办公软件持续追赶,多模态大模型提升产品价值量

金山办公发布WPS AI,国内协同办公赛道首个类ChatGPT式应用。4月18日,金山办公正式发布了具备大语言模型能力的生成式人工智能应用WPS AI,这也是国内协同办公赛道首个类ChatGPT式应用。WPS AI搭载在金山办公新一代在线内容协作编辑工具轻文档(airPage)上,使其编辑能力更专业、插入功能更丰富、使用界面更友好。接入WPS AI后,AI生成的内容可以直接嵌入到文档正文,并能按照当前文档所能支持的格式进行实时渲染,同时也支持多轮对话,通过多次、连续自然语言的输入控制内容的生成,进一步提高创作效率。未来WPS AI计划逐步放开公测,有望嵌入金山办公全线产品。

WPS AI 的功能主要分为三大类:内容生成、文本处理、知识分析:

(1)内容生成:搭载了WPS AI的轻文档可根据用户指令自动生成文字,协助用户写出优质内容。例如广告文案、新闻稿、运营策略案等文本类作品以及创意故事、诗歌等文艺创造性内容。不仅如此,WPS AI还支持多轮对话,用户可以就某个话题与WPS AI持续沟通,例如用户对其提供的文本内容不满意,可以补充更多细节要求让WPS AI重新优化文字表达。

(2)文本处理:WPS AI能够对已有文案进行加工和再处理,包括编辑、改写、扩充、缩短、润色等,例如“WPS AI”可在不改变原有文案意思的前提下使用用户习惯的语言风格优化文本内容,同时为了满足多语言场景,WPS AI可以实现对现有文字内容进行中英文互相翻译。

(3)知识分析:WPS AI可以根据用户提供的现成文档,快速总结归纳文档中的内容。例如,WPS AI可以根据其他人的旅行游记文档和用户自己的预算表生成属于用户自己的旅行计划。用户也可以插入多篇工作日报,让AI生成出一周的工作总结。此外,WPS AI还可指定文档,生成待办事项、文章大纲、撰写新闻稿件、提炼主旨摘要等。

AIGC、阅读理解和问答、人机交互塑造WPS AI在AI+办公赛道的差异化优势。WPSAI未来锚定三个战略方向,第一个方向是AIGC,主要是辅助编辑、改写、润色,帮助用户生产更优质的文章,提高基本办公生产力;第二个方向是阅读理解和问答,基于已储备的语料做问答式的交互,辅助阅读和知识检索。第三个方向是人机交互,基于大语言模型技术去做下一代基于自然语言的人机交互,用自然人类语言给WPSAI下命令、提要求。

钉钉接入千问大模型,输入“/”唤起10余项AI能力。4月18日,在2023春季钉峰会上,钉钉发了一条斜杠“/”,并现场演示接入千问大模型后,通过输入“/”在钉钉唤起10余项AI能力,包括使用AI生成推广文案、生成图片及表情包、使用图片识别方式创建应用、在视频会议中生成会议纪要等。新钉钉有望全面智能化,带来各场景用户体验的升级。目前,钉钉与大模型融合场景正在测试中,将在相关安全评估完成后上线。

新钉钉主要在四个方面展现出智能化升级,除了这四个高频场景,钉钉也在同步测试钉钉个人版、搜索、邮箱、AI助理、智能客服等产品,让客户和生态基于钉钉PaaS底座的能力,更好地对接大模型。

(1)在聊天中:在传统群聊中,用户经常会因为一段时间未关注群聊消息而错过某些信息,现在用户可以使用新版钉钉“/”获取关键群信息,即使是新入群者也无需爬楼,在对话框输入“/”即可自动整理群聊要点,快速了解上下文。此外,用户输入自己的要求,“/”可以配合参会人的时间来生成待办事项清单并预约日程并在群聊中创作文案、表情包等。在新钉钉中,用户也可以训练专属的助理机器人,用“/”创建机器人后只需要发送文档、网页或者知识库的一条链接,就可以让机器人自动学习中内容,并可生成对话问答,不用再手动设置问题和答案。

(2)在文档中:

/”可以扮演用户创意助理的角色,根据用户指令生成文本及图片,例如推广文案、新闻稿、创意故事等,同时“/”可以润色文本、改写语气、精简或丰富文本内容等。

(3)在视频会议:

/”可以扮演会议助理角色,将会议语音转为文本,即使用户是入会迟到也能快速了解会议先前讨论的内容。散会后“/”还可以能一键生成完整的议程回顾,讨论要点、会议结论、待办事项等。

(4)在拍照生成应用中:

/”还可用自然语言或拍照生成应用,自动生成缺失内容,并以钉钉酷应用的形式在群聊内使用。比如,公司行政人员需要统计午餐的订餐份数,只需要在群聊对话框中输入“/”和需求,几秒钟后一个订餐统计小程序就会展现在群聊中。如果用户想要统计其它同事的想法,只需要告诉“/”自己的需求是什么,/”会自行生成一个群投票。国产办公软件在AI领域有所积累,叠加AI大模型的内容生成能力实现质的提升。

2021年7月,金山办公发布深度学习框架KSAI-Lite,并创新推出智能写作、演示文稿、文档翻译等功能,推动AI技术在办公场景应用落地。2023年3月,阿里推出通义千问大模型,对于人机对话、长文本内容生成等AI应用效果较好。国产应用软件不仅在AI领域已有一定技术积累,还深刻理解办公类软件的客户需求。因此,在内容生成类AI大模型取得通用化效果突破后,国产办公软件公司能敏锐的觉察相应的AI技术给既有办公产品可能带来的智能化升级效果,并及时结合产业链公司的技术优势快速推出AI内容生成的功能。我们认为,WPS AI的推出和阿里钉钉的升级不仅体现了公司快速结合新兴技术增强产品竞争力的创新力,还反映了其通过解决下游用户需求痛点实现产品价值量提升的商业敏感性。

金蝶国际与多个模型提供商合作,ERP产品智能化升级值得期待。2023年3月,金蝶国际宣布其正在与微软OpenAI联手进行一些具体应用场景的探索和测试,同时也宣布其接入百度文心一言大模型。2023年5月,金蝶国际与百度签约,正式成为文心千帆的生态伙伴。未来,金蝶基于AI大模型的能力,结合其既有的行业知识、专有数据,以及B端业务的商业积累,有望对其ERP等企业管理软件产品进行智能化升级。在微软推出Dynamic 365 Copilot智能化功能后,金蝶的ERP软件的智能化升级路径更加清晰,功能开发也有迹可循。

从技术到商业化,国产通用行政办公软件的智能化升级进展距离海外有差距。

(1)海外方面,根据国外媒体The information报道,微软超过600家最大的客户,包括美国银行、沃尔玛、福特、埃森哲等,预计将尝试使用微软Office 365 Copilot应用,其中至少100家客户已经分别支付了10万美元的费用,满足最多1000个账号在一年内使用AI功能。这意味着海外GPT大模型在办公四件套(WordExcelPPTPDF)的应用或将进入实质性成规模的商业化推广阶段。

(2)国内方面,WPS AI功能目前还处于测试阶段,相关办公智能化应用距离成熟到大量客户认可还有较长的时间,主要障碍之一在于国内AI大模型的成熟度相较于ChatGPT和GPT-4仍有一段距离。

总体而言,海外以GPT为代表的AI大模型在办公软件的应用已进入商业化前夜,国内AI大模型在通用行政办公类软件的应用处于产品化的初中期,仍需要一段时间克服从产品化到商业化的挑战。

(二)AI 大模型有效提高程序开发效率,软件开发行业开启变革

AI大模型可自动生成代码,助力程序高效开发。经过大量代码数据训练的AI大模型,具备代码生成的能力,可有效减少程序开发人员编写代码的时间和精力,特别是基础类算法的代码。在AI大模型的帮助下,程序开发人员可以专注于更复杂和创造性的工作,从而提高整体生产力。在具体应用方面,主要有微软旗下GitHub Copilot X、亚马逊CodeWhisperer,国内的华为云CodeArts Snap、商汤的商量Sensechat、硅心科技的aiXcoder XL等。根据《Big Ideas 2023》报告,程序开发人员在人工智能编码助手GitHub Copilot的帮助下,减少了55%的代码开发时间,效率提升效果显著。

AI大模型有效减少基础类算法代码的开发,减少重复工作量。对于开发人员来说,有许多基础性、重复性的算法开发任务很耗时。部分厂商通过建立代码库供程序开发人员搜索的方式来减少重复代码开发的时间。例如,aiXcoder的智能代码搜索功能中可以帮助开发者搜索相似的代码进行开发。在AI大模型的帮助下,代码的搜索功能有望逐渐被代码生成功能取代。GitHub和OpenAI合作开发的GitHub Copilot工具可实现基础算法代码的自动生成,有效减少程序开发人员的重复工作。此外,该工具还可将代码的格式自动编排,有助于保持代码格式的一致性,使代码更容易阅读和理解。

AI大模型助力提高所生成代码的质量。编写简洁、高效和可读性强的代码对于程序开发至关重要。AI大模型可自动检查代码语法错误,调试代码,有效提升代码质量。在程序开发早期,AI大模型可以识别一些由于设计缺陷或不良编程习惯带来的问题,提供给开发人员进行快速修改,减少了后续传播对整体程序的影响。

GitHub Copilot提高开发人员工作体验。根据GitHub的官方博客,90%使用GitHubCopilot的开发人员表示编程速度更快,其自发布以来,GitHub Copilot已经帮助一百多万开发人员将编码速度提高了55%,超过400个组织已经在使用GitHub Copilot。如今,在所有编程语言中,平均有46%的代码是使用GitHub Copilot构建的。此外,根据《量化GitHub Copilot对开发人员生产力和幸福感的影响》研究结果,高达88%的用户表示使用GitHub Copilot帮助他们对工作更有满足感,96%的开发人员在重复性任务中完成的更快,74%的开发人员更容易在GitHub Copilot加持下获得更多工作满足感。

国内方面,多家公司已开发代码生成类的AI应用。

(1)华为:2023年2月,华为联合CSDN发布了智能化编程助手Coderarts Snap。该应用基于华为自研的代码大模型盘古Pangu-coder开发。CSDN的用户使用该工具,可提升应用开发效率和代码质量。

(2)商汤:2023年4月10日,商汤推出的商量大语言模型中,包含代码生成功能。“商量SenseChat”提供代码补全、注释生成代码、测试代码生成、代码翻译、代码修正、代码重构、复杂度分析等功能,有效提升研发效率。从根据商汤内部测试的结果来看,在使用“AI代码助手”后,代码编写效率可以提升62%,Humaneval测试集一次通过率可以达到40.2%。

(3)硅心科技:公司开发的aiXcoder是基于深度学习代码生成技术的智能编程工具,支持Java、Python、C#、C/C++、 JavaScript、TypeScript、Go等多种编程语言。aiXcoder社区版的开发者用户已覆盖130多个国家和地区,为超过30万国际开发者提供智能化编程服务。

多模态大模型代码生成功能驱动软件开发行业的技术变革刚刚开始。多模态大模型代码生成功能可部分替代人工程序开发工作,程序开发人员可以更专注于难度更高、更有创造力的工作。在软件开发过程中,AI大模型不仅提升了基础类算法开发效率,还大大降低了软件开发的技术门槛,有望推动程序开发的普及。我们判断,AI大模型在软件开发行业降本增效效果显著,其开启的技术变革才刚刚开始,充分利用AI大模型生成代码功能的公司有望取得先机,获得先发优势,快速成长。

(三)多模态大模型替代人工生成创意内容,创意设计软件迎智能化升级

1. 多模态大模型技术变革创意设计软件,创新内容生产的流程新范式

多模态大模型在创意内容设计领域有较好应用前景。在游戏、广告、美术和影视等创意设计内容的领域,多模态大模型可帮助用户实现角色立绘、特效设计、动画分镜等多种图像的自动生成,较大提升创意设计工作的效率,降低制作成本,催生更多创意作品的产生。根据《Big Ideas 2023》报告,一般而言,美术设计人员耗时5小时,花费150美元的成本可创作一幅高精细度的图像。若用文生图的多模态大模型替代人工设计工作,其耗时少于一分钟,花费0.08美元的成本即可完成同样的工作。我们认为,以文生图为代表的多模态大模型在创意内容设计方面具有较好的人工替代效果,未来其大规模推广有望给行业带来变革式发展。

在游戏领域,多模态大模型有望在文案、道具、角色、场景生成及玩法设计方面提升游戏研发效率,降低创作门槛。随着游戏行业市场竞争加剧,产品研发成本持续高涨,尤其对于高品质、内容宏大的游戏来说,制作难度更高、周期更长。多模态大模型的内容生成能力能够广泛应用于游戏角色、道具、特效及动画分镜各种场景的生成中。例如,Midjourney、Stable Diffusion等工具可以根据设计者输入的描述文本快速生成概念图像,降低制作成本,提升研发效率。我们认为,多模态大模型在游戏领域的应用有望全方位节省制作团队人力成本,包括策划、美术、程序等环节,有效提升游戏研发效率,降低制作门槛,增强行业创造力。

在广告领域,多模态大模型高效、多样的内容生产能力有望提高营销内容创新性和丰富度,从而带来更好的营销效果。广告创意阶段,多模态大模型可以辅助设计人员生成广告的初稿,减轻相关人员在内容创意方面的压力。营销内容生成阶段,多模态大模型能够大量、高效产出营销内容,包括文字、图片、语音、视频等各种形式,帮助营销公司在内容生产环节降本增效。在广告投放环节,AI算法可以更精准地匹配消费者喜好,实现广告的智能推荐,提升触达消费者的广度和精确度。

在平面设计领域,多模态大模型可生成设计样稿,为工作人员提供设计灵感。基于大模型的涌现能力,多模态大模型可低成本生成大量参考设计素材。以Midjourney、Stable Diffusion为代表的AIGC美术工具基于大量公开优质作品进行训练和整合,对于相同提示词,可低成本产出多个随机图像,为美术人员在装修设计、服装设计、场景构图等方面提供参考和灵感。目前已有包括服装设计公司和装修设计公司开始调用这些大模型的API进行辅助设计工作。例如,美国的时尚设计公司CALA利用DALL E模型快速生成各种服装样式,提供设计人员参考。新加坡的地产公司StackedHomes利用Midjourney模型生成的房间内饰装修方案,有效减少工作人员设计时间。

2. 文生图模型提供商均推出按次、按时长收费模式,但商业化拓展策略不同

随着扩散模型和CLIP模型技术的逐渐成熟,国内外厂商纷纷推出文生图大模型,包括DALL E 2、Midjourney、Stable Diffusion等。以上三大多模态模型的技术较为成熟,使用人数较多,已形成一定的生态。

(1)DALL E 2:DALL E大模型是OpenAI于2021年1月公布的产品,并于2022年4推出第二代,可根据自然语言的描述创作高质量的图像,此外还能进行画面场景的扩展和画面内容的修改。2022年11月,OpenAI将DALL E 2的API开放供第三方调用。

(2)Stable Diffusion:Stable Diffusion由Stability AI开发的大模型,于2022年8月发布并同时宣布开源,已经历4次迭代。目前其多采用本地部署,对电脑配置要求较高,且插件多功能复杂,学习成本更高。

(3)Midjourney:Midjourney于2021年8月成立,由11人组成的小团队开发,至今已迭代5个版本。目前其主要搭载在Discord社区上,用户向Midjourney Bot输入指令即可在云端完成生成。

Midjourney利用Discord社区快速拓展用户规模。Midjourney搭载在Discord社群中,用户可以选择进入在Discord中的一个聊天室,通过在聊天框中调用/imagine,根据图片特征输入符合语法的prompt,即可自动生成图片。聊天室属于公共频道,用户也可看到其它排队的用户所生成的图片。同时,使用Midjourney bot应用的用户可以在个人频道中进行图片生成操作。用户不仅可以在自己的频道上创作,而且可以在公共频道欣赏其它用户的作品,这种交互式体验可以激发创作灵感,吸引潜在客户。通过Discord社区,Midjourney的用户数量快速增长。

截止到2023年6月,Midjourney用户量已达1600万以上。Midjourney采取SaaS订阅制模式,共有三种订阅模式,Basic Plan(10美元/月或96美元/年)、Standard Plan(30美元/月或288美元/年)、Pro Plan(60美元/月或576美元/月)。不同的订阅模式对应用户的使用权限是不同的,具体体现在使用GPU训练图片的时间长度、在公共聊天室生成图片的数量等。

Stable Diffusion在2022年8月推出的时候即以免费开源的形式推出,因此用户可以免费使用该模型的源代码进行图像等内容生成。对于普通用户,使用程序语言来进行图片生成仍然存在一定门槛。因此,Stability AI在其官网上也推出了DreamStudio工具,直接输入关键词就可以进行图片的生成。用户在Dream Studio上生成图片是需要付费使用的,其收费价格根据生成图片的分辨率和步骤数在0.1-9.5美分/张之间。其中,步骤数量是和生成内容匹配提示词的契合度直接相关的。一般而言,对于提示词较为复杂的图像,用户往往需要选择较高的步骤数量才能得到满意的结果。

与Stability AI相比,OpenAI给DALL E大模型制定的收费规则更加简单。DALL E目前仅针对三种不同分辨率的图像生成分档来收取费用,其单张图片的价格在0.016-0.02美元之间,其收费的价格区间较Stable Diffusion的更窄。我们对比生成相同质量的图像,二者收费的价格。以生成一张512 X 512分辨率的图像为例,DALL E的收费价格是固定的,即1.8美分,高于Stable Diffusion的价格(0.1至1.0美分之间)。而生成一张1024 X 1024较高分辨率的图像,DALL E的收费价格是2美分;Stable Diffusion的价格根据步骤数不同,在1.0至9.5美分之间。

3. 多模态大模型推动创意设计软件智能化升级,有望提升产品价值量在专业设计软件领域,Adobe已将多模态大模型的生成能力融合到其创意设计软件中。海外的Adobe在2023年3月21日发布了嵌入多模态大模型的平面设计新产品Firefly。在Firefly软件界面上,用户通过输入自然语言就能快速生成图片、特效等内容。基于Firefly的内容生成能力,Adobe对其既有的设计软件进行了一系列升级:

(1)2023年4月,Adobe宣布将Firefly的智能生成功能集成在Premiere Pro视频制作产品中。在视频编辑过程中,用户通过输入文字提示词,即可实现视频的色彩优化、特效添加、背景音乐更换等功能。

(2)2023年5月,Adobe宣布将Firefly嵌入Photoshop图像编辑软件中,并新增Generative Fill功能,根据用户输入的提示词,自动修改图像部分区域。Adobe Firefly智能生成功能的亮点在于用户用自然语言即可完成各类复杂的设计操作工作,大大缩短了设计工作的周期,降低了专业设计类软件的使用门槛,有效提升产品的吸引力。目前Firefly的智能化功能还处于Beta测试阶段,部分客户可提出Firefly的使用申请后免费使用。我们认为,嵌入了Firefly功能的Adobe全系列产品线的竞争力得到有效增强,后续有望扩大客户规模,并在市场份额和客户规模达到一定程度后提高ARPU及付费用户转换率,推动营收的快速增长。

国内方面,万兴科技是创意设计领域的领先公司。万兴科技面向C端用户为主,提供数字创意产品和服务,具体包括视频创意、绘图创意、文档创意、实用工具四大产品

线:(1)视频创意软件:提供包含视频、图片、音乐及特效素材资源在内的多种优质视频创意解决方案与服务。具体产品包括视频类的要产品包括亿图脑图(国外版本:EdrawMind)、亿图图示(国外版本:EdrawMax)、墨刀(国外版本:Mockitt)等。此外,近期推出的万兴爱画也属于该类软件,利用AI生成技术帮助用户创作高质量、多风格的创意绘画作品。

(3)文档创意软件:主要产品即万兴PDF(国外版本:PDFelement),PDF处理软件,满足文档创作、编辑、阅读、翻译、保护等多样需求。

(4)实用工具软件:包括万兴恢复专家(国外版本:Recoverit)、Dr.Fone、万兴手机管家、万兴易修(国外版本:Repairit)等多款数据及设备管理类应用工具产品。万兴喵影视频编辑软件、万兴播爆数字人营销短视频创作工具,图片类的Sweet Selfie、Sweet Snap图片编辑软件和素材资源类的万兴喵库。

(2)绘图创意软件:针对企业用户完成工作创意的构建和灵感转化的需求,提供包括思维导图、项目管理、平面布置、工艺工程等在内的各类图形图表的绘制工具。主要产品包括亿图脑图(国外版本:EdrawMind)、亿图图示(国外版本:EdrawMax)、墨刀(国外版本:Mockitt)等。此外,近期推出的万兴爱画也属于该类软件,利用AI生成技术帮助用户创作高质量、多风格的创意绘画作品。

(3)文档创意软件:主要产品即万兴PDF(国外版本:PDFelement),PDF处理软件,满足文档创作、编辑、阅读、翻译、保护等多样需求。

(4)实用工具软件:包括万兴恢复专家(国外版本:Recoverit)、Dr.Fone、万兴手机管家、万兴易修(国外版本:Repairit)等多款数据及设备管理类应用工具产品。

万兴科技已推出图像生成类AI绘画产品万兴爱画。2022年11月,万兴科技公司推出万兴爱画AI绘画产品,可根据用户输入的描述文字生成图片,或根据用户上传的图片生成不同风格的图片,具体风格包括粉彩、超彩、二次元增强、写实2.5D等。该产品典型目标客户包括设计师、游戏工作者、自媒体人等。例如在游戏方面,万兴爱画能够快速生成游戏场景、角色与道具等高精度的美术素材,提升游戏内容的创作质量及效率,而自媒体人也能够通过通过万兴爱画快速实现个性化内容生产。

万兴科技的智能化设计软件万兴爱画已开始收费。万兴爱画的定价方面,首先注册登陆用户每天将获赠5次免费创作次数。如需创造更多作品,则需单独购买。当前,公司共推出三种创作权益包,10次创作5元人民币(0.5元/次)、30次创作12元人民币(0.4元/次)以及100次创作20元人民币(0.2元/次)。总体而言,面向C端的消费服务和行政办公类的应用已率先开始智能化升级的进程。消费服务和通用行政办公等领域由于数据相对容易获取,应用壁垒偏低和行业特征较弱等属性,使得相应领域在接入通用AI大模型后的应用产品化落地较快,普适性较高,但下游应用相应也面临较大的同质化挑战。

技术驱动下,行业智能化升级的趋势清晰。多模态大模型在各类文本、图片、音视频等方面表现出了愈加出众的能力,一方面能够以优于人类的知识水平承担信息挖掘、素材调用、编辑优化等基础劳动,另一方面更重要的是能够创新内容生产的流程和范式,为更具想像力的内容、更加多样化的传播方式提供可能性,降低创作门槛,推动内容生产更加高效、便捷。我们认为,在技术驱动下产生的行业变革已经显现,全面拥抱生成式AI技术,提升产品智能化功能,或成为文本办公类、程序开发类、创意设计类等各类应用软件的必然选择。

竞争格局方面,下游应用面临同质化竞争的背景下,在商业模式和收费方式上取得差异化优势的企业有利于占据领先地位。目前,商业模式正在向两个方向探索:模型提供商推出的AI服务多以“按次收费”或“按时长收费”的形式落地,并尝试自研应用的拓展;其也寻求与应用厂商的合作,将模型能力嵌入到应用软件后实现商业化。总体而言,现阶段仍处于商业化早期阶段,最终价值将如何在大模型厂商与应用厂商之间分配,目前仍有较大不确定性。下一阶段,各科技厂商能否探索出稳定、可持续的尤其是To B端的商业模式并确定合理的产业链定位将会成为竞争的关键。

三、专业垂直领域,AI 大模型的应用对各行业影响各异

各行业智能化升级仍受限于数据安全、技术壁垒以及监管要求。尽管类GPT大模型具有极强的通用泛化能力,在许多行业场景中展现出强大性能,但是在一些专业程度较高的领域,其输出内容在一致性、正确性预计可解释性等方面仍存在不足。其主要是AI大模型在训练过程中使用的大多是互联网上的公开数据,难以深度覆盖专业性较强的垂直领域。但是许多行业中最有价值的Know-how并不在公开资料中,而是在企业的私有数据库、行业专家、企业员工的工作经验里。因此,AI大模型的应用对不同行业的影响存在差异性。总体而言,存在以下规律:

(1)在面向C端用户的,通用行政办公类应用和消费服务应用受AI大模型影响的智能化升级节奏更快,产品化落地较快,其主因是在数据可采集的渠道更加丰富且受监管的要求较低。

(2)面向B端用户的,专业化程度较高的领域,例如医疗、金融、工业等行业的智能化升级需要更多专业领域的数据训练,相应的商业化节奏较慢,其主因是行业的特殊性导致数据安全要求较高、试错成本高、受监管要求较高等。

(一)从 OpenAI 的插件系统拓展节奏看行业应用的变化趋势

OpenAI的Plugins覆盖范围快速扩散,加速影响行业应用。2023年5月13日,OpenAI宣布近期向所有ChatGPT Plus付费用户开放Web Browsing(网页浏览)和Plugins(插件系统)功能,测试由Alpha进入Beta阶段,升级实时应用体验及插件生态系统。2023年3月底,OpenAI的Plugins开启Alpha测试阶段时仅包含12个第三方插件。不到两个月时间,Plugins插件系统快速扩展至超过70个应用,覆盖办公、教育、电商等诸多领域。我们判断,Plugins覆盖范围的快速扩散开启了GPT大模型在各垂直领域的应用,对于行业应用的影响有望加速。

首批开放的插件已覆盖衣食住行等各领域,合作企业处于行业第一梯队。2023年3月,OpenAI首批开放可使用的第三方插件有12个,涉及8个领域:

1. 旅游出行2个:全球范围内领先的旅游信息服务平台Expedia和KAYAK

2. 食品外卖1个:美国和加拿大领先的在线食品杂物外卖平台Instacart

3. 餐饮预订1个:全球范围领先的在线餐厅预定平台Open Table

4. 在线购物2个:全球范围内领先的在线购物平台Shopify和Klarna Shopping

5. 数据提供商1个:全球领先的法律、政治、监管政策数据信息提供商FiscalNote

6. 语音服务2个:AI语音服务商Speak和Milo

7. 科学研究1个:美国范围内领先的科研工具平台Wolfram

8. 通讯工具2个:全球范围内领先的在线应用集成平台Zapier和Slack

首批插件的开放展现出OpenAI在着力深入各垂直领域知识,在塑造行业生态建设的前瞻性方面走在了整个AI大模型行业的前列,有利于催生AI大模型在各垂直领域实现商业化和产品化落地。在行业中市场份额和AI技术储备处于相对领先位置的企业将会主动寻求与OpenAI合作抢占先机,巩固市场和技术方面的相对优势。例如FiscalNote是全球领先的法律、政治、监管政策与数据信息提供商,也是OpenAI首次开发插件应用时在该领域的唯一启动合作伙伴。FiscalNote将利用此次接入插件的机会,进一步了解用户在使用AI大模型理解相关领域信息的需求,同时其在垂直领域的专属数据集也提高了GPT-4回答专业问题的准确性。我们认为,首次插件开放既体现了合作伙伴在行业私域数据集和训练模型方面的积累,又体现出OpenAI在优化大模型和专业数据收集工作方面的前瞻性。

我们对比了此次Beta测试阶段的接入的超过70家第三方插件相应公司的行业地位和市场规模。从3月底的Alpha测试阶段至今,两个月间Plugins插件系统由各行业的一线公司快速拓展到二、三线公司,GPT大模型在各垂直场景的应用正在深入和加快。在Beta测试阶段插件商店覆盖了涉及到通用行政办公(27个)、餐饮/食谱(4个)、房地产(5个)、购物(5个)、交通/旅行/天气(6个)、金融商业(4个)、就业服务(2个)、社交(1个)、社区服务(1个)、网站服务(3个)、医疗保健(1个)、娱乐/媒体/游戏(9个)、运动(2个)等13个行业领域,体现出Plugins插件系统在与消费者日常行为相关度较高的领域的应用进程正在加快

各行业专业化程度和AI大模型试错成本存在较大差异,其直接影响GPT-4在下游行业应用的技术安全性与商业普适性。接入Plugins插件系统在医疗保健领域仅有一家公司Shimmer: Nutrition Coach。医疗领域的专业性较强、安全要求较高,其智能化升级或需要更多的专业领域数据的训练。许多行业中最有价值的Know-how并不在公开资料中,而是在企业的私域数据库、行业专家、企业员工的工作经验中。例如医疗领域的专业性较强、安全要求较高,与生命安全密切相关的行业特殊性决定了生成式AI在该领域的试错成本较高,所以其智能化升级需要更多专业领域数据的训练,商业化进程较慢,受到的监管要求也更高。

我们认为,虽然衣食住行等消费领域的AI应用产品化落地较快,普适性较高,但是也容易陷入同质化竞争的局面,而在商业模式和收费方式上取得差异化优势的企业有利于占据领先地位。医疗、金融等高壁垒领域虽然技术安全难度较大,商业化进程较慢,但这也为在行业私域数据和模型训练有所积累的企业提供了重塑竞争格局的机会。

AI大模型的泛化能力叠加垂直领域Know-how有望催生新型生态系统。Plugins插件系统的推出和范围扩大是集合了各行业生态伙伴的力量,来弥补GPT大模型在垂直领域专业性不足的问题。我们认为,此次升级的拥有专业领域知识的插件系统,通过第三方不断丰富的应用知识库有效增强自身生态建设,加速其在各垂直行业应用的渗透,最终将使得GPT-4成为超级入口的可能性大大增加。另一方面,GPT-4集合各垂直领域应用的新型生态系统的推出,对于拥有简单功能的APP预计将形成较大冲击和挑战,现有入口体系面临技术驱动下重新洗牌的风险。

(二)AI+金融:由客服向投研领域逐步拓展

数据的安全性和监管合规的要求使得AI大模型在金融领域的应用呈现出私域的特点。金融领域的数据涉及较多用户的隐私信息,如身份信息、资产信息和交易数据等。因此,数据安全防范和隐私保护在金融行业在信息化和智能化升级中是必须考虑的前提。此外,监管合规的要求也使得金融行业的数据获取的权限有级别之分,较大部分数据仅限于企业内部使用。因此,由于数据获取难度大和数据安全保护的要求,使得AI大模型在金融领域的训练和应用环节都遇到了较高的行业壁垒。我们认为,AI大模型在金融领域的应用,更可行的方式是利用行业或企业私域数据,训练出本地使用的AI大模型在内部使用。

AI大模型技术在金融领域将首先在客服和辅助研究等场景落地,随着国内大模型逐渐优化,投研端才有可能逐渐接入。根据基于金融行业特有的行业属性,大规模商用的技术对于准确性、可控性、时效性有很高的要求,并且需要具备很强的专业性、逻辑性和创造性。通用AI大模型缺乏金融行业特有数据的训练,因此其对金融专业问题的人机交互和内容生成效果一般。在观察了彭博社推出的大语言模型BloombergGPT开发和应用过程后,我们可以预期金融行业的公司或借鉴通用AI大模型的技术原理,结合自身专业数据积累,打造属于企业内部的小模型,应用场景由客服、顾问等一般应用逐步向投研、理财等核心应用拓展。

彭博社推出BloombergGPT,持续引领金融科技创新浪潮。2023年3月30日,彭博社发布了一篇研究论文,详细介绍了 BloombergGPT大语言模型的开发。这种大型语言模型(LLM)专门针对各种金融数据进行了训练,以支持金融行业内的各种自然语言处理任务。该模型是基于BLOOM、专为金融行业打造的500亿参数大语言模型。BloombergGPT将协助彭博社升级现有的金融NLP任务,例如情感分析、命名实体识别、新闻分类和问答等。此外,BloombergGPT可通过分析彭博机终端上可用的大量数据,挖掘数据价值,提升用户体验。

BloombergGPT在现有的金融特定NLP基准、一套彭博内部基准、来自流行基准的广泛通用NLP任务类别(例如,BIG-bench Hard、知识评估、阅读理解和语言任务)上得到验证。值得注意的是,BloombergGPT模型在金融任务上的表现远超类似规模的开放模型,而在一般NLP基准上的表现也达到甚至超过了平均水平。

在模型技术路线上,国内外厂商的选择有所差异,国内的金融公司如同花顺、恒生电子借鉴的是BERT大模型。BERT是基于Transformer走Encoder的技术路线,考虑上下文来组织文字内容的生成,更加适合完形填空、阅读理解类的任务。而GPT是走的Decoder的技术路线,只考虑上文,对于下文的内容生成自由度比较高,更加适合自由问答类的任务。从目前相关应用落地速度来看,GPT的表现略胜一筹。

同花顺持续践行“All in AI”战略,已积累多项AI技术。同花顺在AI领域的研发投入较大,尤其近两年加大了对机器学习、自然语言处理、智能语音、图形图像识别与处理、数字人等关键技术的攻关,特别是在AI大模型、生成式AI技术等领域的应用研究,并将相关成果运用到金融信息产品和服务中,提升用户体验和产品竞争力。目前,公司可面向客户提供数字虚拟人、智能金融问答、智能语音、智能客服机器人、智能质检机器人、会议转写系统、智慧政务平台、智能医疗辅助系统等40余项人工智能产品及服务,应用于证券、基金、银行、保险等多个行业。

同花顺的AI技术不仅用于内部赋能,还对外输出提供服务。

基于公司积累多年的AI技术和知识库,结合其在实际工作中总结的业务经验,打造行业化或专项场景的解决方案,较好的满足了行业客户的定制化需求。同花顺现已推出外呼机器人、银行理财机器人、智能保险顾问、互联网舆情分析、智能营销、智能硬件、企业大数据等产品和服务,为企业客户提供了丰富的行业解决方案。

(三)AI+医疗:AI 大模型结合医疗专业领域数据辅助医疗工作

AI大模型在医疗领域的应用需要更多专业数据的训练。无论是过去围绕医疗影像的AI识别功能进行辅助诊断,还是未来有望实现病历生成、病因诊断、药物研发,各项应用都离不开医疗领域的专业数据。医疗领域的专业性较强、安全要求较高,与生命安全密切相关的行业特殊性决定了AI大模型在该领域的试错成本较高,所以其智能化升级需要更多专业领域数据的训练,商业化进程较慢。

我们预计,使用医疗专业知识对AI大模型进行训练后,可快速应用到各个的医疗场景中,有望在围绕临床的全流程中发挥巨大价值,具体体现在以下方面:

(1)自动生成电子病历:通常在问诊阶段,医生在传统医疗信息化系统中还是手动记录输入病例信息信息。多模态大模型的生成能力可以部分替代手动输入的工作,例如大模型可以输入患者和医生的对话并摘取关键信息,医生不用边问诊边记录,转而专注于与患者的对话。对话完成后,AI大模型就能自动生成电子病历,然后自动导入当前的医疗信息化系统。

(2)自动生成诊断决策备选:当前CDSS临床辅助决策系统会根据患者症状提供非常多相关疾病的治疗手段,具体下一步做什么检查进行确诊还是需要靠医生的经验和判断。AIGC可以根据自己整理的患者症状将可能的疾病及相关的诊疗方法排序,给予医生强有力的决策支撑。如果医疗信息化厂商能够提供以往数据去对AI大模型进行专项训练,随着其准确性的提高,大模型可以提供每个病人相对准确的病因和诊疗方法,降低医生的误诊率,提升基层医院的医疗水平。

(3)高效多模态获取患者信息并准确分诊:当前互联网医疗具有智能助手进行分诊提升问诊效率,但是获取的信息较粗浅,分诊准确度低,虽然可以语音输入和发送照片,但是智能助手对此反馈内容较少,还是需要医生去处理。多模态大模型可以更机动灵活地跟患者对话,并从患者的描述中提取详细的信息,部分取代智能助手的工作。大模型在获取和整理患者的症状、患者基本信息、过往用药史等方面可以部分值班医生的部分工作,有效减少医生线上沟通时间和成本。

(4)降低药物研发周期:2023年1月23日,加州伯克利一家创业公司利用类似ChatGPT的LLM模型“Progen”合成了自然界不存在的新蛋白质,为GPT未来在药物研发应用方向提供方向,即读取不同氨基酸序列,合成新型蛋白质。为了创建该模型,研究人员输入了280.56亿种不同蛋白质的氨基酸序列,模型在几周内“消化”。过去,在自然界中挖掘蛋白质或将蛋白质调整到所需的功能是非常费力的。

如果能够定向将氨基酸序列数据输入GPT进行训练,参数量更为庞大的GPT大模型理论上可以取得更加精准的效果,我们认为,多模态大模型在新药研发方面也有一定应用前景。

国内方面,卫宁健康于2023年1月启动医疗垂直领域的大语言模型WiNGPT的研发和训练工作,并计划于10月的Winning World2023大会上正式发布基于WiNGPT的WiNEX Copilot产品。

WiNGPT采用通用GPT架构、60亿参数,截至5月总训练Token数达37亿,实现从预训练到微调的医疗大模型全过程自研,共包含7大类基础任务(问答、多轮对话、信息抽取、归一化、文本相似计算、摘要、分类、生成)。WiNGPT聚焦于医疗垂直领域,以专业医疗知识为训练数据集,因此训练数据规模远小于GPT类通用大模型。此外,WiNGPT支持本地化与私有云部署方式,可最大程度保护医院的数据安全、降低合规风险。

卫宁在WiNEX产品研发过程中构建起的强大底层知识库以及作为国内医疗IT龙头所拥有的丰富业务场景成为公司自研医疗专业大模型并快速推向商用的核心优势。公司19年与人民卫生出版社签署战略合作协议,在优质数据源的保障下持续强化底层数据治理能力,根据21年产品发布会信息,WiNEX知识库中已拥有超20万条医疗知识以及超900个数据模型。因此WiNGPT项目并非仓促上马,而是与19年以来的WiNEX研发工作一脉相承,WiNEX长期积累的医疗数据与模型优势有望借助WiNEX Copilot产品实现量变到质变的跃迁。

预计WiNEX Copilot在初期阶段将主要应用于互联网问诊、医疗知识问答、PACS辅助阅片等,公司也将在后续模型升级迭代的过程中,进一步探索拓宽商业化落地场景。

总体而言,现阶段仍处于多模态大模型技术商业化落地的早期,产品推广和生态建设的重要性高于智能化功能直接变现和产品提价。在多模态大模型技术一定程度开

放的背景下,应用厂商纷纷推出智能化升级的产品,行业进入产品化初中期。下一阶段,探索智能化升级的应用的商业模式将会成为行业格局变化的重点。我们认为,在格局未定的初期阶段,较为合理的商业化落地方式是,应用软件智能化升级、竞争力增强后,吸引更多用户使用,拓展生态合作伙伴,扩大市场份额的方式提升商业化落地规模。后续,若行业进入产品化成熟期,商业化规模收费成为行业趋势,应用厂商具备功能升级后产品提价的基础,彼时才进入产业腾飞的商业爆发期。

在行业应用智能化升级的过程中,B端应用的高专业性、高壁垒、数据私域性等特点给于应用龙头公司扩大领先优势的机会。在特定垂直领域,行业龙头往往在技术积累、私域数据、行业客户需求理解以及生态建设方面有相对优势的企业。行业龙头接入多模态大模型后,无论是智能化提升带来的产品化进展,还是客户群体扩大后带来的商业化落地,都较大概率比其他公司带来更多的增量,或推动其领先优势的加速扩大。接下来,行业在进入以产品推广和生态建设为重点的阶段,面向B端应用的龙头公司通过市场份额的提升有望获得更多溢价,建议关注金山办公、石基信息、同花顺、卫宁健康、科大讯飞等应用领域行业龙头公司。

(报告来源:广发证券,仅供参考。如涉及版权,请联系删除。)

展开阅读全文

页面更新:2024-03-12

标签:模型   场景   图像   差异   方向   领域   功能   内容   数据   用户   行业   产品   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top