目前,深度学习已在计算机视觉和自然语言处理等 AI 领域获得巨大的成功。例如,ResNets 在图像分类方面已经超越了人类的表现,RoBERTa 模型在 GLUE 基准测试的自然语言理解任务中也优于人类。然而,现有的 AI 技术大多只关注图像分类、语言理解以及关系推理等单一认知层面的任务。
近日,由中国人民大学高瓴人工智能学院院长文继荣教授牵头、卢志武教授为主的团队采用弱语义相关数据以及自监督学习的方式对基础模型进行预训练,带来了一种具有极大逻辑想象力的多模态通用 AI 模型 BriVL,能够高效地处理各类下游认知任务。
该团队称,“我们的工作朝着通用人工智能(Artificial General Intelligence,简称 AGI)迈出了变革性的一步,从我们常见的弱或狭义 AI 转变到强或广义 AI 的实践。”
相关论文以《通过多模态基础模型走向人工智能》(Towards Artificial General Intelligence via a Multimodal Foundation Model)为题发表在 Nature Communications 上,中国人民大学高瓴人工智能学院卢志武教授、孙浩长聘副教授、以及院长文继荣教授担任共同通讯作者,中国人民大学高瓴人工智能学院费楠益为第一作者[1]。
据了解,现有的多模态基础模型在快速学习/转移和跨模态理解任务方面有所成就,但其中涉及的输入图像-文本对大多都是强语义相关的;也就是说,图像中的对象与文本中的单词需达到精确匹配的程度,这严重限制了模型的泛化能力。物体检测器和单塔体系结构是两种常用的方法,但都具有较高的计算成本,因此限制了实际应用。
针对上述问题,该团队决定通过自监督学习来开发大规模的多模态基础模型。
首先,在建立模型预训练的数据集时,研究人员选择采用互联网上爬取的弱语义相关数据。据悉,他们总共从网络中爬取了 6.5 亿个图文对,其中很多数据蕴含了众多复杂且抽象的人类情感和思想。
该团队表示,与以往通过直接图像到文本“翻译”来建模强语义关联数据相比,这种通过图像-文本弱语义关联数据进行建模的方式更有利于他们学习到更强的认知模型。
其次,在设计网络架构时,他们放弃耗时的物体检测器,转而选择了图像划分格子的表示方式并采用更为简单高效的双塔架构,该架构利用两个单独的编码器处理图像和文本,在推理过程中的效率上较高,可满足现实应用中的延迟要求。
接着,为建模弱图像-文本相关性并学习全局级图像/文本嵌入对齐的统一语义空间,该团队设计了一种跨模态对比学习(CL,Contrastive Learning)算法,CL 是一种特殊的自监督学习形式,其最初是在单模态模型中发展起来的。
最后,研究人员采用 BriVL 对各种下游认知任务进行了广泛的实验,证明了该模型强大的跨模态理解能力、跨领域学习/转移能力以及逻辑想象力。该团队称,“虽然我们的 BriVL 只是预先训练了图像-文本匹配学习目标,但它强大的泛化能力已经初步满足了 AGI 系统应该具备的一些关键特性。”
近年来,OpenAI 的 CLIP 和谷歌的 ALIGN 作为热门的多模态大模型掀起一阵多模态学习的风潮,BriVL 与这两个模型存在明显区别。
一是,BriVL 遵循弱语义关联假设来构建从互联网爬取的巨大数据集,收集的数据只过滤了色情/敏感数据;而 CLIP 只保留词频较高的图像-文本对,ALIGN 还通过一些规则排除了词频极低的文本以及过长、过短的文本;相比之下,BriVL 的数据集保留了更接近现实世界的数据分布。
二是,BriVL 在维护负样本训练框架时,所用到的是 momentum 动量算法,因此拥有较大的负样本量,所需的批处理大小相对较小,在算力资源有限时也能完成模型预训练;而 CLIP 和 ALIGN 在每个训练批处理中都使用负样本,需要较大的批处理大小,模型预训练的算力要求更高。
三是,BriVL 模型在可解释性上开始了初步的探索,而这在其他相关工作中基本没有予以考虑。
总体而言,这项研究表明,多模态预训练基础模型已经初步取得了出色的成就。随着更多的感官模式用于多模式预训练,并进一步探索更先进的基础模型,研究人员将更有可能接近 AGI ,并最终对包括神经科学、医疗保健和生物医学在内的各种 AI+领域产生广泛的影响。
例如,医疗保健方面,多模态基础模型能够通过分析多模态的病例数据做出更准确的疾病诊断;在神经科学中,多模态基础模型可以当作一个辅助工具,用于发现人脑中多模态数据连接和融合的机制。
不过,该团队表示,当前大规模多模态基础模型的理解和分析研究还只是个开始。今后,为更好地理解这类基础模型,他们还将开发出更多新颖的可解释分析工具。例如,由于图像可以被视为一种普遍理解的“语言”,利用包含多种语言的更大数据集可能会得到作为多模态预训练副产品的更强语言翻译模型。
此外,研究人员还可以探索视频和音频等模式 ,以预训练出更强的 AI 模型,从而一步步地接近真正的 AGI。
参考资料:
1.Fei, N., Lu, Z., Gao, Y. et al. Towards artificial general intelligence via a multimodal foundation model. Nat Commun 13, 3094 (2022). https://doi.org/10.1038/s41467-022-30761-2
页面更新:2024-05-14
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号