人大高瓴人工智能学院将广泛影响神经科学、医疗健康等AI+领域

目前，深度学习已在计算机视觉和自然语言处理等 AI 领域获得巨大的成功。例如，ResNets 在图像分类方面已经超越了人类的表现，RoBERTa 模型在 GLUE 基准测试的自然语言理解任务中也优于人类。然而，现有的 AI 技术大多只关注图像分类、语言理解以及关系推理等单一认知层面的任务。

图 | 文继荣（来源：文继荣）

近日，由中国人民大学高瓴人工智能学院院长文继荣教授牵头、卢志武教授为主的团队采用弱语义相关数据以及自监督学习的方式对基础模型进行预训练，带来了一种具有极大逻辑想象力的多模态通用 AI 模型 BriVL，能够高效地处理各类下游认知任务。

图 | 卢志武（来源：卢志武）

该团队称，“我们的工作朝着通用人工智能（Artificial General Intelligence，简称 AGI）迈出了变革性的一步，从我们常见的弱或狭义 AI 转变到强或广义 AI 的实践。”

图 | 孙浩（来源：孙浩）

相关论文以《通过多模态基础模型走向人工智能》（Towards Artificial General Intelligence via a Multimodal Foundation Model）为题发表在 Nature Communications 上，中国人民大学高瓴人工智能学院卢志武教授、孙浩长聘副教授、以及院长文继荣教授担任共同通讯作者，中国人民大学高瓴人工智能学院费楠益为第一作者[1]。

图 | 采用弱训练数据假设的 BriVL 模型的总体框架（来源：Nature Communications）

据了解，现有的多模态基础模型在快速学习/转移和跨模态理解任务方面有所成就，但其中涉及的输入图像-文本对大多都是强语义相关的；也就是说，图像中的对象与文本中的单词需达到精确匹配的程度，这严重限制了模型的泛化能力。物体检测器和单塔体系结构是两种常用的方法，但都具有较高的计算成本，因此限制了实际应用。

针对上述问题，该团队决定通过自监督学习来开发大规模的多模态基础模型。

首先，在建立模型预训练的数据集时，研究人员选择采用互联网上爬取的弱语义相关数据。据悉，他们总共从网络中爬取了 6.5 亿个图文对，其中很多数据蕴含了众多复杂且抽象的人类情感和思想。

图 | BriVL 的神经元可视化，展示其想象力（来源：Nature Communications）

该团队表示，与以往通过直接图像到文本“翻译”来建模强语义关联数据相比，这种通过图像-文本弱语义关联数据进行建模的方式更有利于他们学习到更强的认知模型。

其次，在设计网络架构时，他们放弃耗时的物体检测器，转而选择了图像划分格子的表示方式并采用更为简单高效的双塔架构，该架构利用两个单独的编码器处理图像和文本，在推理过程中的效率上较高，可满足现实应用中的延迟要求。

接着，为建模弱图像-文本相关性并学习全局级图像/文本嵌入对齐的统一语义空间，该团队设计了一种跨模态对比学习（CL，Contrastive Learning）算法，CL 是一种特殊的自监督学习形式，其最初是在单模态模型中发展起来的。

图 | 更清晰的文本到图像生成示例（来源：Nature Communications）

最后，研究人员采用 BriVL 对各种下游认知任务进行了广泛的实验，证明了该模型强大的跨模态理解能力、跨领域学习/转移能力以及逻辑想象力。该团队称，“虽然我们的 BriVL 只是预先训练了图像-文本匹配学习目标，但它强大的泛化能力已经初步满足了 AGI 系统应该具备的一些关键特性。”

近年来，OpenAI 的 CLIP 和谷歌的 ALIGN 作为热门的多模态大模型掀起一阵多模态学习的风潮，BriVL 与这两个模型存在明显区别。

一是，BriVL 遵循弱语义关联假设来构建从互联网爬取的巨大数据集，收集的数据只过滤了色情/敏感数据；而 CLIP 只保留词频较高的图像-文本对，ALIGN 还通过一些规则排除了词频极低的文本以及过长、过短的文本；相比之下，BriVL 的数据集保留了更接近现实世界的数据分布。

二是，BriVL 在维护负样本训练框架时，所用到的是 momentum 动量算法，因此拥有较大的负样本量，所需的批处理大小相对较小，在算力资源有限时也能完成模型预训练；而 CLIP 和 ALIGN 在每个训练批处理中都使用负样本，需要较大的批处理大小，模型预训练的算力要求更高。

三是，BriVL 模型在可解释性上开始了初步的探索，而这在其他相关工作中基本没有予以考虑。

总体而言，这项研究表明，多模态预训练基础模型已经初步取得了出色的成就。随着更多的感官模式用于多模式预训练，并进一步探索更先进的基础模型，研究人员将更有可能接近 AGI ，并最终对包括神经科学、医疗保健和生物医学在内的各种 AI+领域产生广泛的影响。

例如，医疗保健方面，多模态基础模型能够通过分析多模态的病例数据做出更准确的疾病诊断；在神经科学中，多模态基础模型可以当作一个辅助工具，用于发现人脑中多模态数据连接和融合的机制。

不过，该团队表示，当前大规模多模态基础模型的理解和分析研究还只是个开始。今后，为更好地理解这类基础模型，他们还将开发出更多新颖的可解释分析工具。例如，由于图像可以被视为一种普遍理解的“语言”，利用包含多种语言的更大数据集可能会得到作为多模态预训练副产品的更强语言翻译模型。

此外，研究人员还可以探索视频和音频等模式，以预训练出更强的 AI 模型，从而一步步地接近真正的 AGI。

参考资料：
1.Fei, N., Lu, Z., Gao, Y. et al. Towards artificial general intelligence via a multimodal foundation model. Nat Commun 13, 3094 (2022). https://doi.org/10.1038/s41467-022-30761-2

展开阅读全文

页面更新：2024-05-14

标签：人工智能中国人民大学语义模型图像文本神经团队人大来源领域医疗基础科学数据

1 2 3 4 5

人大高瓴人工智能学院将广泛影响神经科学、医疗健康等AI+领域

这脑洞！令人惊叹的焊接大法

燃油车之殇-时代抛弃你，与你无关

RISC-V不得不面临的专利问题

金融知识图谱的应用与探索

造礁石珊瑚组织脱落病研究获进展

大众联手博世开发自动驾驶技术 2023年装配大众车型

我国科学家实现激光雷达系统研制重大突破

半月谈丨智能车：“懂你”却不令你“安心”

马云的人设有争议？

AI四小龙有耐心，资本没有

湖北交投：“黑科技”助力交通“航母”转型发展

如何认识IT

优醺是一种选择，转身看百年老字号企业炫彩新作

地产建筑行业商业承兑汇票逾期3次以上名单披露（2021.10-2022.4）

实体服装店大量倒闭，今后出路在哪里？

我国科学家实现激光雷达系统研制重大突破

1年时间获一亿美元融资，“技术大佬团队”成功把连衣裙

万豪受到新的数据泄露和勒索失败的打击

芯片行业上演抢人大战，企业间竞拍式挖人，如何看待这一现

王者荣耀：你的司空震被乱杀？不如看看这篇基础教学文章

官宣！湖人签下35号秀，14人大名单出炉，仍想交易得到欧文

医渡科技研究报告：医疗大数据市场空间广阔，医疗AI应用可

央行数据：我国社会“融资”总规模314.13万亿，这说明了什

只需万元人民币《生化危机8》吸血鬼夫人模型带回家

科学家教你5招养出成功的小孩