2023年的7个顶级大模型含视觉语言模型

在快速发展的人工智能领域,自然语言处理已成为研究人员和开发人员关注的焦点。 近年来,在 Transformer 架构和 BERT 双向升级的基础上,出现了几种突破性的语言模型,突破了机器理解和生成的界限。

在本文中,我们将深入研究大规模语言模型领域的最新进展,探索每个模型引入的增强功能、其功能和潜在应用。 我们还将研究视觉语言模型 (VLM),这些模型经过训练不仅可以处理文本数据,还可以处理视觉数据。

推荐:用 NSDT编辑器 快速搭建可编程3D场景

1、OpenAI GPT-3

OpenAI 团队推出了 GPT-3,作为为每个新语言任务提供标记数据集的替代方案。 他们建议扩大语言模型的规模可以提高与任务无关的小样本性能。 为了测试这一建议,他们训练了一个名为 GPT-3 的 175B 参数自回归语言模型,并评估了其在二十多个 NLP 任务上的性能。 在少样本学习、单样本学习和零样本学习下的评估表明,GPT-3 取得了可喜的结果,甚至偶尔优于微调模型所取得的最先进的结果。

GPT-3的目标是什么?

如何解决这个问题?

结果如何?

“GPT-3 的炒作太过分了。 它令人印象深刻(感谢您的赞美!),但它仍然有严重的弱点,有时会犯非常愚蠢的错误。 人工智能将改变世界,但 GPT-3 只是一个非常早期的雏形。 我们还有很多事情需要弄清楚。” – Sam Altman,OpenAI 首席执行官兼联合创始人。

“我很震惊,从 GPT-3 生成与暴力……或被杀无关的有关穆斯林的文本是多么困难……”——Gradio 首席执行官兼创始人 Abubakar Abid。

“不。 GPT-3 从根本上不理解它所谈论的世界。 进一步增加语料库将使其能够生成更可信的模仿作品,但无法解决其对世界理解的根本缺陷。 GPT-4 的演示仍然需要人工挑选。” – Gary Marcus,Robust.ai 首席执行官兼创始人。
“将 GPT3 的惊人性能推断到未来表明,生命、宇宙和一切的答案只是 4.398 万亿个参数。” ——杰弗里·辛顿(Geoffrey Hinton),图灵奖获得者。

在哪里可以了解有关GPT-3研究的更多信息?

哪里可以获得GPT-3的实现代码?

2、Google LaMDA

对话应用语言模型 (LaMDA) 是通过微调一组专门为对话设计的基于 Transformer 的神经语言模型而创建的。 这些模型最多有 137B 个参数,并经过训练以使用外部知识源。 LaMDA 开发人员牢记三个关键目标:质量、安全和扎实。 结果表明,微调可以缩小与人类水平的质量差距,但模型在安全性和接地性方面的性能仍然低于人类水平。

Google 的 Bard 最近作为 ChatGPT 的替代品发布,由 LaMDA 提供支持。 尽管Bard经常被贴上无聊的标签,但它可以被视为谷歌致力于优先考虑安全的证据,即使谷歌和微软之间为了在生成人工智能领域建立主导地位而展开激烈竞争。

LaMDA的目标是什么?

LaMDA如何解决这个问题?

结果如何?

在哪里可以了解有关LaMDA研究的更多信息?

哪里可以获得LaMDA的实现代码?

3、Google PaLM

PaLM(Pathways Language Model)是一个拥有 5400 亿个参数、基于 Transformer 的语言模型。 PaLM 使用 Pathways 在 6144 TPU v4 芯片上进行训练,Pathways 是一种新的 ML 系统,可跨多个 TPU Pod 进行高效训练。 该模型展示了在少量学习中进行扩展的好处,在数百个语言理解和生成基准上取得了最先进的结果。 PaLM 在多步推理任务上的表现优于经过微调的最先进模型,并且在 BIG-bench 基准测试中超过了人类的平均表现。

PaLM的目标是什么?

PaLM如何解决这个问题?

结果如何?

在哪里可以了解有关PaLM研究的更多信息?

哪里可以获得PaLM的实现代码?

4、DeepMind Flamingo

Flamingo 是一个尖端的视觉语言模型 (VLM) 系列,在包含混合文本和图像的大规模多模态网络语料库上进行训练。 通过这种训练,模型可以使用最少的带注释的示例(作为提示提供)来适应新任务。 Flamingo 融合了关键的架构进步,旨在融合预训练的仅视觉和仅语言模型的优势,处理可变交错的视觉和文本数据序列,并无缝容纳图像或视频作为输入。 这些模型展示了对一系列图像和视频任务(例如视觉问答、字幕任务和多项选择视觉问答)的令人印象深刻的适应性,在几次学习中使用特定于任务的提示设定了新的性能标准。

Flamingo的目标是什么?

Flamingo如何解决这个问题?

结果如何?

在哪里可以了解有关Flamingo研究的更多信息?

哪里可以获得Flamingo的实现代码?

5、Salesforce BLIP-2

BLIP-2 是一种高效且通用的视觉和语言模型预训练框架,旨在规避预训练大型模型日益高昂的成本。 BLIP-2 利用现成的冻结预训练图像编码器和冻结大型语言模型来引导视觉语言预训练,并结合了分两个阶段预训练的轻量级查询转换器。 第一阶段从冻结的图像编码器启动视觉语言表示学习,第二阶段推动从冻结的语言模型进行视觉到语言的生成学习。 尽管可训练参数明显减少,但 BLIP-2 的性能优于最先进的方法,在零样本 VQAv2 上超过 DeepMind 的 Flamingo80B 8.7%,可训练参数少了 54 倍。 该模型还展现了遵循自然语言指令的有前途的零样本图像到文本生成功能。

BLIP-2的目标是什么?

BLIP-2如何解决这个问题?

结果如何?

在哪里可以了解有关BLIP-2研究的更多信息?

哪里可以获得BLIP-2的实现代码?

6、Meta LLaMA

Meta AI 团队声称,在更多令牌上训练的较小模型更容易针对特定产品应用进行重新训练和微调。 因此,他们引入了LLaMA(Large Language Model Meta AI),这是一个具有7B到65B参数的基础语言模型的集合。 LLaMA 33B 和 65B 使用 1.4 万亿个令牌进行训练,而最小的模型 LLaMA 7B 使用 1 万亿个令牌进行训练。 他们专门使用公开可用的数据集,而不依赖专有或受限数据。 该团队还实施了关键的架构增强和训练速度优化技术。 因此,LLaMA-13B 的性能优于 GPT-3,尺寸缩小了 10 倍以上,并且 LLaMA-65B 表现出与 PaLM-540B 竞争的性能。

LLaMA的目标是什么?

LLaMA如何解决这个问题?

结果如何?

在哪里可以了解有关LLaMA研究的更多信息?

哪里可以获得LLaMA的实现代码?

7、OpenAI 的 GPT-4

GPT-4 是一种大规模、多模式模型,它接受图像和文本输入并生成文本输出。 出于竞争和安全考虑,有关模型架构和训练的具体细节被隐瞒。 在性能方面,GPT-4 在传统基准上超越了之前的语言模型,并在用户意图理解和安全属性方面显示出显着改进。 该模型还在各种考试中达到了人类水平的表现,包括在模拟统一律师考试中取得前 10% 的成绩。

GPT-4的目标是什么?

GPT-4如何解决这个问题?

结果如何?

在哪里可以了解有关GPT-4研究的更多信息?

哪里可以获得GPT-4的实现代码?

8、大型(视觉)语言模型的实际应用

近年来最重要的AI研究突破来自于在海量数据集上训练的大型人工智能模型。 这些模型展示了令人印象深刻的性能,并且令人着迷的是人工智能如何彻底改变整个行业,例如客户服务、营销、电子商务、医疗保健、软件开发、新闻业等。

大型语言模型有许多实际应用。 GPT-4 列出了以下内容:

如果我们添加视觉部分,可能的应用领域将进一步扩展:

关注最近的人工智能突破并思考它们在现实世界中的潜在应用是非常令人兴奋的。 然而,在现实生活中部署这些模型之前,我们需要解决相应的风险和限制,不幸的是,这些风险和限制非常重要。

9、风险和限制

如果你向 GPT-4 询问其风险和限制,它可能会为您提供一长串相关问题。 在筛选此列表并添加一些额外的考虑因素后,我最终得出了现代大型语言模型所具有的以下一组关键风险和限制:

10、结束语

大型语言模型无疑彻底改变了自然语言处理领域,并在提高各个角色和行业的生产力方面展现出巨大的潜力。 它们能够生成类似人类的文本、自动执行日常任务以及在创造性和分析过程中提供帮助,这使它们成为当今快节奏、技术驱动的世界中不可或缺的工具。

然而,承认并理解与这些强大模型相关的局限性和风险至关重要。 偏见、错误信息和潜在的恶意使用等问题不容忽视。 随着我们继续将这些人工智能驱动的技术融入我们的日常生活,必须在利用其能力和确保人类监督之间取得平衡,特别是在敏感和高风险的情况下。

如果我们成功地负责任地采用生成式AI技术,我们将为人工智能和人类专业知识共同推动创新并为所有人创造更美好世界的未来铺平道路。


原文链接:http://www.bimant.com/blog/2023-llm-top7/

展开阅读全文

页面更新:2024-03-01

标签:模型   视觉   语言   样本   架构   图像   文本   性能   参数   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top