ChatGPT是如何变聪明的？

ChatGPT想必很多人都已经用过了，它不仅能够帮忙人们翻译文章、编写代码，还可以根据情景题做出各式各样的回答。创造出这个强大ChatGPT的是美国的人工智能研究实验室OpenAI，另一个在AI绘画圈十分有名的DALL-E也是他们的产品之一。OpenAI在2015年成立时的创始人之一就有埃隆-马斯克，当时组织的目标是和其他的研究者“自由合作”，并且公开所有的专利和研究成果，因此取名OpenAI。然而在马斯克2018年离开团队后，OpenAI设立了以盈利为目的的子公司，并开始接收微软数十亿美元的融资，这也是为什么马斯克在推特上表示这与过去的目标大相径庭，让他觉得十分失望。也许正是因为大公司的融资，现在的ChatGPT才能变得如此强大。

我们要先搞清楚GPT和ChatGPT是两码事儿。GPT-3.5是一个大型语言模型LLM（Large Language Model），而ChatGPT是在GPT-3.5的基础上，再加上人类互动行为，所设计的一种AI聊天机器人程序。使用GPT技术的产品不是只有聊天机器人ChatGPT，许多人使用GPT做出了不同类型的智能型服务，例如可以帮你列出待办事项的checklist.gg，或是GitHub与OpenAI一同开发的AI写代码工具GitHub Copilot等等。在GPT-3 DEMO的网站上，就整理了超过600个使用GPT技术的智能型服务。

GPT是什么呢？GPT是一种大型语言模型（Large Language Model），它是自然语言处理技术NLP的其中一种。所谓的自然语言就是中文、英文、日文、法文等等这些自然随着文化诞生的语言，而语言处理技术则泛指对语言的结构进行分析，其中包括对语句进行理解、解析，并进行内容生成的技术；语言模型则是从很多的资料当中学习出，根据前文来推算出下一个最有可能发生什么字的模型。

类似的功能你很早就开始用了，手机输入法中的自动选字就是一个语言模型，但是GPT不只是简单地给你下一个字的选项，而是根据事前训练好的模型，自动输出下一个字、下一句话，甚至可以根据问题回答整篇文章。这是怎么做到的呢？其实跟你手机的输入法一样，GPT的核心概念也是依照你前面输入的字来判断下一个字要生成什么。相较于较为傻瓜式的手机输入法，GPT则会完整分析前面整句话并给出完整的回答。

GPT是怎么运作的？在GPT展现它的强大能力之前，需要有两个步骤的调教，分别是预训练与微调。GPT的全称叫做Generative Pre-trained Transformer，翻译过来就是生成式预训练。这里的预训练指的是大量喂入文本资料。GPT会在训练的过程中不断调整自身的参数，增加预测下一个字该出现什么的准确度。

你可以想象，当你输入“披萨上面最该放的配料是......”，原来手机会判断后面接“什么”、“谁”、“不是”等字样，但经过训练后，GPT会根据过去的资料学习，得以根据前面披萨、配料等关键字计算出通常这句话后面第一个字出现“肉”的概率是30%，“番”、“海”的概率是20%，“凤”的概率是10%，每个字的概率不同，这就是为什么每次GPT回答都会不一样的原因。如果这次GPT选择了“凤”，接着这个句子就变成了“披萨上面最该放的配料是凤......”，只要再计算一次，就能得到下一个字出现“梨”的概率是100%了。

当GPT分析完工程师喂进来的所有资料后，预训练就结束了，但是要让GPT能够完成翻译、写小说、画画、写程序等诸多功能，还需要进行微调，这就像是GPT在考试之前，先做大量的练习题。在微调阶段，工程师会拿带有特定标签的文本让GPT去学习。例如，当我们说“请帮我翻译成中文”时，工程师会提供许多范例，并透过标记让它理解“Apple”是“苹果”的英文，“苹果”则是它的中文，让GPT正确理解翻译成中文的意思，往后只要我们再说“请帮我翻译成中文”，它就能正确回答问题了。

GPT的原理似乎还可以理解，但GPT那远甩其他语言模型好几条街，能够完成大量我们想到又或者还没想到的任务的能力是哪里来的呢？在原先的架构中，微调需要大量的人工作业，而且每次遇到新任务就要再花费人力训练，这就需要大量的时间、人力以及金钱。不过当GPT从GPT-1进阶到GPT-2的时候，OpenAI尝试减少甚至拿掉了微调的步骤，他们增加了GPT-2的文本训练量，同时增加了参数数量，将GPT-1的1.17亿参数提高到了GPT-2的15亿参数量。可怕的是，变大的GPT-2不只是懂得更多了，甚至能在没有微调的训练下理解人类提问的问题，这震惊了众人。于是OpenAI用相同原则再次让GPT-2的参数提高了135倍，打造出拥有1750亿参数量的GPT-3。GPT-3用以量取胜的方式成为目前最强大的大型语言模型，在没有人工微调的情况下，在one-shot、zero-shot的表现仍然超乎预期。

一发、零发是什么意思呢？Shot指的是OpenAI带着GPT-3进行训练的示例，附带少数示例的叫做few-shot，仅有一个示例的叫做one-shot，完全没有示例就是zero-shot，然后各自进行分数计算，可以明显看到，当模型的参数量增加，即使没有微调，正确率也会上升。更超乎想象的，这种大型语言模型不只是单纯地回答问题，它还可以详细说明这个过程。例如问它：梨子是否会沉入水底？它不只是会回答no，它还会告诉你，因为梨子的密度大约是每立方厘米0.6克，小于水的密度，因此会浮在水上。科学家推测，在大型语言模型中，可能已经让AI建立起一种思考链（Chain-of-Thought）。能以逻辑推理的方式回答简单的数学与尝试推理题目，AI会思考这件事变得越来越有真实性。

GPT的数据来自哪里？GPT能变得如此巨大，靠的是超过45TB的训练数据，但你有想过这些数据是怎么来的吗？GPT的数据大约有20%是来自于Reddit。OpenAI收集了Reddit上Karma值大于3的使用者的贴文作为训练数据。该数据因为是经过人类整理的文章，清晰易懂，类似于带有完整标记的资料，是优秀的参考文本。

除了Reddit之外，推特、维基百科也是OpenAI的数据收集来源，而资料库中超过60%的来源都是来自于非营利组织Common Crawl爬虫程序收集的资料。Common Crawl会定期网罗网络上公开的所有网页数据，提供给搜索引擎、AI等研究者使用，但是超过300TB杂乱无章的数据并不是优质的数据，而且由于Common Crawl没有将这些数据进行筛选，看到什么就抓取什么，也让GPT出现许多抄袭的现象，像CNN、华尔街日报等多家主流媒体都曾指责OpenAI在未经许可的情况之下，使用他们的文章用于GPT训练。

GPT除了可能要面对未来的竞争对手之外，自身也还有许多不足之处，OpenAI在论文中也特别提到，他们十分担心这样的工具会被别有用心之人使用。另外，无限制的收集数据，也会使得资料库用字受到网络数据的影响，例如在OpenAI调查的文本当中，对于亚洲人、黑人、白人、拉丁裔等等的形容词，正面形容词给正分，负面形容词给负分，他们发现描述黑人的形容词分数明显低于其他人，并且这种情况并不会随着参数增加而有所改善，类似的问题除了人种外，在性别、宗教的方面也有相同问题。除此之外，如果网络上的数据错误的比正确的多，也会影响到样本的有效性。

针对这些问题，OpenAI的技术总监Mira Murati在接受《时代杂志TIME》的采访时说到，这是一个特别的时刻，OpenAI等类似的公司应该要受到一定程度的规范。我们得确保它为人类服务，并且我们必须倾听哲学家、社会科学家、艺术家、人文学专家等不同领域的建议。OpenAI会审慎确保AI不会伤害人类，同时这类的问题需要所有人一起加入讨论。

类似ChatGPT的AI成为我们日常生活一部分的未来已经不可避免，现在已经有很多人在收集资料与制作脚本的过程中，常常使用GPT来辅助，但就连主流搜索引擎搜索到的资料都得再三查证，时常错误的ChatGPT更是如此。比起要让GPT取代所有工作，我们更发现它流畅的问答以及可以回答开放性问题的特性，非常适合用于创意发想，在快速资料整理、截取重点还有文稿校对当中也能扮演重要的角色。

展开阅读全文

页面更新：2024-03-04

标签：形容词示例概率中文模型文本聪明参数语言数据资料

1 2 3 4 5

ChatGPT是如何变聪明的？

ChatGPT带来的巨大范式转移，意味着什么｜中企荐读

泡妞才是世界首富的最强项！马斯克最让人佩服并不是科技创新！

小鹏汽车人脸识别要给车“下跪”？小鹏道歉，但错不在小鹏？

Chatgpt 有望迎来应用新领域，附上相关个股

谷歌AI绘画4大牛携手创业，天使估值7个亿

全国政协委员贺晗：未来数字经济要拼的是“智能”

武汉理工大学主办第九届电气工程、控制和机器人技术国际会议

每日复盘：新手如何进行复盘-2023.3.3

刘强东抄起家伙干拼多多！京东百亿补贴3月6日上线

平台算法机制下寄生型软件的不正当竞争认定

特斯拉Model 3是2月份澳大利亚最畅销电动汽车

国民品牌酷狗音乐登上“世界第一屏” 彰显音乐科技力量

废旧行业不丢人，经营好这2类废品一点不少挣，门槛低、投资还小

1个人经营也能年入10多万，这2个小生意规模小，但不比大买卖少挣

2023年多人的银行卡都遭遇了交易限额？究竟是怎么回事？真相来了

"超级玛丽"、"魂斗罗"是用什么语言开发的

主数据定时同步流程开发总结

数字经济+时空大数据+信创+人工智能+云计算+智慧政务！

Navicat Premium for Mac(数据库管理工具)

构建科学审评指导体系促进真实世界数据研究人工智能

多项数据创新高，光伏产业发展火热，粤港澳大湾区有何优势

Rust学习笔记（一）：从零开始学习Rust编程语言

04_JavaScript中的数据类型

肖战中英文自如切换展态度，古驰主题全场唯一中文表达显

38+10，31+10！哈登大帝神数据43年首次，NBA历史第6次出现