不要再争论人工智能是否“有知觉”-问题是我们能否相信它

不要再争论人工智能是否“有知觉”——问题是我们能否相信它

过去一个月,谷歌工程师布雷克·莱莫因(BlakeLemoine)的文章、采访和其他类型的媒体报道如火如荼。莱莫因告诉《华盛顿邮报》(WashingtonPost),为与用户对话创建的大型语言模型LaMDA是“有感觉的”

在阅读了十几篇关于这个话题的不同观点后,我不得不说,媒体对当前人工智能技术的炒作已经(有点)失望了。许多文章讨论了为什么深层神经网络不是“有知觉的”或“有意识的”与几年前相比,这是一个进步,当时新闻媒体正在创造关于人工智能系统发明自己的语言、接管每项工作以及加速向人工通用智能发展的轰动故事。

但我们再次讨论感知和意识这一事实突显了一个重要的观点:我们的人工智能系统,即大型语言模型,正变得越来越有说服力,同时仍然存在科学家在不同场合指出的根本缺陷。我知道“人工智能愚弄人类”自20世纪60年代伊丽莎·查博特(ElizaChatbot)以来就一直在讨论,但今天的法学硕士实际上处于另一个层面。如果你不知道语言模型是如何工作的,布莱克·莱莫因(BlakeLemoine)与拉姆达(LaMDA)的对话看起来几乎是超现实主义的,即使这些对话是经过精心挑选和编辑的。

然而,我想在这里指出的一点是,“感知”和“意识”并不是关于LLM和当前AI技术的最佳讨论。更重要的讨论将是关于人类兼容性和信任的讨论,特别是因为这些技术正准备集成到日常应用中。

为什么大型语言模型不使用我们的语言

神经网络和大型语言模型的工作在过去的一周里已经进行了彻底的讨论(我强烈建议阅读Melanie Mitchell对MSNBC的采访,了解LaMDA和其他LLM的工作原理)。我想从比较LLM的人类语言开始,更详细地介绍一下情况。

对人类来说,语言是一种沟通大脑中发生的复杂和多维激活的手段。例如,当两个兄弟相互交谈时,其中一个说“妈妈”,这个词与大脑不同部位的许多激活有关,包括对她的声音、面部、感觉的记忆,以及从遥远的过去到(可能)最近几天的不同经历。事实上,兄弟俩在大脑中的表现形式可能存在巨大差异,这取决于他们各自的经历。然而,“妈妈”这个词提供了一种压缩的、表现良好的近似值,有助于他们在相同的概念上达成一致。

当你在与陌生人的对话中使用“妈妈”这个词时,经验和记忆之间的差异会变得更大。但同样,你设法在你头脑中的共同概念的基础上达成协议。

把语言想象成一种压缩算法,可以帮助将大脑中的大量信息传递给另一个人。语言的进化与我们在世界上的经历直接相关,从我们环境中的物理互动到与其他人类的社会互动。

语言是建立在我们在世界上的共同经历之上的。孩子们甚至在说出第一个单词之前就知道物体的重力、尺寸、物理一致性,以及人类和社会概念,如疼痛、悲伤、恐惧、家庭和友谊。没有这些经验,语言就没有意义。这就是为什么语言通常忽略了对话者共享的常识和信息。另一方面,分享经验和记忆的程度将决定你与另一个人交谈的深度。

相比之下,大型语言模型没有物理和社会经验。他们接受了数十亿个单词的训练,并学会通过预测下一个单词序列来响应提示。这是一种在过去几年中取得了巨大成果的方法,尤其是在引入变压器体系结构之后。

变形金刚如何做出令人信服的预测?它们将文本转换为“标记”和“嵌入”,即多维空间中单词的数学表示。然后,他们处理嵌入以添加其他维度,例如文本序列中单词之间的关系及其在句子和段落中的作用。有了足够的例子,这些嵌入可以很好地近似单词在序列中的显示方式。变形金刚之所以特别受欢迎,是因为变形金刚具有可扩展性:变形金刚的精确度随着变大和输入更多数据而提高,而且大多可以通过无监督学习进行训练。

但根本区别仍然存在。神经网络通过将语言转化为嵌入来处理语言。对人类来说,语言是思想、感觉、记忆、身体经验和许多其他我们尚未发现的关于大脑的东西的嵌入。

这就是为什么可以公平地说,尽管它们取得了巨大的进步和令人印象深刻的结果,但变形金刚、大型语言模型、深层神经网络等仍然远远不能说我们的语言。

感知vs兼容性和信任

今天的很多讨论都是关于我们是否应该将感知、意识和人格等属性分配给AI。这些讨论的问题在于,它们侧重于定义模糊的概念,对不同的人意味着不同的东西。

例如,功能主义者可能会争辩说,神经网络和大型语言模型是有意识的,因为它们表现出(至少部分地)你所期望的人类的相同行为,即使它们构建在不同的基础上。其他人可能会认为有机物质是意识的必要条件,并得出结论,神经网络永远不会有意识。你可以加入关于qualia、中国室内实验、图灵测试等的争论,讨论可以永远持续下去。

然而,一个更实际的问题是,当前的神经网络与人类思维的“兼容性”如何,以及我们在关键应用中能信任它们到什么程度?这是一个重要的讨论,因为大型语言模型大多是由寻求将其转化为商业应用程序的公司开发的。

例如,经过足够的训练,你可能可以训练黑猩猩开车。但你会把它放在方向盘后面,放在行人将要穿过的道路上吗?你不会的,因为你知道,无论黑猩猩多么聪明,它们的思维方式都与人类不同,也不能被赋予承担人类安全任务的责任。

同样,鹦鹉也可以学会许多短语。但你会相信它是你的客户服务代理吗?可能不会。

即使涉及到人类,一些认知障碍也会使人们无法从事某些需要人际互动或考虑人类安全的工作和任务。在许多情况下,这些人可以读、写、说得流利,在冗长的对话中保持一致性和逻辑性。我们不怀疑他们的感知、意识或人格。但我们知道,由于他们的疾病,他们的决定可能变得不一致和不可预测(例如,参见菲尼亚斯·盖奇的案例)。

重要的是你是否可以相信这个人会像普通人一样思考和决定。在许多情况下,我们信任有任务的人,因为我们知道他们的感官系统、常识、感觉、目标和奖励与我们的基本一致,即使他们不会说我们的语言。

我们对拉姆达了解多少?首先,它不像我们那样感知世界。它对语言的“知识”并非建立在与我们相同的经验基础上。它的常识是建立在一个不稳定的基础上的,因为无法保证大量的文本将涵盖我们在语言中遗漏的所有内容。

考虑到这种不兼容性,您能在多大程度上信任LaMDA和其他大型语言模型,无论它们在生成文本输出方面有多好?一个友好而有趣的聊天机器人程序可能不是一个坏主意,只要它不把对话引向敏感话题。搜索引擎也是LLM的一个很好的应用领域(谷歌在搜索中使用BERT已有几年了)。但是,你能信任他们完成更敏感的任务吗?比如开放式客户服务聊天机器人或银行顾问(即使他们接受过大量相关对话记录的培训或调整)?

我的想法是,我们需要特定于应用程序的基准来测试LLM的一致性以及它们在不同领域与人类常识的兼容性。当涉及到实际应用程序时,应该始终有明确定义的边界,以确定对话在哪里成为LLM的禁区,并且应该交给人工操作员。

问题解决者视角

不久前,我写了一篇关于“问题发现者”和“问题解决者”的文章基本上,我所说的是,人类智能是关于发现正确的问题,而人工智能(或我们今天的人工智能)是关于以最有效的方式解决这些问题。

我们一再看到,计算机能够找到解决复杂问题的捷径,而不需要获得人类的认知能力。我们已经在跳棋、国际象棋、围棋、编程竞赛、蛋白质折叠和其他定义明确的问题中看到了这一点。

自然语言在某些方面与人工智能解决的所有其他问题不同,但也很相似。一方面,《变形金刚》和《法学硕士》表明,它们可以产生令人印象深刻的结果,而无需像普通人一样经历学习语言的过程,即首先探索世界并理解其基本规则,然后获得基于这一共同知识与他人互动的语言。另一方面,他们缺乏学习语言的人类经验。它们对于解决定义良好的语言相关问题非常有用。但是,我们不应该忘记,它们与人类语言处理的兼容性是有限的,因此我们应该小心我们对它们的信任程度。

这篇文章最初由BenDickson在TechTalks上发表,这是一份研究技术趋势、它们如何影响我们的生活和经营方式以及它们解决的问题的出版物。但我们也讨论了技术的邪恶一面,新技术的黑暗影响,以及我们需要注意什么。你可以在这里阅读原文。

展开阅读全文

页面更新:2024-03-20

标签:人工智能   神经网络   变形金刚   兼容性   知觉   单词   模型   意识   人类   语言   经验

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top