能听会说，ChatGPT开启新一轮AI助理竞赛

为了鼓励消费者在日常生活中采用生成式人工智能，科技公司不仅竞相推出新的聊天机器人应用程序，而且还推出新功能。

当地时间9月25日，ChatGPT开发商OpenAI公司在一篇博客文章中表示，该聊天机器人将拥有全新的功能，它能听会说，还可以处理图像。

这也是GPT 4大型语言模型推出以来最大的一次功能更新。OpenAI表示，更新后的ChatGPT将在未来两周内向付费用户推出。

ChatGPT功能更新后，意味着它将成为类似于苹果Siri或者亚马逊Alexa这样的语音助理，但功能更加强大。用户可以直接与ChatGPT语音对话，例如请ChatGPT讲一段睡前故事，或者请它设置一个晚餐时的聊天话题。

OpenAI表示，ChatGPT的语音功能是由一种全新的文生语音（text to speech）模型支持的，输入文字便可生成人声，并通过与专业声音演员合作，提供5种不同的语音。

借助图像交互功能，用户可以拍摄周围事物的照片，并要求ChatGPT给出建议，例如分析为何烤箱无法启动，或者提供一份冰箱中食材的菜谱。

OpenAI表示，语音功能最初将仅向iOS和Android应用程序开放，但图像处理功能将在所有平台上提供。

在人工智能语音助理苹果Siri和亚马逊Alexa横空出世大约十年后，ChatGPT等AI大模型带火了具有更大自主权的新一波人工智能助手AI数字代理（AI agent）。

AI数字代理是指能够在人类的指导下执行更复杂的任务，而无需密切监督的人工智能助理，有时也被称为AI“副驾”。硅谷科技公司正在竞相利用人工智能技术的进步，在ChatGPT等大模型上运行AI数字代理的实验系统。

巨头企业也已为此注入数十亿美元的资本。就在ChatGPT新功能发布的同一天，亚马逊宣布以40亿美元投资OpenAI的竞争对手Anthropic。

亚马逊发言人今年早些时候表示，团队正在开发新模型，以使Alexa语音助手更加强大和有用。

近几个月，谷歌和微软也都更新了聊天机器人的新版本，例如微软则在Bing中添加了视觉搜索。

微软CEO萨蒂亚·纳德拉（SatyaNadella）认为，基础模型技术的发展是AI助理从微软Cortana、亚马逊Alexa、苹果Siri以及GoogleAssistant等演进的一次飞跃。在他看来，过去这些数字助理都没有达到最初的预期。

由科技行业领袖里德·霍夫曼（Reid Hoffman）和穆斯塔法·苏莱曼（Mustafa Suleyman）创建的一家名为Inflection AI的公司，于今年6月底筹集了13亿美元资金。该公司正在开发一款私人AI助理，据称可以充当顾问或处理诸如在旅行延误后获得航班积分和订酒店等任务。

不过，功能更强大的AI代理也引发了关于数据隐私安全的争议，尤其是对于人工智能生成的合成声音的担忧，因为这可能会涉及深度伪造（deepfake）。有网络攻击者已经开始探索如何利用深度伪造来渗透网络安全系统。

OpenAI在周一的声明中也承认了这些担忧，不过没有提供有关OpenAI如何使用消费者语音输入的详细信息，或者说明公司将如何保护这些消费者数据。根据该公司的服务条款规定，消费者“在适用法律允许的范围内”对自己的数据拥有所有权。

OpenAI公司CEO奥特曼（Sam Altman）周一在台北的一场论坛上表示，人工智能快速发展会引发政府的监督，但他并不担心政府过度监管，反而担心监管不足。

他表示，未来可能会出现比GPT 4强大1万倍的模型，这些模型可能会接近人类智能，应该受到一些监管。

页面更新：2024-02-29

广东省启动公共数据标注训练试点，将向人工智能产业有序定向开放公共数据