谷歌红色指令第一发，这次终于没出错了！

谷歌和德国最顶尖的理工大学之一柏林工业大学（Technische Universität Berlin）的研究人员公布了一种名为PaLM-E的新型视觉人工智能模型，该模型将视觉与ChatGPT风格的人工智能结合起来，为自主机器人提供动力。

只需输入简单人类语言式命令，不需要进行额外训练，就可指导机器人准确完成命令。

但谷歌这次带来的感觉是工业应用为主，功能虽然强大，但离普通用户还很远，无法像Bing Chat 那样能让普通用户摸的着，玩得了，紧随其后，微软也宣布将推出同样带有视觉功能GPT4，。

据报道，GPT-4将于下周正式发布，并且将具有“多模式模型”以提供完全不同的可能性, GPT-4（Generative Pre-trained Transformer 4）是 OpenAI 创建的下一代语言模型，由于其能够生成类似于人类语言的文本而在自然语言处理（NLP）领域受到了极大关注。

GPT-4 是一个大型的语言模型，它已经在多样的互联网文本数据集上进行了训练，以生成类似于人类语言的文本。它能够完成广泛的语言任务，包括翻译、问答和文本摘要等，而无需任何特定任务的训练莫非到时可以上传视频或图片就马上能看图作文？

谷歌的PaLM-E是一种具有5620亿参数的多模态体现视觉语言模型（VLM），比ChatGPT3.0的1750亿参数量要高好几倍。PaLM-E是大视觉语言模型，全称为Pathways Language Model with Embodied 1。

它是一种多模态具身视觉语言模型 (VLM)，能将视觉和语言集成到机器人控制中。PaLM-E能够处理各种具身推理任务，从各种观察模态，到多种具象化，并且表现出积极的转移：该模型受益于跨互联网规模语言、视觉和视觉-语言领域的多样化联合训练。

根据谷歌的说法，当给出一个高级命令时，例如“从抽屉里给我拿包米饼”，PaLM-E可以控制带有手臂的移动机器人平台（由谷歌机器人开发）生成行动计划并自行执行，寻找并拿起返回的成套动作。

它还具有弹性，可以对环境做出反应。例如，PaLM-E模型可以引导机器人从厨房取一个米片袋，并且通过将PaLM-E集成到控制回路中，它可以适应任务期间可能发生的中断。

在一个视频示例中，研究人员从机器人手中抓取米片并移动它们，但机器人找到米片并再次抓取它们。机器人需要根据人类的指令计划一系列导航和操作动作。

例如，给定指令“我把饮料洒了，你能给我拿点东西来清理吗？”，机器人需要计划一个包含“1.找一块海绵， 2.拿起海绵，3。把它带给用户， 4.放下海绵。谷歌提供的另一个演示视频显示，一个由PaLM-E引导的机器人按照指示“给我一个绿色的星星”。研究人员说，绿星“是这个机器人之前没有接触过的物体”。

但模型已经接受了各种视觉任务的训练，例如图像分类、对象检测、语义分割和图像字幕。于是机器人可以分辨出星形物体。

谷歌机器人并不是唯一一个致力于使用神经网络进行机器人控制的研究小组。这项特殊的工作类似于微软最近的“ChatGPT for Robotics”论文，该论文尝试以类似的方式将视觉数据和大型语言模型结合起来进行机器人控制。

总之，微软谷歌的每一次交锋，就是人工智能的一次跳跃，在如此波澜汹涌的AI之年里，又有谁能置身事外，独善其身？

页面更新：2024-03-04

三大新进展！中国芯双向破局！新实体清单也难挡美霸权之颓势