理想详解VLA司机大模型,李想称“可接近人类司机思考”

“我觉得黎明马上就要来了,但是会先经历一个黑暗的过程,之所以有黑暗是因为要迎来黎明。”面对近期有关智能驾驶的种种争议,理想汽车CEO李想在5月7日的“AI Talk 第二季”上说道。其认为,智能驾驶发展这么多年,从规则算法,做到了端到端+VLM,到今天真正地迈入到了VLA(视觉语言行动模型——一种更高级的智能驾驶AI系统)的阶段,等于就处在黎明前的黑暗阶段。



李想表示,正因为辅助驾驶行业遇到了问题,所以自己最喜欢、最开心的方式就是去解决行业解决不了的问题。“就像我们推出增程式产品就是为了解决电池成本高、充电难的问题,推出 5C(电池)也是为了解决充电慢、等待时间长的问题。我们愿意去解决行业中遇到的各种问题。”李想说道。


目前已经落地的L2级还处于辅助工具阶段,还需要人大量地参与。李想表示,VLA(Vision-Language-Action Model,视觉语言行动模型)能够让AI真正成为司机,成为交通领域的专业生产工具。对理想汽车而言,未来的VLA就是一个像人类司机一样工作的“司机大模型”。


李想介绍,理想汽车的VLA的经历了三个阶段。第一阶段,自2021年起,理想汽车自研依赖规则算法和高精地图的辅助驾驶,理想将这一阶段类比为“昆虫动物智能”,理解世界的程度非常有限,效率比较低。第二阶段则是端到端,自2023年起理想汽车研究端到端,并在2024年正式推送的端到端+VLM(Vision Language Model,视觉语言模型)辅助驾驶。这一阶段可以称为“哺乳动物智能”,可以学习人类的一些行为,但是本身对物理世界并不理解,在处理复杂问题时存在局限。



在端到端的基础上,理想进入了第三阶段,VLA将开启“人类智能”的阶段,能够像人类一样,真正地去执行这样的行动。理想将这个VLA(视觉语言行动模型)在汽车辅助驾驶领域应用,称之为VLA的“司机大模型”。李想介绍,VLA可以通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。同时,VLA拥有完整的脑系统,具备语言、CoT(Chain of Thought,思维链)推理能力,既能看,也能理解并真正执行行动,符合人类的运作方式。


李想介绍,在训练过程中,VLA模拟人类学习驾驶的过程,分为预训练、后训练和强化训练。其中,预训练通过大量视觉和语言数据,训练出云端VL基座模型并转化为端侧模型;后训练则是加入动作数据,让模型具备在复杂交通环境中的博弈能力;强化训练则通过基于人类反馈的强化学习和世界模型训练,使模型更加安全、舒适,符合人类驾驶习惯。最后,以“司机Agent(智能体)”形态呈现的VLA司机大模型,支持用户用自然语言沟通,简单指令由端侧处理,复杂指令经云端解析后处理。



从此次AI TALK展示的视频来看,VLA司机大模型可以听懂用户的语音指令,比如:用户说出“靠边停车”,或者快到路口说出“右转”等指令时,车辆会立即执行相应的指令。相比于以往根据导航路径行驶,VLA司机大模型的要更加灵活,对模型的能力要求也更高。


李想还提到,得益于DeepSeek的开源,理想在VLA司机大模型的语言能力研发上提速显著,节省了近9个月的时间和数亿元成本。“我们可以站在巨人的肩膀上,但它只是其中的一部分。”李想表示,理想汽车仍然会加大投入,比如:在基座模型上投入超预期3倍的训练卡,专注打造适配多场景的自研模型。



除了提升专业能力外,VLA司机大模型还必须要解决安全性的问题。李想表示,模型能力越强,越需要进行职业性约束。为了保障VLA司机大模型能够实现职业司机般的安全和舒适,避免学习不遵守交通规则的行为或者让车内人员感到不安全的行为(比如:频繁加塞),从去年年底,理想就组建起了超100人的超级对齐团队,为司机Agent进行强化训练,确保其安全驾驶。


李想直言VLA司机大模型能够解决全自动驾驶问题,但是不排除未来会出现效率更高的架构。他认为,大概率未来还会出现更高效的新架构。毕竟VLA还是基于Transformer(深度学习模型架构),而Transformer是否就是最优的结构,目前还不确定。李想坦言,DeepSeek没走过这条路,OpenAI、谷歌、Waymo也没有走过,理想汽车要走入的是一个无人区。



而在谈到特斯拉FSD进入中国市场是否会对理想汽车产生影响时,李想直言FSD在中国的表现不是是特斯拉真实能力的体现。其表示,根据实测,特斯拉大概在用12.5之前的模型,距离特斯拉真实能力还有巨大的差距,与特斯拉13.0的能力相比,12.5之前的模型应该只是半规则算法的能力。


在其看来,特斯拉的基本功是非常扎实的,包括感知的距离,运行的帧率,车辆控制的稳定性等等。而特斯拉没有释放真实能力原因,李想表示:“如果直接上端到端的话,面对中国的这些路况,其实它在美国没有学习到这些东西,然后再遇到这些复杂的事情,还是会遇到挑战的。”


在整场AI TALK中,李想多次提到的基本功。对于外界说“理想辅助驾驶起步晚,是吃第10个包子的人”这种说法,李想也并不认可。“我们自研的时间并不短啊。从2021年上地平线征程Journey3芯片的时候就开始做自研,然后我们研究做得也很扎实。”李想表示,理想能够做到如今智能化体验的背后,是积累的大型软件的能力。


其举例,由于Orin芯片并不支持直接跑语言模型,所以不少企业做端到端和VLM都很难,而理想可以做到双Orin-X跟Thor-U都能跑VLA司机大模型,原因在于理想有编译团队,有芯片的能力,有板子设计能力,有操作系统能力。“我们这方面的技术都是非常之扎实,因为我自己还是认为,规模小的时候可能无所谓,规模大的时候基本功和能力永远是无法逾越的。”李想说道。



李想认为,在今天这种内卷、外部的不确定的环境下,像苹果,像特斯拉这些企业的基本功特别扎实,这是中国企业需要真正要去学的。“如果很多企业做了很多的创新,但是基本功不扎实,很多创新就会昙花一现就过去了。这会是很大的问题。因为他虽然能发明很多东西,但是你会发现能力强的公司复制这个东西,在人工智能时代基本上都是按周计算的,就能复制过来。所以基本功还是非常重要的。”李想说道。

展开阅读全文

更新时间:2025-05-13

标签:科技   司机   详解   模型   人类   理想   特斯拉   能力   基本功   语言   汽车   智能

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top