理想详解VLA司机大模型，李想称“可接近人类司机思考”

“我觉得黎明马上就要来了，但是会先经历一个黑暗的过程，之所以有黑暗是因为要迎来黎明。”面对近期有关智能驾驶的种种争议，理想汽车CEO李想在5月7日的“AI Talk 第二季”上说道。其认为，智能驾驶发展这么多年，从规则算法，做到了端到端+VLM，到今天真正地迈入到了VLA（视觉语言行动模型——一种更高级的智能驾驶AI系统）的阶段，等于就处在黎明前的黑暗阶段。

李想表示，正因为辅助驾驶行业遇到了问题，所以自己最喜欢、最开心的方式就是去解决行业解决不了的问题。“就像我们推出增程式产品就是为了解决电池成本高、充电难的问题，推出 5C（电池）也是为了解决充电慢、等待时间长的问题。我们愿意去解决行业中遇到的各种问题。”李想说道。

目前已经落地的L2级还处于辅助工具阶段，还需要人大量地参与。李想表示，VLA（Vision-Language-Action Model，视觉语言行动模型）能够让AI真正成为司机，成为交通领域的专业生产工具。对理想汽车而言，未来的VLA就是一个像人类司机一样工作的“司机大模型”。

李想介绍，理想汽车的VLA的经历了三个阶段。第一阶段，自2021年起，理想汽车自研依赖规则算法和高精地图的辅助驾驶，理想将这一阶段类比为“昆虫动物智能”，理解世界的程度非常有限，效率比较低。第二阶段则是端到端，自2023年起理想汽车研究端到端，并在2024年正式推送的端到端+VLM（Vision Language Model，视觉语言模型）辅助驾驶。这一阶段可以称为“哺乳动物智能”，可以学习人类的一些行为，但是本身对物理世界并不理解，在处理复杂问题时存在局限。

在端到端的基础上，理想进入了第三阶段，VLA将开启“人类智能”的阶段，能够像人类一样，真正地去执行这样的行动。理想将这个VLA（视觉语言行动模型）在汽车辅助驾驶领域应用，称之为VLA的“司机大模型”。李想介绍，VLA可以通过3D和2D视觉的组合，完整地看到物理世界，而不像VLM仅能解析2D图像。同时，VLA拥有完整的脑系统，具备语言、CoT（Chain of Thought，思维链）推理能力，既能看，也能理解并真正执行行动，符合人类的运作方式。

李想介绍，在训练过程中，VLA模拟人类学习驾驶的过程，分为预训练、后训练和强化训练。其中，预训练通过大量视觉和语言数据，训练出云端VL基座模型并转化为端侧模型；后训练则是加入动作数据，让模型具备在复杂交通环境中的博弈能力；强化训练则通过基于人类反馈的强化学习和世界模型训练，使模型更加安全、舒适，符合人类驾驶习惯。最后，以“司机Agent（智能体）”形态呈现的VLA司机大模型，支持用户用自然语言沟通，简单指令由端侧处理，复杂指令经云端解析后处理。

从此次AI TALK展示的视频来看，VLA司机大模型可以听懂用户的语音指令，比如：用户说出“靠边停车”，或者快到路口说出“右转”等指令时，车辆会立即执行相应的指令。相比于以往根据导航路径行驶，VLA司机大模型的要更加灵活，对模型的能力要求也更高。

李想还提到，得益于DeepSeek的开源，理想在VLA司机大模型的语言能力研发上提速显著，节省了近9个月的时间和数亿元成本。“我们可以站在巨人的肩膀上，但它只是其中的一部分。”李想表示，理想汽车仍然会加大投入，比如：在基座模型上投入超预期3倍的训练卡，专注打造适配多场景的自研模型。

除了提升专业能力外，VLA司机大模型还必须要解决安全性的问题。李想表示，模型能力越强，越需要进行职业性约束。为了保障VLA司机大模型能够实现职业司机般的安全和舒适，避免学习不遵守交通规则的行为或者让车内人员感到不安全的行为（比如：频繁加塞），从去年年底，理想就组建起了超100人的超级对齐团队，为司机Agent进行强化训练，确保其安全驾驶。

李想直言VLA司机大模型能够解决全自动驾驶问题，但是不排除未来会出现效率更高的架构。他认为，大概率未来还会出现更高效的新架构。毕竟VLA还是基于Transformer（深度学习模型架构），而Transformer是否就是最优的结构，目前还不确定。李想坦言，DeepSeek没走过这条路，OpenAI、谷歌、Waymo也没有走过，理想汽车要走入的是一个无人区。

而在谈到特斯拉FSD进入中国市场是否会对理想汽车产生影响时，李想直言FSD在中国的表现不是是特斯拉真实能力的体现。其表示，根据实测，特斯拉大概在用12.5之前的模型，距离特斯拉真实能力还有巨大的差距，与特斯拉13.0的能力相比，12.5之前的模型应该只是半规则算法的能力。

在其看来，特斯拉的基本功是非常扎实的，包括感知的距离，运行的帧率，车辆控制的稳定性等等。而特斯拉没有释放真实能力原因，李想表示：“如果直接上端到端的话，面对中国的这些路况，其实它在美国没有学习到这些东西，然后再遇到这些复杂的事情，还是会遇到挑战的。”

在整场AI TALK中，李想多次提到的基本功。对于外界说“理想辅助驾驶起步晚，是吃第10个包子的人”这种说法，李想也并不认可。“我们自研的时间并不短啊。从2021年上地平线征程Journey3芯片的时候就开始做自研，然后我们研究做得也很扎实。”李想表示，理想能够做到如今智能化体验的背后，是积累的大型软件的能力。

其举例，由于Orin芯片并不支持直接跑语言模型，所以不少企业做端到端和VLM都很难，而理想可以做到双Orin-X跟Thor-U都能跑VLA司机大模型，原因在于理想有编译团队，有芯片的能力，有板子设计能力，有操作系统能力。“我们这方面的技术都是非常之扎实，因为我自己还是认为，规模小的时候可能无所谓，规模大的时候基本功和能力永远是无法逾越的。”李想说道。

李想认为，在今天这种内卷、外部的不确定的环境下，像苹果，像特斯拉这些企业的基本功特别扎实，这是中国企业需要真正要去学的。“如果很多企业做了很多的创新，但是基本功不扎实，很多创新就会昙花一现就过去了。这会是很大的问题。因为他虽然能发明很多东西，但是你会发现能力强的公司复制这个东西，在人工智能时代基本上都是按周计算的，就能复制过来。所以基本功还是非常重要的。”李想说道。

展开阅读全文

更新时间：2025-06-04

标签：科技司机详解模型人类理想特斯拉能力基本功语言汽车智能

1 2 3 4 5

理想详解VLA司机大模型，李想称“可接近人类司机思考”

首站南港！天津经开区六五环境日系列宣教活动拉开序幕

海南亲子科普研学活动创新形式传递温情

苹果，再次降价！降幅超1000元

美方专家：中国不要执迷不悟，如果继续研发芯片，将遇到经济危机

苹果渠道降价 iPhone 16 Pro叠加国补后到手价5499元起

巨大气球从日本飞到广德

【甘快看】兰永临高速公路洮河大桥取得重大建设进展

“快乐消费”“悦己经济”持续火爆“出圈” 为“快乐”买单激活消费新潜力

搭建交易系统，其中一条关键决定系统是否盈利

海南华铁上周获融资净买入2.16亿元，居两市第4位

12项！伊金霍洛旗2025年度招商机会场景清单发布

2025中国福州国际招商月丨打好招商引资“组合拳”，助推罗源县高质量发展

报道称宁德时代香港IPO将筹集至少40亿美元

陈延良：完善体制机制激发内生动力不断提升园区发展质效

和讯投顾齐俊强：预计调整持续一天半，周三市场或重新上涨

聚焦长城工厂马拉松 | 2025长城汽车智慧工厂半程马拉

曝苹果将在未来三年推重磅新品：新形态手机+智能机器人

JR：杜兰特去哪都适配现役球员里他的得分能力仅次于欧

警方通报“网约车司机偷拍女乘客”：已被行政拘留

、vivo于W18拿下中国智能手机市场销量份额第一

华鑫证券：给予尚太科技买入评级

大蓝筹等拉弓，大科技势将尽

雷霆三少剧情重现！场均22+5+5有能力却被SGA压制，像极当

四姑娘山游客身亡后续：3天前就曾吸氧，司机发声，更多细节

苏联真接触过外星文明？解体前冒出的“黑科技”，至今难以