清华团队揭秘:自动驾驶缺的不是算力,而是人类司机的“常识”

本文仅在今日头条发布,谢绝转载

导读:AI的世界不只有算力、参数和数据规模,如果抓不住重点,堆再多资源也是浪费。想更好实现自动驾驶任务,我们必须首先搞明白,同样是“看路”这个动作,机器和人究竟有什么不同。


最近,清华大学智能产业研究院在 Nature 子刊 npj artificial intelligence 上发表了一篇论文,标题是《驾驶任务中的人类与算法视觉注意力》。

这篇论文系统拆解了人类司机的视觉注意力过程,并将其与 AI 注意力机制做了比对。结论很简单:我们高估了自动驾驶算法的“视觉能力”,低估了人类司机基于常识的理解能力。

换句话说,自动驾驶系统缺的可能不是“看得更全、算得更快”的能力,而是像人类一样“一眼看懂”的智慧。

这中间的核心差异,就在于如何“提取”并“注入”人类视觉中高价值的“语义信息”。

AI“看见”了世界,但并不“理解”

自动驾驶技术发展到今天,在常规路况下的表现已经很不错了。但现阶段的AI,依然是有“逻辑”却没“常识”的机器。

AI模型,能够处理整张图像的信息,不错过任何一个像素。但问题也恰恰出在这里。当AI“一视同仁”地关注所有像素时,它其实并没有真正理解这个世界。

对算法而言,路边的行人、远处的广告牌、天上的云,在初始阶段都只是一堆待处理的像素数据。它需要通过复杂的计算,去学习哪些像素组合是“行人”,哪些是“危险”。

这个过程极其依赖海量数据投喂,而且在面对罕见的“长尾问题”时,极其脆弱。一个塑料袋在空中飘过,可能会被误判为障碍物导致急刹;一个穿着与背景融为一体的行人,则可能被彻底忽略。

究其根本,算法缺乏人类司机与生俱来的“常识”和“意图理解”。

人类司机开车,大脑中始终存在一张“语义重要性地图”。我们知道,在路口,视线应该聚焦于可能闯出的行人和车辆,而不是旁边商店的招牌;我们知道,前车刹车灯亮起,比它车身的颜色重要一万倍。

这种基于“语义”的注意力分配,是人类驾驶安全和效率的基石。而这,正是AI算法缺失的“灵魂”。

人类司机如何“看路”:从空间扫描到语义审视

研究提出了一个理解人类驾驶视觉注意力的三阶段模型。

第一阶段:扫描。这是从场景出现到视线第一次捕捉到关键目标的过程。这个阶段的注意力主要是“空间性”的。就像雷达扫描一样,大脑在快速寻找场景中最可能重要的东西在哪里。比如,在一个复杂的十字路口,你的视线会快速扫过路口中央、人行道等区域。这个过程快,但不深入。

第二阶段:审视。一旦视线锁定关键目标(比如一个正要过马路的行人),注意力就进入了“审视”阶段。这个阶段的注意力是“基于特征”的,或者说,是“语义性”的。你不再关心这个行人在图像的哪个坐标,而是开始分析他的“特征”:他的朝向、速度、是否在看手机等等。这是大脑在进行深度语义理解,评估其危险等级。这短短的一瞬间,浓缩了人类驾驶经验和对物理世界规律的理解。这是整个模型中价值最高的部分。

第三阶段:复核。在对关键目标完成语义分析后,视线会移开,再次审视周围环境,进行对比和确认。比如,看看其他车道车辆的动态,确认自己的决策是否安全。这个阶段是空间注意力和特征注意力的混合,是对决策的最后验证。

这个三阶段模型,将人类司机“看一眼”的动作,拆解成了逻辑清晰、可以被算法学习的步骤。

对AI来说,并非所有的人类数据都有用

研究团队将这三个阶段的人类眼动数据,分别“喂给”自动驾驶算法,看它如何影响模型的性能。结果十分出人意料。

注入“扫描”阶段数据,AI性能反而下降。

为什么模仿人类的初始搜索过程,反而有害?论文给出的解释是:Transformer这类模型的优势在于其“并行注意力”,它可以同时关注图像的每个角落。而人类的“扫描”是一个“串行”过程,是受限于生理结构的一种妥协。强迫一个可以“眼观六路”的AI去模仿人类的“顺序扫描”,等于废掉了它的武功,还引入了不必要的噪声,干扰了它对关键安全信息的优化。

注入“审视”阶段数据,AI性能显著提升。

当把人类司机“审视”关键目标时的注意力数据(即语义信息)提供给模型后,无论是在异常检测、还是轨迹规划任务中,模型的准确率和安全性都得到了大幅增强。尤其是在专门的检测和规划算法上,效果拔群。

这说明算法自己很难从原始像素中学会“什么东西更重要”这个先验知识。而人类的“审视”过程,恰好为它提供了这种稀缺的“语义先验”。它告诉模型:别再傻乎乎地看所有东西了,这个区域里的信息,才是决定你该刹车还是该转弯的关键。

我们不需要训练一个能理解全世界的超级模型,只需要教会它在特定场景下,像一个老司机一样,知道该把注意力放在哪几个关键的“语义点”上。

“推理鸿沟”与“接地鸿沟”

研究团队进一步将这个方法应用到了两个顶级的VLM基准测试(DriveLM和TOD³Cap)上,得出了更为深刻的结论,并提出了“推理鸿沟”和“接地鸿沟”的概念。

对于高层逻辑推理任务(DriveLM):人类注意力数据用处不大。 DriveLM这类任务,考验的是模型对驾驶场景的宏观理解和问答能力,比如“我应该在下一个路口左转吗?”。实验发现,在这种任务上,注入人类的“审视”注意力数据,对模型性能几乎没有提升。这说明,对于抽象的逻辑和推理,大模型通过海量预训练,已经基本填平了“推理鸿沟”。AI已经“知道”了规则。

对于细粒度视觉接地任务(TOD³Cap):人类注意力数据效果显著。 TOD³Cap要求模型对3D场景中的物体进行密集描述,需要将语言和视觉信息精确地对应。在这个任务上,注入“审视”阶段的注意力数据,让模型的性能获得了巨大飞跃。这说明,尽管大模型懂得了逻辑,但在将逻辑与真实世界中的具体像素精确链接这件事上,依然存在巨大的“接地鸿沟”。它知道“行人”这个概念,但要它在昏暗的雨夜、复杂的背景中,精确地“指认”出那个关键的行人,依然困难。

人类的“审视”注意力,恰恰提供了这种宝贵的“接地”信号。它会直接告诉模型:“看,就是那个东西,它很重要。”

这说明,AI模型规模和通用能力很重要,但在需要精确、可靠的“接地”能力的场景下,它们依然需要来自人类经验的“点拨”。

小结

清华AIR的这项研究,为行业提供了一种全新的思考框架,挑战了行业内“算力至上”的路径依赖。

第一,它指明了一条经济高效的路线。 训练和部署超大规模模型的成本是天文数字,尤其是在对功耗和成本极其敏感的车端硬件上。通过“蒸馏”少数人类司机的核心语义注意力,就能让轻量级的模型获得媲美甚至超越更大模型在特定任务上的理解能力。

第二,它为提升AI系统的可解释性和可靠性提供了新思路。 一个基于人类语义注意力进行优化的模型,其决策过程会更符合人类的直觉,更容易被理解和信任。当模型因为关注到了某个被人类司机同样认为重要的区域而做出决策时,我们对其安全性的信心自然会增强。

第三,它重新定义了“人机协同”的内涵。 未来的高级别自动驾驶系统,很可能不是一个完全取代人的系统,而是一个深度融合人类智慧的系统。这种融合,不应仅仅停留在“接管”层面,更应该是在感知和认知层面,让AI学会用人类的“世界模型”去观察和思考。

自动驾驶的终极目标,或许不是创造一个无所不知的“上帝”,而是打造一个拥有人类驾驶智慧和经验的“老司机”。

与其盲目信仰端到端的黑箱模型,不如把人类认知过程中行之有效的中间环节(如语义注意力的提取)适度地引入模型设计,这样做也许更有效、更安全。

展开阅读全文

更新时间:2026-02-25

标签:科技   清华   司机   团队   常识   人类   模型   注意力   语义   数据   算法   阶段   鸿沟   行人

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034844号

Top