斯坦福发现AI并没有"看见"图像:AI可伪造对不存在图像的视觉理解

根本没有图片,但AI信心满满地描述了车牌号码、报纸文字,甚至患者的危急病情。

斯坦福大学研究团队近期发布了一项令人不安的发现。他们设计了一套名为Phantom-0的测试,向GPT-5、Gemini 3 Pro、Claude Sonnet 4.5和Claude Opus 4.5等当前最顶尖的多模态AI模型提问,询问关于图像的具体细节,但全程没有上传任何图片。结果显示,超过60%的情况下,这些模型不会承认自己什么都没看到,而是自信地编造出细节丰富的虚假描述。

研究团队将这一现象命名为"海市蜃楼效应",相关成果已提交arXiv预印本平台。

一个没有人注意到的测试漏洞

过去五年,视觉语言AI模型的进步速度快得让人应接不暇。这类模型可以同时处理文字和图像输入,在医疗影像分析、机器人视觉感知、工业质检等领域已有大量落地应用。每天超过2.3亿人通过AI寻求健康和医疗建议,临床医生也开始在辅助阅片、病理分析等场景中引入这类工具。

随着应用扩张,如何评估这些模型的真实能力,变得越来越重要。学界为此建立了一套基于标准基准测试的评估体系,测试内容从日常照片到放射科X光片、病理切片,得分越高,视觉理解能力越强,这套逻辑看上去合理,也被广泛接受。

但斯坦福团队的实验直接戳穿了这套逻辑的前提假设。

在“幻象模式”下,人工智能模型给出的答案在基于基准测试的评估中可能会表现出极高的准确率。来源:arXiv(2026)。DOI:10.48550/arxiv.2603.21687

他们的核心发现是:把图片从测试题目里彻底移除,这些AI模型的得分并不会大幅下降,有时甚至还会上升。模型并没有在"看图",而是在根据问题本身的文字线索、训练数据中的统计规律以及问题的语境模式进行猜测和编造,而这种猜测在相当比例的测试中恰好能"蒙对"。

这意味着,我们此前对视觉AI模型能力的许多评估结论,可能从根本上就不准确。

一个没有眼睛的模型,在X光测试里打败了医生

更令人瞠目的,是研究团队随后进行的一项对照实验。

他们专门训练了一个纯文本模型,这个模型完全没有处理图像的能力,从架构设计上就看不见任何视觉内容。然后把这个"瞎子"模型拿去参加标准的胸部X光片问答测试。

结果:这个纯文本模型的得分,不仅超过了多个顶尖多模态AI系统,还超过了参与同类测试的人类医生。

这个结果非常刺眼。它说明,现有的胸部X光评估基准中存在大量可以不依赖图像直接答对的题目,模型只需要学会"这类问题通常答什么"就能得高分,而不需要真正理解任何一张影像。那些宣称AI在医学影像领域表现优异的测试数据,有多大比例是由这种"文字猜题"贡献的,现在成了一个悬而未决的严肃问题。

研究人员还观察到一个有趣的行为模式:当明确告诉AI"图片不存在,请猜测答案"时,它的准确率反而会下降;而当测试环境默认图片存在时,模型进入所谓的"幻象模式",更充分地调用文字推断能力,表现反而更好。换句话说,让模型"以为自己在看图",比明确告诉它在猜测,能让它猜得更准。这种行为特征本身,就已经相当诡异。

这种"海市蜃楼效应"在医疗场景中的潜在风险,研究者在论文中用了相当严肃的语气警告。一个AI系统在没有任何图像输入的情况下,自信地给出"患者存在危及生命的状况"这样的描述,如果被用于辅助临床决策,后果不难想象。问题不在于AI偶尔犯错,而在于它犯错时表现出的过度自信,以及现有测试体系完全没有能力识别这种错误。

为了修补这个漏洞,斯坦福团队提出了B-Clean评估方法。其核心思路是在正式测试之前,先过滤掉那些不需要图像就能答对的题目,只保留真正依赖视觉理解才能作答的问题,以此重建基准测试的有效性。研究团队承认,B-Clean能否彻底消除海市蜃楼效应,还需要更多独立验证,但方向是明确的:评估体系必须重建。

这项研究最根本的意义,不是说当前的视觉AI一无是处,而是提醒我们:高分不等于真正的视觉理解,基准测试的设计本身需要被质疑。在医疗、法律、安防这些容错率极低的场景里,搞清楚AI究竟"看到了什么",比知道它"答对了多少",要重要得多。

展开阅读全文

更新时间:2026-04-14

标签:科技   斯坦福   图像   视觉   发现   模型   测试   基准   团队   能力   文字   海市蜃楼

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号

Top