斯坦福发现AI并没有"看见"图像：AI可伪造对不存在图像的视觉理解

根本没有图片，但AI信心满满地描述了车牌号码、报纸文字，甚至患者的危急病情。

斯坦福大学研究团队近期发布了一项令人不安的发现。他们设计了一套名为Phantom-0的测试，向GPT-5、Gemini 3 Pro、Claude Sonnet 4.5和Claude Opus 4.5等当前最顶尖的多模态AI模型提问，询问关于图像的具体细节，但全程没有上传任何图片。结果显示，超过60%的情况下，这些模型不会承认自己什么都没看到，而是自信地编造出细节丰富的虚假描述。

研究团队将这一现象命名为"海市蜃楼效应"，相关成果已提交arXiv预印本平台。

一个没有人注意到的测试漏洞

过去五年，视觉语言AI模型的进步速度快得让人应接不暇。这类模型可以同时处理文字和图像输入，在医疗影像分析、机器人视觉感知、工业质检等领域已有大量落地应用。每天超过2.3亿人通过AI寻求健康和医疗建议，临床医生也开始在辅助阅片、病理分析等场景中引入这类工具。

随着应用扩张，如何评估这些模型的真实能力，变得越来越重要。学界为此建立了一套基于标准基准测试的评估体系，测试内容从日常照片到放射科X光片、病理切片，得分越高，视觉理解能力越强，这套逻辑看上去合理，也被广泛接受。

但斯坦福团队的实验直接戳穿了这套逻辑的前提假设。

在“幻象模式”下，人工智能模型给出的答案在基于基准测试的评估中可能会表现出极高的准确率。来源：arXiv(2026)。DOI：10.48550/arxiv.2603.21687

他们的核心发现是：把图片从测试题目里彻底移除，这些AI模型的得分并不会大幅下降，有时甚至还会上升。模型并没有在"看图"，而是在根据问题本身的文字线索、训练数据中的统计规律以及问题的语境模式进行猜测和编造，而这种猜测在相当比例的测试中恰好能"蒙对"。

这意味着，我们此前对视觉AI模型能力的许多评估结论，可能从根本上就不准确。

一个没有眼睛的模型，在X光测试里打败了医生

更令人瞠目的，是研究团队随后进行的一项对照实验。

他们专门训练了一个纯文本模型，这个模型完全没有处理图像的能力，从架构设计上就看不见任何视觉内容。然后把这个"瞎子"模型拿去参加标准的胸部X光片问答测试。

结果：这个纯文本模型的得分，不仅超过了多个顶尖多模态AI系统，还超过了参与同类测试的人类医生。

这个结果非常刺眼。它说明，现有的胸部X光评估基准中存在大量可以不依赖图像直接答对的题目，模型只需要学会"这类问题通常答什么"就能得高分，而不需要真正理解任何一张影像。那些宣称AI在医学影像领域表现优异的测试数据，有多大比例是由这种"文字猜题"贡献的，现在成了一个悬而未决的严肃问题。

研究人员还观察到一个有趣的行为模式：当明确告诉AI"图片不存在，请猜测答案"时，它的准确率反而会下降；而当测试环境默认图片存在时，模型进入所谓的"幻象模式"，更充分地调用文字推断能力，表现反而更好。换句话说，让模型"以为自己在看图"，比明确告诉它在猜测，能让它猜得更准。这种行为特征本身，就已经相当诡异。

这种"海市蜃楼效应"在医疗场景中的潜在风险，研究者在论文中用了相当严肃的语气警告。一个AI系统在没有任何图像输入的情况下，自信地给出"患者存在危及生命的状况"这样的描述，如果被用于辅助临床决策，后果不难想象。问题不在于AI偶尔犯错，而在于它犯错时表现出的过度自信，以及现有测试体系完全没有能力识别这种错误。

为了修补这个漏洞，斯坦福团队提出了B-Clean评估方法。其核心思路是在正式测试之前，先过滤掉那些不需要图像就能答对的题目，只保留真正依赖视觉理解才能作答的问题，以此重建基准测试的有效性。研究团队承认，B-Clean能否彻底消除海市蜃楼效应，还需要更多独立验证，但方向是明确的：评估体系必须重建。

这项研究最根本的意义，不是说当前的视觉AI一无是处，而是提醒我们：高分不等于真正的视觉理解，基准测试的设计本身需要被质疑。在医疗、法律、安防这些容错率极低的场景里，搞清楚AI究竟"看到了什么"，比知道它"答对了多少"，要重要得多。

展开阅读全文

更新时间：2026-04-14

标签：科技斯坦福图像视觉发现模型测试基准团队能力文字海市蜃楼

1 2 3 4 5

斯坦福发现AI并没有"看见"图像：AI可伪造对不存在图像的视觉理解

一个没有人注意到的测试漏洞

一个没有眼睛的模型，在X光测试里打败了医生

安全成了游戏？FAA竟然让游戏玩家接管塔台

AI往事：一场持续七十年的智能觉醒

具身智能机器人进入汽车生产场景，特斯拉Optimus计划2026年夏季启动生产，2027年实现大规模量产

高通全倾台积电代工骁龙旗舰，三星2nm良率未达70%错失订单

【华创金融徐康团队】银行业周报：农商机构监管重构，从“无序扩张”走向“集中整合”

还有哪些低估行业值得买？2026年4月10日市场温度

北京为何要布局四大城市活力新片区？官方详解

A股:大家坐稳扶好了,不出意外的话,A股周一或迎更大级调整行情?

侃财邦｜家电集体涨价？

龙利得十大流通股东格局生变：王晓辉等新进，冯声振等退出，滁州浚源创投等减持

哪款赖氨酸效果好？2026十强赖氨酸产品评析，氨基丁酸款易吸收助矮个子轻松长高

有起床气的孩子，这招绝了

7 岁女儿不想写作业，我带她干了一天苦力

父母该如何接纳孩子的真实模样？这才是最好的家庭教育

效果好的叶酸片有哪些？2026高口碑叶酸品牌汇总：新手必看选购指南

【华创金融徐康团队】银行业周报：农商机构监管重构，从

西班牙首相桑切斯参观小米科技园，深入了解并体验了小米

3DMark将红魔11 Pro系列除名：因识别测试软件性能虚高24

蔡浩宇AI视频模型首曝，《明末》研发团队解散丨陀螺周报

吸烟又火了？医生发现：血压高吸烟时，多留意6点，有益健康

92万征集的战国青铜剑竟是拼接残剑！沉睡库房11年才被发

调查发现：脑梗患者若经常补B12，用不了多久，5大好处不请自

养生茶饮+美妆体验+科技养生襄阳这场“养生市集”火

70岁后才发现：亲手带大的孙辈，无论孙子外孙，都有这三个共

医生发现：习惯饭后躺下的老人，不出半年时间，身体或有5大

斯坦福发现AI并没有&quot;看见&quot;图像：AI可伪造对不存在图像的视觉理解

一个没有人注意到的测试漏洞

一个没有眼睛的模型，在X光测试里打败了医生

斯坦福发现AI并没有"看见"图像：AI可伪造对不存在图像的视觉理解