深度长文｜AI 提问疑云：四大线索揭秘顶尖模型“失语”真相

序章：一桩关于“提问”的悬案

人工智能的星辰大海中，正上演着一桩扑朔迷离的“悬案”。主角是那些我们耳熟能详的“明星侦探”——GPT-4o、Gemini 家族、Claude 3.5 Sonnet 等当今最顶尖的大型语言模型（LLM）。它们以博闻强记、对答如流著称，似乎无所不能。然而，当它们被请到一个名为 QuestBench 的“案发现场”时，却遭遇了集体性的滑铁卢。

这个“案发现场”并非测试它们的知识储备或基础推理，而是设置了一系列逻辑和规划谜题，就像这份来自 Google DeepMind 与 MIT 的 QuestBench 研究论文中图 1 展示的 GSM-Q 示例^[1]那样。解开这些谜题的关键，在于 AI 必须先从一堆看似合理的选项中，问出那个唯一且“正确”的问题，以获取最后一条缺失的关键线索。结果令人大跌眼镜：在相对简单的数学题上，这些“学霸”们大多能轻松拿下 80% 以上的高分；但在逻辑推理（Logic-Q）和任务规划（Planning-Q）这两个领域，它们的“提问准确率”却惊人地跌破了 50% 的及格线，甚至更低。

上图直观展示了这种表现上的巨大鸿沟（具体模型得分可见 QuestBench 论文 Table 2^[2]）。这不仅仅是“失误”，更像是一种集体性的“失语症”。这桩悬案的核心直指一个被我们长期忽视的关键问题：一个能给出答案的 AI，是否真的知道自己需要什么信息？ 当信息不足时，它懂得如何提出那个最关键的问题吗？这不仅仅是技术上的好奇，更关乎 AI 在真实世界中协作的可靠性，尤其是在需要处理现实中普遍存在的歧义与信息不确定性^[3]的复杂场景中。

为了破解这桩“AI 提问疑云”，我们需要化身侦探，深入“案发现场”，仔细勘查 Google DeepMind 与 MIT 研究者们留下的四大关键“指纹”——他们称之为“难度轴”（Difficulty Axes）。这些“指纹”记录了 AI 在面对不同类型挑战时的行为模式：

上图展示了我们将要分析的四个关键维度：EBF（猜对问题的“运气成本”/干扰项数量）、d（逻辑推理深度）、|X|（问题规模/信息量）以及 |C|/b（问题结构复杂度）。现在，让我们拿起放大镜，循着这四大线索，一步步揭开顶尖 AI“失语”背后的真相。

线索一：致命的“选择题”——EBF 指纹暴露的“选择困难”

调查首先从最明显的线索 EBF 入手。EBF 值越高，意味着 AI 需要从越多的干扰项中选出那个唯一的正确问题，这就像在一堆外观极其相似的钥匙里找到唯一能打开那扇门的一把。

分析结果立刻揭示了一个普遍规律：在逻辑（Logic-Q）和规划（Planning-Q）这两个 AI 表现糟糕的领域，EBF 与准确率呈现出强烈的负相关（Spearman 相关系数显著为负，p < 0.05，详细数据见 QuestBench 论文 Table 3^[4]）。简单来说，干扰选项越多，AI 就越容易“抓瞎”，选错那个关键问题。想象一下，让你在 3 把钥匙里找对的和在 30 把钥匙里找对的，难度不可同日而语。AI 在这里似乎也遇到了类似的“选择困难症”。

更有趣的对比发生在数学领域（GSM-Q/GSME-Q）。在这里，AI 的准确率普遍很高，而 EBF 的影响则小得多，相关性明显减弱（QuestBench 论文 Table 3^[5]）。这暗示着，AI 在处理数学问题时，可能采取了更直接、更自信的策略，较少受到选项数量的困扰。它们似乎更能“一眼看穿”数学题中缺失的那个条件是什么。

这条线索指向了 AI 的第一个关键缺陷：它们可能缺乏一套有效的“信息筛选”或“选项排除”策略。 当面对多个看似都合理的潜在问题时，它们无法像经验丰富的侦探那样，快速评估每个问题的价值、排除干扰项、聚焦关键点。这种评估和过滤能力的缺失，在选择项增多时，其弊端便暴露无遗。这或许与当前 Transformer 模型在评估多选项时的认知或算法局限性^[6]有关，它们在面对不确定性时难以有效权衡，其内部的注意力机制有时难以区分关键信息和干扰项^[7]。

线索二：深层推理的“迷雾”——d 指纹揭示的“策略混乱”

如果说 EBF 暴露了 AI 在“广度”选择上的困难，那么难度轴 d（推理深度）则揭示了它们在“深度”思考上的混乱，甚至可以说是矛盾重重。

这里的“矛盾证词”最为诡异：

在逻辑推理（Logic-Q）中，AI 显然“畏惧”深度。 随着推理深度 d 的增加，模型的准确率显著下降（QuestBench 论文 Table 3^[8] 显示显著负相关）。这表明，逻辑链条越长，AI 越容易在中间环节“断线”，找不到那个需要补充的关键前提。它们似乎在尝试顺藤摸瓜，但藤蔓一长就力不从心了。这印证了许多研究指出的 Transformer 在执行深度、多步符号推理时的挑战，其架构在处理函数组合^[9]时存在困难，且长程依赖下的信息衰减问题^[10]可能是主要原因。
但在任务规划（Planning-Q）中，AI 却对深度显得异常“迟钝”甚至“麻木”！ QuestBench 论文 Table 3^[11] 显示，d 与准确率的相关性微乎其微，甚至不显著。下面的趋势图（基于 QuestBench 论文 Figure 4^[12]）清晰地展示了这种反差：

这个图表揭示了一个令人费解的现象：为何规划任务的复杂性（以推理深度 d 衡量）似乎并未显著影响 AI 的提问能力？这太反常了！

这种矛盾指向了更深层的问题。对于 Logic-Q，我们可以理解为 AI“心有余而力不足”。但对于 Planning-Q，这种对深度“不敏感”的现象，强烈暗示着一个更令人不安的可能性：AI 可能根本没有采用依赖于任务内在逻辑深度的结构化搜索策略（比如有效的后向搜索或 A* 等规划算法）。 它们似乎在用一种“非结构化”的、与问题深度无关的蛮力方式在低效地尝试或随机猜测。当前 LLM 在尝试解决规划问题时，它们采用的策略通常是混合了思维树扩展、符号模板引导和动态环境交互的机制^[13]，但这些策略在面对真正复杂或部分可观测的环境时，往往难以有效执行经典的结构化搜索^[14]。

这就像一个侦探，面对复杂的案情，不是层层推理、顺藤摸瓜，而是在原地打转，或者随机抓取一些看似相关的线索碰运气。QuestBench 论文的另一项发现也佐证了这一点：在 Planning-Q 任务中，即使提供了“不确定（not sure）”的选项，模型也极少选择承认自己信息不足，而是倾向于硬猜一个答案（原文 Section 5.4）。这背后，或许与 RLHF（人类反馈强化学习）等对齐技术可能无意中抑制了模型表达不确定性^[15]，导致了这种“迷之自信”有关。正如一项研究指出的，RLHF 训练可能使模型响应的多样性降低，同时平均置信度提高^[16]，从而更倾向于给出看似确定的答案。

线索三：规模效应的“失灵”——|X|, |C|, b 指纹的旁证

第三组“指纹”——问题规模（|X| 变量数）和结构复杂度（|C| 约束数 / b 规划块数）——为我们之前的推断提供了有力的旁证，并进一步加剧了“策略混乱”的疑云。

逻辑任务再次验证：规模越大，越容易出错。 QuestBench 论文 Table 3^[17] 显示，在 Logic-Q 中，|X| 和 |C| 的增加都与准确率显著负相关。这符合直觉：信息越多、关系越复杂，推理自然越难。
规划任务的反常“韧性”： 但在 Planning-Q 中，模型再次表现出对规模和复杂度的“麻木”。|X| 和代表规划复杂度的块数 b 的增加，对准确率的影响并不显著（QuestBench 论文 Table 3^[18]）。这再次印证了之前的推断：AI 在处理规划问题时，其策略似乎与任务的内在结构复杂度脱节了。如果它们没有进行有效的结构化搜索，自然也就不会因为结构变复杂而表现得更差。
数学任务的相对稳定： 数学任务对规模复杂度的敏感度也相对较低（QuestBench 论文 Table 3^[19]），这可能再次说明其解决方案更侧重于模式识别，而非处理复杂的变量约束网络。

综合 d, |X|, |C|, b 这几条线索，一个越来越清晰的图像浮现出来：AI 在处理需要深度理解变量间复杂结构关系的任务时，尤其是规划任务，其采用的策略似乎未能有效利用或适应任务的内在结构。结构化理解能力，或许是它们的关键软肋。这与一些研究发现 LLM 在处理高度结构化信息（如逻辑规则、状态转换）时面临根本困难^[20] 的结论一致。其核心原因可能在于，模型基于分布式嵌入的知识表示方式^[21]，难以精确地维持长推理链中的逻辑一致性^[22]。

结案陈词：AI“提问失败”的真相画像

经过对四大“指纹”的细致勘查与分析，笼罩在顶尖 AI 身上的“提问疑云”逐渐散去，真相的轮廓清晰地呈现在我们面前。

AI 在 QuestBench 上的“集体失误”，并非因为它们“笨”或者知识储备不足，核心症结在于其面对信息不全的结构化任务时，缺乏一套灵活、有效、能适应不同任务结构的通用信息获取策略。 它们似乎患上了一种“策略僵化症”，并且对任务的“结构感”理解不足：

任务领域	AI 的“作案手法”推断 (基于 QuestBench 数据分析)
逻辑 (Logic-Q)	尝试结构化搜索，但受限于长程记忆/符号处理能力，“心有余而力不足”，对深度 (d) 和规模 (\|X\|, \|C\|) 敏感，易在复杂推理中“断线”。
规划 (Planning-Q)	似乎放弃了有效的结构化策略，采用与任务结构脱节的低效方法（如猜测），对干扰项 (EBF) 极其敏感，却对深度 (d) 和规模 (\|X\|, b) “麻木不仁”。
数学 (GSM-Q/GSME-Q)	可能切换到更擅长的模式识别频道，利用语义理解优势，表现稳定，对各难度轴敏感度较低。

这种策略上的僵化和对任务“结构感”的深层理解缺失，共同构成了 AI 在关键时刻“问不出正确问题”的真相画像。

那么，如何为这些“AI 侦探”升级装备，教会它们真正的“破案方法论”呢？仅仅扩大训练数据或提升算力（记忆更多案例或跑得更快）可能还不够，关键在于提升其处理结构化信息、进行策略性搜索和理解自身知识边界的能力。幸运的是，研究界并未止步于发现问题，一系列旨在提升 LLM 主动信息获取和提问能力的前沿研究^[23] 正在积极探索中：

神经符号 AI (Neuro-symbolic AI): 这是目前最有希望的方向之一。它尝试将神经网络的模式识别能力与符号系统的逻辑推理能力结合。例如，通过注入显式规则或约束来增强模型的结构化推理能力，已有研究在医疗决策^[24]、机器人规划^[25]、金融风控^[26]等领域展示了潜力，能够更准确地识别缺失的逻辑或规划步骤。
交互式学习与元认知训练: 让 AI 在互动中学习提问，并提升其自我认知能力。例如，通过模拟师生互动（Alice 框架）^[27]提升推理准确率，或利用 MetaMedQA 等基准^[28]训练和评估模型识别知识缺口和校准置信度的能力。
更智能的 Agent 框架: 开发具备更强规划、验证和信息筛选能力的 AI Agent。目前，像 LangChain^[29] 或 AutoGPT^[30] 等框架正在探索如何让 Agent 在信息不足时主动寻求澄清^[31]，虽然现有 Agent 在复杂场景下仍会失败^[32]，但这无疑是重要的探索方向。

尾声：悬案之后，通往“协作智能”的新起点

QuestBench 这桩“悬案”的侦破，虽给我们对当前 AI 能力的乐观预期泼了一盆冷水，但也并非终点，反而是一个全新的起点。它精准地定位了阻碍 AI 向更通用、更可靠智能迈进的关键瓶颈——主动信息获取与结构化理解。

看清问题，是解决问题的第一步。正如儿童通过不断提问来构建对世界的认知（正如发展心理学家 Michelle Chouinard 等人的研究^[33]所揭示的，提问是儿童认知发展的核心机制），AI 也需要学会“提问”这门艺术，才能真正从一个“无所不知”的搜索引擎，进化为一个能够与人类深度协作、共同探索未知、解决复杂问题的“智能伙伴”。

在医疗诊断^[34]、科学发现自动化^[35]、个性化教育^[36]、工业流程优化^[37]乃至人机共创^[38]等无数场景中，AI 主动提出正确问题的能力，将是释放其巨大潜力、实现高效人机协作的关键。已有研究表明，AI 通过特定性提问能将信息检索满意度提升 45.7%^[39]。攻克“提问”这一挑战，理解并提升 AI 的这项能力，无疑将为我们打开通往真正“协作智能”时代的大门。前路虽漫漫，但方向已明，未来值得期待。

参考资料

[1]

QuestBench 研究论文中图 1 展示的 GSM-Q 示例: https://arxiv.org/pdf/2503.22674.pdf

[2]

QuestBench 论文 Table 2: https://arxiv.org/pdf/2503.22674.pdf

[3]

歧义与信息不确定性: https://www.aimodels.fyi/papers/arxiv/aligning-language-models-to-explicitly-handle-ambiguity

[4]

QuestBench 论文 Table 3: https://arxiv.org/pdf/2503.22674.pdf

[5]

QuestBench 论文 Table 3: https://arxiv.org/pdf/2503.22674.pdf

[6]

认知或算法局限性: https://arxiv.org/abs/2402.08164v2

[7]

注意力机制有时难以区分关键信息和干扰项: https://arxiv.org/abs/2405.00739

[8]

QuestBench 论文 Table 3: https://arxiv.org/pdf/2503.22674.pdf

[9]

函数组合: https://aclanthology.org/2023.acl-long.516.pdf

[10]

信息衰减问题: https://www.reddit.com/r/ChatGPTPro/comments/1g4d6wy/apple_study_exposes_lack_of_llm_reasoning/

[11]

QuestBench 论文 Table 3: https://arxiv.org/pdf/2503.22674.pdf

[12]

QuestBench 论文 Figure 4: https://arxiv.org/pdf/2503.22674.pdf

[13]

混合了思维树扩展、符号模板引导和动态环境交互的机制: https://openreview.net/pdf?id=lNCsyA5uS1

[14]

往往难以有效执行经典的结构化搜索: https://arxiv.org/abs/2410.22597

[15]

RLHF（人类反馈强化学习）等对齐技术可能无意中抑制了模型表达不确定性: https://hdsr.mitpress.mit.edu/pub/jaqt0vpb

[16]

RLHF 训练可能使模型响应的多样性降低，同时平均置信度提高: https://openreview.net/pdf?id=1DIdt2YOPw

[17]

QuestBench 论文 Table 3: https://arxiv.org/pdf/2503.22674.pdf

[18]

QuestBench 论文 Table 3: https://arxiv.org/pdf/2503.22674.pdf

[19]

QuestBench 论文 Table 3: https://arxiv.org/pdf/2503.22674.pdf

[20]

LLM 在处理高度结构化信息（如逻辑规则、状态转换）时面临根本困难: https://dev.to/ahikmah/limitations-of-large-language-models-unpacking-the-challenges-1g16

[21]

分布式嵌入的知识表示方式: https://blog.milvus.io/ai-quick-reference/what-role-do-embeddings-play-in-reasoning

[22]

难以精确地维持长推理链中的逻辑一致性: https://arxiv.org/abs/2501.17617

[23]

旨在提升 LLM 主动信息获取和提问能力的前沿研究: https://arxiv.org/abs/2501.10282

[24]

医疗决策: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC11891111/

[25]

机器人规划: https://arxiv.org/abs/2404.00756

[26]

金融风控: https://arxiv.org/abs/2406.17987

[27]

模拟师生互动（Alice 框架）: https://arxiv.org/abs/2504.07316

[28]

MetaMedQA 等基准: https://www.nature.com/articles/s41467-024-55628-6

[29]

LangChain: https://www.datacamp.com/tutorial/building-context-aware-chatbots-leveraging-langchain-framework-for-chatgpt

[30]

AutoGPT: https://en.wikipedia.org/wiki/AutoGPT

[31]

主动寻求澄清: https://stackoverflow.com/questions/76170406/make-langchain-agent-ask-clarifying-question

[32]

现有 Agent 在复杂场景下仍会失败: https://www.linkedin.com/pulse/why-do-most-multi-agent-llm-systems-fail-jagadeesh-rajarajan-79kjc

[33]

Michelle Chouinard 等人的研究: https://pubmed.ncbi.nlm.nih.gov/17394580/

[34]

医疗诊断: https://www.aalpha.net/blog/human-ai-collaboration-augmenting-capabilities-with-agentic-platforms/

[35]

科学发现自动化: https://arxiv.org/html/2503.22444v2

[36]

个性化教育: https://www.semanticscholar.org/paper/575d6612c0459205e0ecf98f11ab42273228bbae

[37]

工业流程优化: https://smythos.com/ai-integrations/ai-integration/human-ai-collaboration-frameworks/

[38]

人机共创: https://www.semanticscholar.org/paper/5f45b5f1346fa20867d0ffaa33fbb5d9fc56c180

[39]

AI 通过特定性提问能将信息检索满意度提升 45.7%: https://arxiv.org/html/2402.01934v1

展开阅读全文

更新时间：2025-06-08

标签：深度模型复杂度准确率疑云线索真相逻辑策略能力关键论文科技信息

1 2 3 4 5

深度长文｜AI 提问疑云：四大线索揭秘顶尖模型“失语”真相

序章：一桩关于“提问”的悬案

线索一：致命的“选择题”——EBF 指纹暴露的“选择困难”

线索二：深层推理的“迷雾”——d 指纹揭示的“策略混乱”

线索三：规模效应的“失灵”——|X|, |C|, b 指纹的旁证

结案陈词：AI“提问失败”的真相画像

尾声：悬案之后，通往“协作智能”的新起点

卫星化学：乙烷关税为1%

马斯克称特斯拉即将实现纯AI自动驾驶

俄罗斯国产客机SJ-100来了，它的出现意味着什么？

空调26℃不是最佳温度？清华建筑系教授用热成像仪发现黄金温差。

规避大跌之后，下一步进场点

金价升破3270美元，国内金饰一夜涨12元，再次破千

惠泉啤酒2024年净利6483万增长34%：董秘程晓梅薪酬56万涨薪22万

保利华南挂牌肇庆鑫荣地产99.804%股权挂牌价10.21亿元

中石油兰州石化分公司执行董事党委书记徐文学来兰石集团参观交流

獐子岛业绩预告“变脸” 股民：扇贝又跑了？

港股跌幅扩大！恒指跌幅扩大至2%，恒生科技指数跌3.6%

周三股市低开低走、是进入压缩调整还是为蓄力反攻铺垫？

14亿人的超级市场正在打开全球企业惊呼：错过中国就错过了未来

金价泡沫下的机遇：5类资产正悄然翻倍！

4月16日中午收盘，主力资金大幅流出这些个股！

港股跌幅扩大！恒指跌幅扩大至2%，恒生科技指数跌3.6%

刘炜关键时刻连出败笔，新疆错过2次赢球机会，杨鸣命硬到

国际网络达人齐聚！“智汇湖北・网联世界”活动探秘荆楚

1992年，台湾老兵回湖南探亲却找不到家，后从村民口中得知

硅谷六大科技巨头被指控十年来逃税近2780亿美元，亚马逊

睿哲信息：搞清楚这些，就能明白谁更需要快速升级到Siteco

CIPS大增43%，人民币国际化迈出关键一步，美元霸权裂痕出

【AI午评】沪指急跌0.92%！抄底还是撤退？三条策略应对变

全国出发乘豪华邮轮 17天深度畅游英国爱尔兰公主邮

半导体三连阴！科技板块资金大逃亡？资金流入揭开谜底！