NeurIPS 2025 | DynaAct：DeepSeek R1之外，探索大模型推理的另一条道路

来源：市场资讯

（来源：机器之心）

该工作的第一作者为香港大学计算机系博士生赵学亮。蚂蚁武威、关健为共同贡献者。

在 R1 与 O1 引领「深度推理」浪潮之后，大模型推理领域正迎来新的分叉点！

大模型推理的爆发，实际源于 scaling 范式的转变：从 train-time scaling 到 test-time scaling（TTS），即将更多的算力消耗部署在 inference 阶段。典型的实现是以 DeepSeek r1 为代表的 long CoT 方法：通过增加思维链的长度来获得答案精度的提升。那么 long CoT 是 TTS 的唯一实现吗？

针对这个问题，来自蚂蚁和香港大学自然语言组的研究团队（后简称「团队」）给出了 TTS 的另一种思路：让模型不仅「想得久」，更要「想得准」。

在这一思路下，团队提出了 DynaAct，该工作已经被 NeurIPS 2025 接收。

Title：DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

Paper：https://arxiv.org/abs/2511.08043
Code：https://github.com/zhaoxlpku/DynaAct

与传统 token-by-token 式的 CoT 不同，DynaAct 提出以 Action Space Optimization 为核心的 TTS 范式：在每一步推理中动态构建可选动作集合，并通过学习算法从中选择最优动作，从而让推理路径更高效、更具结构化。

为什么是 Action Space 优化？

当前主流 TTS 方法通过「更长的思维链」来提升性能，但随之而来的，是搜索空间爆炸与冗余思考。团队认为，推理效率的瓶颈并不在「算得不够多」，而在「选得不够好」。

DynaAct 将推理过程类比为决策序列：每一步的关键不是「生成什么」，而是「选择什么去执行」。

因此，它聚焦于如何自动学习、动态构建每一步推理的动作空间，并提出两条核心原则：

数据驱动——动作候选从真实推理数据中学习，而非人工规则生成；
完备且紧凑——既覆盖潜在解，又避免冗余。

方法：

Submodular Optimization × MCTS

DynaAct 核心思想是将动作空间学习问题转化为集合选择问题，并通过子模优化（Submodular Optimization）来实现线性复杂度的算法。

子模优化的关键在于定义合适的子模函数（Submodular Function）。由于子模函数具备「集合越大，新增元素收益越小」的性质，因此可以贪心地构建一个子集，实现子集性质近似最优，同时算法复杂度维持在线性。

具体来说，DynaAct 定义的子模函数包括 utility 和 diversity 两个部分。前者度量动作空间与当前状态的相似度；而后者则刻画动作空间中动作的冗余度：

这样定义下的子模函数学习等价于学习动作和状态的 embedding。DynaAct 采用 Q-learning 来优化，希望利用学到的子模函数能最终选出最大化推理回报（reward）的动作空间。

代码亮点：

高效 MCTS 加速

在系统实现层面，团队开源了基于 vLLM 的高性能 MCTS 框架。该实现显著提升了节点扩展、Rollout 与 Reward 计算效率，为后续 TTS 研究提供了通用加速方案。

效果：

Smarter Space, Better Reasoning

在 6 项推理基准上，DynaAct 显著优于 CoT、RAP 与 rStar 等方法，验证了动态动作空间的有效性。

进一步分析显示，随着 MCTS Rollout 次数增加，DynaAct 呈现出稳定的 test-time scaling 趋势：

同时动作空间更小、延迟几乎不升：

展望：

从 Reasoning 走向 Smarter Search

DynaAct 证明了：TTS 的未来，不在更多计算，而在更聪明的搜索。

团队计划进一步探索：

将 Dynamic Action Space 扩展到 multi-agent 规划场景；
将子模优化与强化学习结合，学习端到端的自适应推理策略；
推出更高效的 MCTS 工具包，服务开源社区。

展开阅读全文

更新时间：2025-12-01

标签：科技模型道路动作空间团队函数高效冗余方法算法复杂度子集

1 2 3 4 5

NeurIPS 2025 | DynaAct：DeepSeek R1之外，探索大模型推理的另一条道路

50位专家齐聚冰城共探AI时代安全防护新路径

马来西亚下血本了！凑了73.6亿，把整个国家的5G都交给了华为中兴

AI赋能未来｜第一届浙江省大学生人工智能竞赛暨AI高端研讨会启幕

产学研深度融合加速“再生医学”在沪落地更多患者或受益于前沿疗法

东兴高速东延工程重要进展

今天开通，约6.5小时飙拢贵州兴义！ | 早安，新眉

涨幅超150%！三星HBM4对英伟达供应价格看齐SK海力士！

2025亚洲通航展珠海开幕 387家企业超170架航空器亮相

李楠：华与华就是忽悠老年土老板的公司

夸克AI眼镜两个系列六款单品发布：7.5毫米镜腿，全球同类产品最窄

神舟二十二号飞船成功发射：创多个首次！这是一次世界级实战验证

阿里吴嘉首谈千问：AI助手比拼的是智力水平

华为Mate 80终于来了！11月28日开售，这些升级太狠了

天猫双12将在12月8日正式开卖和双11相比官方立减让利比例取消15%档位

神二十乘组 204 天太空出差归来，首次 “换乘” 返回，刷新中国纪录

12月A股主线提前锁定！三大重磅信号共振，科技+周期成主攻

Hyperliquid 团队将 259.99 万枚 HYPE从 Staking 划转

华为手机回来了，美国制裁反成助推器，科技闭环悄然成型

人到中年，枕边人和其他异性暧昧、越界，最好的处理方法：3

吉利·VEX机器人赛巅峰对决+智能汽车黑科技,这场科创

神20返回舱遭空间微小碎片撞击，受损细节公布

学习方法错了，比摆烂还吃亏

防治糖尿病，这两种运动方法最有效，推荐给你！

经常失眠睡不着，容易醒，1个笨方法让你倒头就睡，一觉到天

当“诗和远方”插上科技的翅膀，“科技游”从小众探索走