当 AI 下场炒 A 股,「推理」成了新的直觉

RETuning:像金融分析师一样的模型,正在出现。

作者丨郑佳美

编辑丨马晓宁

几天前,一场名为 “AI Trading Battle”的实验在海外社交媒体上火了。主办方给六个主流大模型(包括 ChatGPT、Gemini、Claude 等)每人一万美元的虚拟资金,让它们自由进行加密货币交易。结果让人大跌眼镜:截至今天,DeepSeek V3.1 实现了超过 126% 的惊人盈利率,而GPT 5 和 Gemini 2.5 Pro 跌破 5,000 美元,亏损率超过 50%。

这场“AI 交易秀”原本旨在展示智能的金融潜力,却反而揭示了一个更深层的问题:当面对复杂而动态的金融环境时,语言模型知不知道他们“为什么下单”呢?

而由香港科技大学、美国罗格斯大学和南开大学联合研究团队发表的最新论文,则是关于这类问题给出了一个答案。

他们提出了一种名为 RETuning的方法,让大语言模型在做出预测前,先搜集证据、分析逻辑、反思推理,再得出结论。换句话说,模型不再是“凭直觉判断”,而是学会了“有理有据地思考”。

研究团队基于覆盖中国 A 股市场的大规模数据集,对这一方法进行了系统验证。结果表明,RETuning 不仅显著提升了预测准确率,还让模型的推理过程更清晰、更可信,为金融领域的人工智能研究带来了新的方向。

01

从准确率到平衡性的显著提升

在这项研究中,作者利用中国 A 股市场的大规模股票走势预测数据集,对他们提出的 RETuning(反思式证据调优)方法进行了系统验证,结果表明这种方法确实显著提升了大语言模型在金融预测任务中的表现。

首先,从总体效果来看,RETuning 模型(如 DeepSeek_R1_14B_SFT_GRPO)在三分类任务:预测股票“上涨、持平、下跌”中取得了明显优势。与主流的基础模型相比(包括ChatGPTLLaMA3-8BMistral等),RETuning 的 F1 分数平均高出 10% 到 20%,说明它不仅能更准确地区分股票走势方向,还能在不同类别之间保持更平衡的预测效果。这种提升在金融任务中非常罕见,因为股票数据噪声大、随机性强,能有双位数的提升已经算是非常显著的成果。

其次,作者特别测试了模型在时间外数据(Out-of-Distribution)上的表现,也就是让模型预测它没见过的股票或未来日期的走势。结果显示,RETuning 模型在这种“未来数据”上的表现依然稳定,没有明显掉线,说明它具备一定的泛化能力,能适应不同时间段和不同公司的情况,而不仅仅是“记住了训练集”。

推理阶段的实验中,RETuning 还展示了另一个有趣的现象:作者尝试通过“多次思考”来提升预测质量。具体做法是让模型在同一问题上生成多次不同的推理过程(即多次采样),最后再通过多数投票确定最终答案。结果发现,当生成次数在 8 到 16 次之间时,预测准确率会显著提升;但如果次数太多(超过 32 次),效果反而会下降。换句话说,模型多想几次确实有助于它更慎重地决策,但思考太多则会带来冗余和噪声,说明推理时扩展存在一个最佳区间。

此外,RETuning 在可解释性方面也有明显进步。与传统的提示式方法(Prompt-Only)不同,RETuning 模型会主动构建一套完整的分析逻辑。它会先从输入信息中整理出支持“上涨”的证据和支持“下跌”的证据,分别进行分析,然后再综合判断,得出最终预测。也就是说,它不仅给出结果,还会告诉你“为什么这么想”。

在人类专家评估中,这种反思式推理输出被认为更有条理、更符合分析师逻辑。相比之下,传统模型往往只输出模糊结论或含糊理由,而 RETuning 的回答更接近人类投资分析报告的写法:会明确说明影响因素、权衡证据并形成理性的判断。研究人员指出,这种变化不仅提升了模型的可信度,也让 LLM 更适合用于需要解释性和推理深度的金融场景。

最后,RETuning 模型在多个指标上都优于其他对照模型(如只用提示的模型、仅监督微调的模型、或使用普通强化学习的模型),说明它结合了监督微调、规则化强化学习与推理时扩展三种思路的优势,是一种综合改进方案,而不是单一技巧。

02

不仅是结果,更是过程

显著的性能提升外,是十分系统的实验过程。RETuning 的实验过程涵盖了从数据构建到模型训练、再到验证评估的完整流程。

首先,研究团队自己构建了一个叫 Fin-2024的大规模数据集,用来模拟真实的中国 A 股市场。这个数据集非常庞大,包含 5000 多只股票、20 多万个样本。每条样本都整合了来自多个渠道的信息,比如新闻报道、分析师评论、公司财报、量化指标、宏观经济数据,还有类似股票的走势。然后研究者根据实际的涨跌幅给样本打上标签(涨、跌或持平),平均每条数据的文本长度能达到 3 万多个词,让模型能处理非常长的金融文本。

在此基础上,研究团队采用了三个阶段的训练流程。

第一步是监督微调(SFT),这一阶段的目标是让模型学会“怎么分析”。它不直接预测,而是先建立分析逻辑:先提出分析原则,再整理出支持和反对的证据,最后得出结论。这里模型使用 DeepSeek 系列作为基础(7B、14B、32B 参数量的版本都有),通过 LoRA 微调来节省显存。

第二步是基于规则的强化学习(Rule-based RL),这一步是让模型变得“更聪明”。研究者设计了一个有三项评分的奖励机制:格式正确、预测准确、逻辑一致。模型每次生成结果后,都会根据这三项标准被“打分”,然后通过 GRPO 算法(类似 RLHF 但更稳定)不断调整策略。

为了避免模型在太容易或太难的样本上浪费时间,他们还引入了课程学习(Curriculum Learning)。具体做法是:先让模型对每个样本预测 8 次,根据预测正确的次数判断难度,只保留“中等难度”的样本训练,并且按照从简单到复杂的顺序训练,逐步提高模型的推理能力。

最后一步是推理时扩展(Inference-Time Scaling)。这就像是让模型在做决定前多思考几次。它会针对同一个问题生成多种不同的推理路径(比如 8 次、16 次),然后通过多数投票选出最终预测。实验发现,这种“多想几次再决定”的策略,确实能显著提高预测的稳定性和准确率。

整个训练过程在 32 张 NVIDIA H100 GPU 上完成,SFT 阶段用了 Xtuner + DeepSpeed 框架,强化学习阶段则由 verl 实现 GRPO。训练数据是 2024 年 1 月到 11 月的市场数据,测试在 2024 年 12 月的样本上完成,还额外用了 2025 年 6 月的数据来测试模型在未来数据上的泛化能力。最终,RETuning 的表现远超其他模型,比如 ChatGPT、LLaMA3 和 Mistral,不仅预测更准,还能解释“为什么这么判断”。

03

仍有挑战,但方向明确

综上实验可以看出,RETuning 不光提升了模型的预测准确率,同时也带来了较为深层的意义。

首先,它让大语言模型在金融预测中变得更可解释了。RETuning 引入了“反思式证据推理”,让模型不只是给出结果,而是能先找证据、再分析、最后下判断,让整个推理过程变得清晰、可信。

其次,研究还验证了推理时扩展这一新思路的可行性。简单来说,就是让模型在回答前多想几次再决定。实验发现,适度增加思考次数能显著提高准确率,但思考太多反而会带来计算开销大、收益递减的问题。

另外,RETuning 团队还构建了一个覆盖 5000 多只股票的大型 A 股数据集,为金融类大模型的训练提供了宝贵资源,也为未来在投资情绪分析、经济新闻理解等方向打下了基础。

当然,这项研究也有一些局限性。模型的表现依然会受到市场噪声和非理性波动的影响,暂时还不适合直接用于实盘交易,而训练和推理阶段的算力消耗都比较高,尤其是在强化学习和多轮采样阶段。目前的实验也只验证了 A 股市场,未来还需要在不同市场和时间段上进一步测试。

//

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载! 公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

展开阅读全文

更新时间:2025-10-28

标签:科技   下场   直觉   模型   数据   准确率   样本   证据   金融   过程   股票   阶段   逻辑

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top