阿里发布QwenLong32B:首个强化学习训练的长文本推理模型

IT之家 5 月 27 日消息，阿里通义千问 Qwen 团队昨日（5 月 26 日）发布 QwenLong-L1-32B 模型，是其首个通过强化学习训练的长文本情境推理模型（LRM）。

在七个长文本 DocQA 基准测试中，表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型，与
Claude-3.7-Sonnet-Thinking 相当。

QwenLong-L1-32B 模型最大的亮点，在于上下文窗口最高支持 131072 个 tokens。该模型基于 QwenLong-L1 框架开发，采用了先进的 GRPO（Group Relative Policy Optimization）和 DAPO（Direct Alignment Policy Optimizatio）算法，结合基于规则和基于模型的混合奖励函数，显著提升了模型在长上下文推理中的准确性和效率。

具体而言，团队在监督微调（SFT）阶段建立一个稳健的初始策略，随后采用课程引导的分阶段强化学习技术来稳定策略演变，并结合难度感知的回顾采样策略来激励策略探索。

除了模型本身，阿里还发布了一套针对长文本推理问题的完整解决方案。该方案包含四个核心组件: 高性能的 QwenLong-L1-32B 模型、专门优化的训练数据集、创新的强化学习训练方法，以及全面的性能评估体系。

IT之家附上参考地址

展开阅读全文

更新时间：2026-01-23

标签：科技阿里模型文本策略团队长上上下文下文情境基准

1 2 3 4 5

阿里发布QwenLong32B:首个强化学习训练的长文本推理模型

人形机器人，“打”起来了！机器人ETF基金(159213)翘尾收涨0.19%，连续3日吸金！机器人为什么非得是“人形”？商业化落地还有多久？

天问二号任务计划5月29日实施发射

2025淘宝京东618活动什么时候开始买最便宜？618最优惠时间表确定：6月17日开始买优惠力度最大

首次！不听人类指挥，AI模型拒绝关闭

朋友圈可以查看访客记录？网友已炸锅……回应来了

朋友圈可以查看访客？网友已炸锅……腾讯客服回应！

三星 Galaxy Z Flip7 / FE 折叠手机入网

首款基于俄罗斯移动操作系统“Red OS M”的智能手机开始发售

淘宝桌面版新增商品对比、好物发现功能

消息称AMD B650芯片组停产，主板产品库存可支撑到三季度

河南出台“人工智能+教育”三年行动计划：未来课堂，AI可能化身“辅导老师”

梦幻色彩打造街头最靓风景线，vivo S30系列将至

AG600赴大兴安岭、长白山执行森林消防任务

中国地质大学一博士生在西藏失联，校方：正在全力寻找，同行的其他三人已获救

实现多项首创技术我国渤海最大海上油气平台完工起运

首次！不听人类指挥，AI模型拒绝关闭

合水县多部门联合开展科技活动周和科技工作者日宣传活

清华团队牵头的“稀土磁材工业废料绿色生物回收与资源

科大讯飞获得发明专利授权：“一种基于多模态大模型的对

“全国科技活动周”系列活动在深圳科技馆火热开启

周鸿祎：台湾地区黑客组织能力属于三流团队水平

2025年渭南市科技活动周暨集中示范活动正式启动

美力科技：产品有应用于航空发动机

第三十六届江苏省青少年科技创新大赛终评活动在扬州

智启静界展云图，潮涌未来攀高峰！2025年静安区科技节启幕