阿里云Qwen3模型重大更新：性能全面提升，超越行业顶尖水平

IT之家 7 月 22 日消息，阿里云今天更新了旗舰版 Qwen3 模型，推出 Qwen3-235B-A22B-FP8 非思考模式（Non-thinking）的更新版本，命名为
Qwen3-235B-A22B-Instruct-2507-FP8。

阿里云表示，在经过与社区沟通和深思熟虑后，决定停止使用混合思考模式，转为分别训练 Instruct 和 Thinking 模型，以获得最佳质量。

据介绍，新的 Qwen3 模型通用能力显著提升，包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面，在 GQPA（知识）、AIME25（数学）、LiveCodeBench（编程）、Arena-Hard（人类偏好对齐）、BFCL（Agent 能力）等众多测评中表现出色，超过 Kimi-K2、DeepSeek-V3 等顶级开源模型以及 Claude-Opus4-Non-thinking 等领先闭源模型。

模型概述

FP8 版本的
Qwen3-235B-A22B-Instruct-2507 具有以下功能特点：

类型：因果语言模型 / 自回归语言模型
训练阶段：预训练与后训练
参数量：总共 235B，激活 22B
参数量（非嵌入）：234B
层数：94
注意头数（GQA）： Q 为 64，KV 为 4
专家数：128
激活专家数：8
上下文长度：原生支持 262,144。

阿里云表示，本次更新的 Qwen3 模型，还增强了以下关键性能：

在多语言的长尾知识覆盖方面，模型取得显著进步。
在主观及开放性任务中，模型显著增强了对用户偏好的契合能力，能够提供更有用的回复，生成更高质量的文本。
长文本提升到 256K，上下文理解能力进一步增强。

目前，Qwen3 新模型已在魔搭社区和 HuggingFace 上开源更新，IT之家附官方地址：

官网地址：https://chat.qwen.ai/
HuggingFace：https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
魔塔社区：
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8

展开阅读全文

更新时间：2025-12-31

标签：科技阿里模型性能水平行业能力上下文文本社区参数语言版本模式

1 2 3 4 5

阿里云Qwen3模型重大更新：性能全面提升，超越行业顶尖水平

模型概述

雅鲁藏布江水电工程建成后的军事意义

蚂蚁 AQ 登顶苹果应用榜

德州举办沉浸式文旅科技融合项目观摩会探索产业发展新路径

贵安扩容项目观山湖枢纽互通工程路基完工

李国庆与俞渝多家共同持股企业拟注销，此前李国庆被曝将再婚，女方为北大校友张丹红

“叛逆”材料被发现：加热后收缩、施压后膨胀，还可复原

宁芜铁路有新进展！还有一大波利好......

成都通报“蒲江河出现河鱼死亡”：初判系高温导致水中溶解氧下降蒲江生态环境

印度急眼造谣？中国开建雅鲁藏布江水电站，卡住了印度的水命脉？

刚刚！Qwen3深夜升级，碾压Kimi K2和DeepSeek V3

我团队研制出系列牛用基因芯片

2024年航空货邮运输量达898.2万吨相比2020年增长32.8%

魅视科技等成立云联视界智慧运营公司

智能时代，同球共济！2025世界人工智能大会将于7月26日启幕

正泰电器等新设科技公司，含水资源管理业务

德州举办沉浸式文旅科技融合项目观摩会探索产业发展新

魅视科技等成立云联视界智慧运营公司

正泰电器等新设科技公司，含水资源管理业务

紫天科技停牌生死劫：3万散户在资本赌局豪掷1.2亿豪赌一

邹平市高新街道社区卫生服务中心开展“冬病夏治”中医

义诊送健康——“中医生活化社区行”走进滕州市北辛街

来伊份养馋记社区零售 4.0 上海首店落沪重构家门口的

岚山区中医“夜市”进社区，夏夜解锁健康“新玩法”

科技股行情才开始！软件、半导体、人工智能、机器人走势

福成股份：继续坚持特色福成肥牛火锅和烤肉模式