外媒,表现平平还是被低估?DeepSeek V4 的展现 “令人印象深刻”

Scmp报道,DeepSeek 带着久违的旗舰新品V4回来了,只是这一次,外界的掌声没有当年R1横空出世时那么响亮。

根据独立基准测试机构Artificial Analysis于4月25日发布的最新评测,DeepSeek V4 Pro在全球开源模型智能指数榜单中排名第二,得分52分,仅次于北京月之暗面(Moonshot AI)旗下的Kimi K2.6(54分)。与此同时,GLM-5.1(51分)紧随其后,差距不足一步。

这个结果,与DeepSeek今年年初凭借R1系列一鸣惊人、令硅谷侧目的辉煌相比,多少显得有些"中规中矩"。但数字背后,却有不少值得细看的东西。

真正的进步不容忽视

V4 Pro相比前代V3.2的提升幅度实际相当显著,在Artificial Analysis智能指数上从42分跃升至52分,整整进步了10分。架构也完成了一次大刀阔斧的升级:V4 Pro采用全新混合专家架构(MoE),总参数量达1.6万亿,激活参数为490亿,相比V3家族的6710亿总参数、370亿激活参数,是一次质的扩张。

在代理任务(Agentic Tasks)这一近年来业界最看重的实战能力赛道上,V4 Pro的表现尤为突出。在GDPval-AA代理基准测试中,V4 Pro以1554分高居开源模型榜首,超越Kimi K2.6(1484分)和GLM-5.1(1535分)。

上下文窗口从V3.2的12.8万token扩展至100万token,整整扩大了8倍,这对处理长文档、代码库分析、复杂多轮对话等场景意义重大。

短板同样清晰可见

然而,V4 Pro并非没有软肋。最让研究者皱眉的,是其极高的幻觉率,V4 Pro和V4 Flash的幻觉率分别高达94%和96%,意思是当模型不知道答案时,它几乎必然会"编"一个出来,而不是坦承不知。这对需要高可靠性输出的商业应用场景来说,是个不小的隐患。

在成本端,V4 Pro的定价策略也显得颇为矛盾。每百万输入/输出token定价为1.74美元/3.48美元,虽然比Claude Opus 4.7便宜四倍以上,但相较于其他开源竞品,例如Kimi K2.6(948美元/次评测)和GLM-5.1(544美元/次评测),V4 Pro的综合运行成本高达1071美元,价格优势并不明显。这背后的原因在于,V4 Pro的输出token消耗量极高,单次评测消耗高达1.9亿个输出token,"烧钱"速度远超同级别对手。

在众包用户偏好平台Chatbot Arena上,V4 Pro的表现也低于预期,用户主观感受评分落后于官方基准测试所呈现的水准,说明模型在真实使用体验上仍有距离要追。

重返战场,但竞争格局已然不同

一年前,DeepSeek R1横空出世,让美国科技界为之震惊,英伟达股价应声大跌,关于中国AI能力的讨论一夜之间占据全球头条。但这一次,开源AI赛场的格局已大不相同。

中国本土的竞争者——月之暗面、智谱AI、MiniMax,乃至传闻中小米将公开权重的MiMo-V2.5-Pro,都在奋力追赶甚至局部超越DeepSeek。与此同时,OpenAI、Google、Anthropic的闭源旗舰模型依然在总榜上遥遥领先,V4 Pro尚未触及那条线。

DeepSeek此次同步推出的轻量版V4 Flash(284B总参数,130亿激活参数)表现也值得关注,智能指数得分47分,超越前代V3.2,且在模型尺寸与性能的性价比曲线上位置优越,定价仅为0.14美元/0.28美元每百万token,适合对成本敏感的中小型应用场景。

V4的发布还有一个外界容易忽略的信号——DeepSeek官方宣布,V4完全支持华为昇腾芯片,这在美国持续收紧芯片出口管制的背景下,折射出中国AI产业链寻求自主化路径的战略意图。

DeepSeek V4没有创造新的奇迹,但它证明了这家公司仍然是全球开源AI格局中不可忽视的力量。问题是,下一个真正的"惊喜时刻",还在不在它手中。

展开阅读全文

更新时间:2026-04-27

标签:科技   深刻   印象   美元   模型   前代   参数   基准   中国   格局   场景   成本   指数

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号

Top