(来源:科技头版)

做AI大模型就像在飙车,快一步通吃,慢一步出局。
出品 | 科技头版 作者 | 刘峰
就在今天,中国AI圈爆出两条重磅消息。
一条是几天前以匿名身份空降全球AI视频评测榜榜首的“HappyHorse”终于被正式认领。
阿里巴巴ATH方面表示:“HappyHorse是阿里ATH旗下创新事业部研发的模型,目前正处于内测中,并将于近期开放API。”

另一条是DeepSeek创始人梁文锋被爆出在内部沟通中明确了下一代旗舰大模型DeepSeek V4的发布节奏——计划于4月下旬正式与公众见面。
两件事在同一天发生,纯属巧合,但巧合背后折射出的信息却值得梳理。

匿名模型登顶,“欢乐黑马”终认亲
4月7日,全球权威AI视频盲测平台Artificial Analysis的榜单上,突然出现了一个陌生的名字:HappyHorse-1.0。
模型名称旁边只有一个简单标注——“即将推出”。没有发布会,没有技术博客,没有任何公司为之站台。
它就像一匹突然闯入赛道的黑马,毫无征兆地空降榜首。要知道,在前不久,字节Seedance 2.0才刚刚给大家带来了不小的震撼,没有人会想到这么快就有“新王登基”。
榜单数据很快在行业内炸开了锅。

Artificial Analysis
在文生视频(无音频)赛道,HappyHorse-1.0的Elo得分达到1378分,领先第二名字节跳动Seedance 2.0超过100分;在图生视频(无音频)赛道,1411分的成绩更是直接刷新了该平台的历史纪录。

Artificial Analysis
熟悉Elo评分体系的人都知道,超过60分的差距就意味着稳定优势。而“欢乐马”与第二名的分差,已经大到第二到第十名的总分差加起来都不够填补。
让众多从业者更意外的是,这个匿名模型还在“原生音视频联合生成”上做了文章。
与市面上常见的“视频生成+音频后处理”拼接方案不同,HappyHorse采用统一自注意力Transformer架构,将文本、视频、音频三种模态的token放入同一序列联合建模。
简单说,拼接方案中画面和声音是先后生成的,容易出现口型和声音不同步的问题;而统一建模让声音与画面在生成之初就处于同一语义空间,人物口播时的同步效果明显更自然。
来源:抖音
关键是,这个模型的生成效率也颇为亮眼:单张H800显卡生成一段5秒1080p视频仅需约38秒,较同类模型提升40%以上。模型原生支持英语、普通话、粤语、日语、韩语、德语、法语七种语言的唇形同步。
除了对模型本身的关心,在今天阿里正式认领之后,不少网友还发出了灵魂质问:匿名发布为什么成了新潮流?
就在上个月,小米同样是先在OpenRouter平台低调上线了“Hunter Alpha”匿名模型,随后认领为MiMo-V2-Pro;今年2月还有匿名现身的“Pony Alpha”,最终也被证实为智谱新一代GLM模型。
从客观原因来看,这种做法的好处是显而易见的:
其一,悬念制造话题。一个“谁家的孩子”的猜谜游戏,撬动的讨论热度远超常规发布会;
其二,在没有品牌背书的情况下,产品的真实水平更容易被客观评估。用户的打分和榜单排名不会被开发方的名气所“滤镜”扭曲。
当然,这匹“黑马”的成色到底有多足,还需要4月30日开放API后,接受更广泛用户实测的检验,仅从目前爆出的网络试用视频来看,它的确很强,但还没能彻底颠覆人们对AI生成视频的认知。

DeepSeek V4将至
如果说HappyHorse最终被认领是大家相信近期一定会发生的事,那么DeepSeek V4即将到来的消息就属于意外之喜了。
但也不是那么难猜,毕竟从进入4月份开始,DeepSeek就有了重大变化。
先是服务器突然瘫痪,一直持续了整整12个小时。随后,在4月8日凌晨,很多DeepSeek用户又突然发现,打开DeepSeek网页端时,输入框上方一下多了两个图标——“快速模式”和“专家模式”。
这是DeepSeek走红以来首次在产品端引入模式分层设计。在此之前,无论你是小学生问作业还是博士生跑代码,背后似乎都用的是同一个模型。
现在,DeepSeek开始让用户做选择。

“快速模式”适配日常对话与即时响应,支持图片及文件中的文字识别,主打一个“快”字。
“专家模式”则专为复杂逻辑与深度思考设计,具备更强的智能搜索能力,不过该模式目前暂不支持文件上传和多模态功能,且在高峰时段可能需要排队。
面对用户关于“专家模式是否基于V4”的提问,DeepSeek官方明确回应:“专家模式是V4版本更新的核心功能”,相当于间接证实了这一猜测。
此外,有媒体宣称在灰度测试界面中还出现了“视觉模式”(Vision)的选项,尽管尚未向全体用户开放,但这暗示V4或将具备更强大的原生多模态融合能力。
而真正让行业关注的,还是V4正式版的参数配置。
目前已经有消息传出:DeepSeek V4预计可处理1万亿个参数,原生支持文本、图像、视频和音频等多模态数据,并拥有100万个词元的上下文窗口——相当于一次性处理15到20部完整的小说。

图源:知乎
从参数规模上看,V4相比V3系列是一次质的飞跃。
消息称,V3系列的上下文窗口为128K tokens,而V4直接拉升至100万tokens,提升了近8倍。
这意味着模型可以一次性读取《三体》三部曲这样的完整文本,无需分段或截断。
在编程场景中,这种上下文长度足以一次性处理整个中小型代码仓库的全部文件,实现真正的全仓库级推理。
此外,DeepSeek V4最受关注的技术特征,或许不在参数层面,而在算力层面——该模型首次实现了与华为昇腾等国产AI芯片的全栈深度适配。
这不是一个简单的软件移植问题。长期以来,AI大模型的训练和推理高度依赖英伟达的CUDA生态。
将大模型迁移到国产芯片上,意味着从底层算子库、编译优化到上层模型框架都要重新设计和适配,工作量极为庞大。
DeepSeek完成了这一适配,标志着中国AI产业在摆脱对国外技术生态依赖、推进“去CUDA化”进程中迈出了关键一步。

图源:微博

中国AI的下半场来了
当然,如果把目光只放在阿里和DeepSeek身上,就会错过中国AI行业更丰富的图景。4月以来,其他玩家同样动作频频。
字节跳动的Seedance 2.0虽然在视频盲测中被HappyHorse暂时超越,但在有音频的赛道上几乎与后者打平,且样本量更大、数据更稳定。快手可灵3.0同样稳居视频生成赛道的第一梯队;
在文本大模型领域,智谱的GLM-5、月之暗面的Kimi-K2.5、百度的文心5.0、腾讯的混元Turbo都在各自擅长的方向上持续迭代。
特别是在Agent和智能体方向,竞争可谓是相当激烈。
OpenClaw等智能体框架正在快速迭代,多家公司都在探索如何让大模型更好地理解和执行复杂任务。
根据国家数据局披露的数据显示,到今年3月,我国日均词元调用量已超过140万亿,相比2024年初增长了1000多倍。这个数字背后,是越来越多应用场景正在被AI渗透和重塑。
可以说,中国AI行业正处在一个多点开花、各显神通的阶段。
没有哪一家公司能垄断所有赛道,也没有哪一款模型能永远占据榜首。
这种多元竞争的局面,对行业的发展和用户的选择而言,都是一件好事。
接下来的一个月,HappyHorse的API开放、DeepSeek V4的正式发布、以及其他玩家可能带来的惊喜,都值得我们持续关注。
而在这场持续的演进中,真正的受益者,是每一个将AI融入日常工作和生活的用户。
更新时间:2026-04-11
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034844号