视觉生成的“去语言化”革命:何恺明团队如何重写AI底层架构

在通往通用人工智能(AGI)的赛道上,长期以来存在着一道隐形的裂痕:自然语言处理(NLP)与计算机视觉(CV)虽然都归于深度学习麾下,但它们的核心范式却截然不同。语言模型如GPT系列坚守着“离散符号的自回归”路线,而视觉生成领域在经历了GAN的辉煌后,迅速被以Stable Diffusion和Sora为代表的“连续空间扩散模型”所统治。

这两种路径似乎井水不犯河水,直到何恺明团队发布了关于掩码自回归(Masked Autoregressive, MAR)的最新研究。这项工作不仅仅是一个新模型的提出,它更像是一份针对当前视觉生成主流范式的“修正案”,暗示我们长期以来试图将图像“语言化”或者过度依赖“扩散去噪”的努力,可能建立在一个不必要的假设之上。

强制离散化的代价:视觉“词汇”的伪命题

要理解何恺明团队这项工作的颠覆性,必须回溯视觉生成领域的一个核心痛点:如何让擅长处理序列的Transformer架构理解二维图像?

在扩散模型称霸之前,以及在多模态大模型的早期探索中,主流的解决方案是“矢量量化”(Vector Quantization, VQ)。研究者们默认了一个前提:既然Transformer处理离散的单词(Token)效果拔群,那么要让它生成图像,就必须先把图像切块,并将这些像素块映射到一个固定的“视觉词表”(Codebook)中。这实际上是强行将连续、平滑的视觉信号“翻译”成离散的、类似文字的整数序列。

然而,何恺明的研究犀利地指出了这一过程的荒谬性。图像与语言有着本质的物理差异。语言是人类创造的高度抽象符号,天生具有离散性;而光影、色彩和纹理是自然界的连续信号。强行使用VQ-VAE或VQ-GAN将图像离散化,不仅引入了信息的有损压缩,导致生成图像在细节上的模糊或失真,更重要的是,它使得模型的训练变得异常复杂且不稳定。

何恺明团队提出的新范式,核心在于打破了“自回归必须离散”的教条。他们证明,Transformer完全可以直接在连续值的空间内进行自回归预测。这意味着,我们不需要费尽心机地去构建一个并不存在的“视觉词典”,也不需要强迫模型去学习那些人为规定的“像素单词”。通过移除矢量量化这一中间环节,模型得以直接面对原始的视觉信号。这种“去语言化”的处理方式,不仅在逻辑上更为自洽,在实验结果上也表明,它能够以更简洁的架构实现超越复杂扩散模型的生成质量。这标志着视觉生成从模仿语言模型的“东施效颦”阶段,迈向了符合视觉本质的原生建模阶段。

扩散模型的“过度设计”与概率密度的回归

如果说摒弃矢量量化是对类GPT路线的修正,那么对扩散模型的挑战则触及了当前AI热潮的根基。扩散模型之所以成功,是因为它巧妙地将生成过程转化为一个逐步去除噪声的物理过程,从而避开了复杂的对抗训练。然而,何恺明的研究暗示,扩散模型可能只是更基础生成规律的一种“特例”或“复杂变体”。

扩散模型虽然强大,但其推理效率低下的问题始终无法根除。生成一张图像需要进行数十次甚至上百次的迭代计算,这对于实时应用是巨大的瓶颈。何恺明团队提出的掩码自回归框架(MAR),在某种程度上实现了“扩散能力的折叠”。通过随机掩码(Masking)策略,模型在训练阶段实际上是在学习不同尺度、不同位置的上下文关系。

深度分析显示,MAR模型在数学本质上与扩散模型殊途同归,都是对数据概率分布的建模。但不同之处在于,MAR通过在连续空间内预测被遮挡的补丁(Patches),实现了一种更为直接的分布估计。它不需要像扩散模型那样引入时间步(Timestep)的概念,也不需要设计复杂的噪声调度器(Noise Scheduler)。这种方法的成功表明,此前业界普遍认为“只有通过逐步去噪才能生成高质量图像”的观点可能是一种误解。我们或许不需要模拟整个物理扩散过程,只需在特征空间内建立正确的上下文依赖,就能一步到位地捕捉视觉数据的生成规律。这是一种从“过程模拟”到“直接预测”的方法论回归,极大地降低了计算冗余。

大一统架构的曙光:原生多模态的最后拼图

这项研究的长远意义,在于它为构建真正的“原生多模态大模型”扫清了关键障碍。目前的旗舰多模态模型(如GPT-4V或Gemini),在处理图像输出时,往往仍然依赖外挂的扩散解码器,或者被迫使用低效的离散Token接口。这种架构上的割裂,导致了模型在理解(输入)和生成(输出)之间的能力不对等。



何恺明团队展示的连续自回归框架,提供了一种统一的可能性。未来的通用大模型,其Transformer核心可以同时处理两种数据流:对于文本,它预测下一个离散Token;对于图像、视频或音频,它预测下一个连续的特征向量。这两种任务可以在同一个权重空间内并行不悖地运行,无需任何中间的“翻译层”。

这种架构的统一不仅是工程上的简化,更可能带来智能涌现的新契机。当模型不再被强制要求用“单词”来思考图像时,它对物理世界的理解将变得更加精细和连贯。这也解释了为何该研究在学术界引起了如此强烈的震动——它不仅仅是关于如何画出更好看的图,而是关于如何让机器以最符合数据本源的方式去认知世界。

总结而言,何恺明团队的新作是对当前AI发展路径的一次“纠偏”。它提醒我们,在深度学习的“炼金术”时代,很多被奉为圭臬的技巧(如矢量量化、复杂的采样调度)可能只是因为我们尚未找到最优解而采用的权宜之计。随着连续自回归范式的确立,视觉生成领域有望迎来一次类似于NLP领域“Transformer时刻”的彻底重构。这不仅意味着更快的生成速度和更高的图像质量,更标志着人工智能在跨越模态鸿沟的征途上,终于找到了一座坚实的桥梁。

展开阅读全文

更新时间:2025-11-24

标签:科技   重写   底层   架构   视觉   团队   语言   模型   图像   范式   矢量   过程   物理

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top