干翻 GPT-4V 的面壁 8B「小钢炮」,被Nature 收录了


大模型已收敛,小模型还有广阔天地。


作者丨陈为锐

编辑丨陈彩娴

当全球 AI 圈还在为千亿参数模型的算力消耗焦头烂额时,一支由清华大学和面壁智能组成的团队,悄悄在边缘设备上完成了一场多模态大模型落地的变革。

日前,《Nature Communications》正式收录了面壁智能此前发布的一项研究成果,该项研究推出了新模型 MiniCPM-V 系列,并重点介绍了首批 3 个模型,包括 MiniCPM-V 1.0、MiniCPM-V 2.0 和 MiniCPM-Llama3-V 2.5。

MiniCPM-V 1.0 使用预训练阶段 1&2 和 SFT 进行训练,未使用自适应视觉编码和 RLAIF-V;MiniCPM-V 2.0 包含了所有训练阶段和自适应视觉编码策略,以进一步提升性能;MiniCPM-Llama3-V 2.5 采用 Llama3-Instruct 8B 作为其基础 LLM,展现多模态理解能力。

研究结果表明,MiniCPM-V 仅用 80 亿参数就实现了 GPT-4V 级别的多模态能力,不仅在 11 个权威基准测试中全面超越 GPT-4V、Gemini Pro 和 Claude 3 等头部模型,更颠覆了人们对边缘计算的认知,让手机端也能运行媲美云端的多模态大模型。

Nature Communications 地址:https://www.nature.com/articles/s41467-025-61040-5#Sec28

01
80 亿参数干翻 GPT-4V

MiniCPM-V 由三个关键模块组成:视觉编码器、压缩层和 LLM。输入图像首先通过视觉编码器进行编码,采用自适应视觉编码方法,然后,视觉标记由压缩层进行压缩,该层采用具有一层交叉注意力的感知器重采样结构,最后,压缩后的视觉标记以及文本输入被输入到 LLM 中进行条件文本生成。

图源:Nature

作为面向边缘设备的高效多模态大语言模型,MiniCPM-V 系列的技术创新主要体现在自适应视觉编码、渐进式多模态学习、对齐优化及边缘部署优化四大维度。

为解决高分辨率图像编码的效率与有效性难题,MiniCPM-V 采用了分层处理策略,将图像分割为最多 10 个切片,每个切片调整至与视觉编码器预训练设置匹配的分辨率和纵横比,接着通过 ViT 编码器将每个切片转换为 1024 个视觉令牌,再经压缩层将 token 数量大幅缩减,最后引入空间 schema 标记各切片在原图中的位置关系,确保全局信息完整性,相比传统方法显著降低了计算量与内存占用。

在模型训练阶段,MiniCPM-V 通过大规模图文对实现视觉模块与语言模型的空间对齐,分三阶段逐步扩展输入分辨率并引入 OCR 数据增强文本识别能力;监督微调阶段整合高质量视觉问答数据,而后再通过 RLAIF-V 方法,通过开源模型生成多版本响应并拆分原子声明进行真实性评分,最终利用 DPO 算法优化偏好学习,能有效降低幻觉率。

而真正让 MiniCPM-V 有希望 “颠覆行业” 的,是其在边缘设备上的高效部署能力。

传统多模态模型只能在云端运行,而 MiniCPM-V 通过 4 位量化、内存序贯加载、目标设备编译优化、自动参数搜索及 NPU 加速等技术,实现了在智能手机、PC 等边缘设备上的高效运行,在内存需求从 16-17G 降至 5G 的情况下,实现了编码延迟从 50.5s 降至 17.0s,视觉编码时间缩短 65%,减少了 45.2% 图像处理时间。

在 11 项公开基准测试中,80 亿参数的 MiniCPM-Llama3-V2.5 展现出显著优势:在 OpenCompass 评分中超越 GPT-4V(2023.11.16 版本)、Gemini Pro 和 Claude 3 等专有模型,同时在 OCRBench、TextVQA 等文本识别任务上优于 Qwen-VL-Max 等开源模型,表格转 Markdown 等实用功能表现突出。与强大的专有模型相比,MiniCPM-Llama3-V 2.5 在参数数量显著更少的情况下实现了更好的性能,更适合广泛应用。

图源:Nature

此外,MiniCPM-V 模型也展现出强大的 OCR 能力,包括场景文本、文档和截图理解。模型在 OCRBench、TextVQA 和 DocVQA 上优于 1.7B–34B 的开源 MLLMs,20 亿参数的 V2.0 版本性能超过同规模模型,甚至媲美 80 亿参数模型;幻觉率在 Object HalBench 上低于 GPT-4V。

图源:Nature

效率方面,MiniCPM-V 的推理计算量显著更低。MiniCPM-Llama3-V 2.5 的视觉 token 数量范围是(96,960),低于 LLaVA-NeXT-Llama-3-8B 的(1728,2880),使得其在推理速度、首 token 延迟、内存使用和功耗方面更适配实际设备应用。

不过,尽管性能表现良好,但研究人员也表示,当前的 MiniCPM-V 模型仍存在一些局限性,在多模态理解能力和推理效率方面以及将能力扩展到其他模态方面仍有很大的改进空间。

02
什么完成从 "云端依赖" 到 "端侧自由" 的跨越很重要?

在我们看来,这篇论文的意义远不止于技术突破,其核心观点在于,如果能实现多模态大模型从云端到端侧的全面转型,或许整个行业能迎来一个新的 “iPhone” 时刻,开启端侧 AI 的黄金时代。

多模态大模型的快速发展为理解、推理和交互的多模态能力带来了飞跃,不仅从根本上重塑了人工智能研究和产业格局,也为通往下一阶段人工智能指明了路径。

然而,当前的多模态大模型仍远未达到实际应用于现实世界的水平,最主要的原因在于多模态大模型庞大参数数量带来的沉重计算负担,使得大多数模型只能部署在高性能云服务器上。这一局限性不仅导致了巨大的能源消耗,还限制了多模态大模型在移动设备、能源敏感场景、无稳定网络连接等离线环境中的潜在应用范围。

此外,对于多模态大模型来说,智能手机和计算机等边缘设备由于散热、尺寸限制和功耗等因素,往往面临资源限制。

在部署模型时,最关键的两大限制是内存容量和 CPU/GPU 处理速度。高性能服务器通常拥有庞大的内存容量,往往超过 100GB 甚至 1TB,相比之下,手机的内存通常在 12GB 到 16GB 之间,这对于 MLLM 部署可能不足。

另一方面,智能手机中 CPU 的整体处理速度明显较慢。对比来看,骁龙 8 Gen3 只有 8 个 CPU 核心,Intel Xeon Platinum 8580 则达到了 60 个 CPU 核心,功效方面,高通 Adreno 750 只有 6 TFLOPS,而 NVIDIA 4090 则可以达到 83 TFLOPS。

也正因此,在行业越来越关注轻量级多模态大语言模型的当下,面壁智能提出了可在边缘设备上部署的 MiniCPM-V 系列,场景涵盖手机、个人电脑、车辆和机器人等更广泛的设备范围。

MiniCPM-V 的理念是在性能和效率之间取得良好平衡,有望成为多模态大模型小型化趋势的一个代表案例。

根据研究人员的说法,在总结多模态大模型在性能、参数和发布时间方面的最新发展后,可以观察到一条类似摩尔定律的趋势:达到 GPT-4V 级别性能的模型大小随着时间的推移迅速减小,这种现象或许可以被称为 MLLMs 的摩尔定律。

同时,手机和个人电脑等边缘设备的计算能力正在稳步增加,这两种趋势的融合表明,可在边缘设备上部署的可用(例如 GPT-4V 级别)多模态大模型很快就会落地。

这种离线智能的实现,让端侧设备完成了从功能机到智能机的跨越,设备不再是云端显示器,而是成为真正的智能主体。

在多台边缘设备上部署 MiniCPM-V。得益于部署优化技术,MiniCPM-Llama3-V 2.5 可以在手机和个人电脑上高效运行,提供可接受的延迟和吞吐量(图源:Nature)

在端侧智能的需求下,MiniCPM-V 能够登上《Nature Communications》,原因之一或许在于其揭开了这场智能革命的一角,推动着 AI 从 "少数人的工具" 走向 "大众的能力"的变化。当 80 亿参数的模型能在手机上流畅运行,普通人也能在更安全、更多元的场景下享受多模态智能。

随着边缘计算能力的持续提升和模型效率的不断优化,AI 普及化的下一个爆发点,将出现在每个人的指尖之下、设备之中。边缘智能的时代,正在加速到来。

//




未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

展开阅读全文

更新时间:2025-07-03

标签:科技   小钢炮   模型   设备   视觉   边缘   参数   能力   智能   性能   云端   高效

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top