iPhone 17 Pro成功运行4000亿参数大模型,生成速度仅0.6 Token/秒

开源项目FlashMoE近日在iPhone 17 Pro上实现了4000亿参数大语言模型的本地运行。该项目通过向GPU流式传输SSD数据,并结合混合专家模型(MoE)架构,使手机无需完整加载模型即可运行。实测显示,该设备生成Token速度为0.6个/秒,约每1.5至2秒输出一个单词。尽管速度缓慢,但这一突破表明,在优化技术支持下,未来智能手机本地运行超大参数模型具备可行性。目前,即使经量化压缩的4000亿参数模型仍需至少200GB内存,远超iPhone 17 Pro的12GB LPDDR5X配置。本地运行模式可保障隐私安全且无需联网,但将显著增加设备耗电。(IT之家)

展开阅读全文

更新时间:2026-03-25

标签:数码   模型   速度   参数   设备   智能手机   可行性   单词   架构   缓慢   加载

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号

Top