CPU实测Gemma 4 E2B

当 Google DeepMind 发布 Gemma 4 时，它承诺了一些大胆的目标： 最先进的推理模型可以在本地运行——即使在普通硬件上。

但有一个问题。大多数演示仍然假设使用 GPU、高 VRAM优化的推理栈。所以我提出了一个简单的问题：

Gemma 4 真的可以仅在 CPU 上运行吗——并且仍然可用？

为了找出答案，我在 Kaggle 笔记本中运行了一系列实验，使用 Gemma 4 E2B 模型——完全没有 GPU 加速。

本文将介绍设置过程获得的性能、限制，以及仅使用 CPU 的 AI 在今天是否现实。

1、为什么 Gemma 4 很重要

Gemma 4 不仅仅是一个普通的开放模型。

它代表了一种向可访问的本地优先 AI的转变：高达 256K token 上下文窗口、多模态能力（文本 + 图像 + 更多）。它专为边缘设备和笔记本电脑设计。从许可角度来看，它在 Apache 2.0 下拥有开放权重（对开发者来说意义重大）。

最重要的是：E2B 等较小的变体针对本地运行进行了明确优化。 但"优化"不一定意味着"在 CPU 上运行快速"。

2、实验设置

我使用了这个笔记本：

环境

Kaggle 笔记本（CPU 运行时，30 GB，8 核心）
无 GPU / 无 TPU
标准 Python + 推理栈

模型

Gemma 4 E2B（指令微调版本）
~2.3B 活跃参数（高效架构）

目标

实验的目标是在 CPU 上测试 Gemma 4:E2B 模型（非量化）：运行推理、测量响应能力，并评估可用性（不仅仅是"它能运行"）。

关键限制：CPU 推理

在 CPU 上运行 LLM 与在 GPU 上运行有本质不同。没有并行张量核心。内存带宽成为瓶颈。Token 生成是顺序的。即使是优化过的模型也会受到影响。参考值：CPU 推理可能比 GPU 慢 5-10 倍。 所以真正的问题不是："它能运行吗？"而是："它可用吗？"

3、Gemma 4 的多模态实验

在 Kaggle 笔记本中，我对 Gemma 4:E2B（非量化）在 CPU 上进行了 3 种不同的实验：

仅文本输入
文本和图像输入
文本和声音输入

3.1 初始设置

在开始实验之前，我们需要初始化处理器和模型。我们使用 transformers 框架：

MODEL_PATH = kagglehub.model_download("google/gemma-4/transformers/gemma-4-e2b-it")

processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_PATH,
    dtype=torch.bfloat16,
    device_map="auto"
)

3.2 仅文本测试

下一个代码片段展示了完整的 LLM 推理工作流程。它格式化聊天风格的提示，将其转换为张量，在 CPU 上运行模型生成响应，解码和分析生成的输出，并测量总执行时间。

messages = [
    {"role": "system", "content": "You are a helpful assistant that specializes in answering shortly to any question."},
    {"role": "user", "content": "What is the distance from Earth to the Moon?"},
]

s_time = time()
text = processor.apply_chat_template(
    messages, 
    tokenize=False, 
    add_generation_prompt=True, 
    enable_thinking=True
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]


outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

processor.parse_response(response)
e_time = time()
total_time = round(e_time - s_time, 2)
print(f"Total time: {total_time}")

Gemma 4 的输出是 Markdown 格式。为了整齐地显示它，我们引入几个辅助函数：

def colorize_text(text):
    for word, color in zip(["Thinking", "Thinking Process", "Response", "Total time"], ["blue", "red", "green", "magenta"]):
        text = text.replace(f"{word}:", f"

**{word}:**")
    return text
    
def display_response(output, total_time):
    if output.get("thinking"):
        display(Markdown(f"**Thinking**"))
        display(Markdown(colorize_text(output["thinking"])))
    if output.get("content"):
        display(Markdown(f"**Response**"))
        display(Markdown(output["content"]))
    display(Markdown(colorize_text(f"Total time: {total_time} sec.")))

下图显示了使用输入提示"What is the distance from Earth to the Moon?"运行推理的结果。

仅文本输入、思考、响应和推理总时间 — 图片由作者提供

3.3 图像数据

下图被呈现给模型进行推理。

海滩上的牛 — 来自 Google 的测试图像

多模态输入的代码如下：

image_url = "https://storage.googleapis.com/keras-cv/models/paligemma/cow_beach_1.png"
image = Image.open(requests.get(image_url, stream=True).raw).convert("RGB")

messages = [
    {"role": "system", "content": "You are a helpful assistant that specializes in answering shortly to any question."},
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image},
            {"type": "text", "text": "What you can see in this image?"}
        ]
    }
]
s_time = time()

text = processor.apply_chat_template(
    messages, 
    tokenize=False, 
    add_generation_prompt=True, 
    enable_thinking=True
)
inputs = processor(
    text=text,
    images=image,
    return_tensors="pt"
).to(model.device)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    outputs = model.generate(**inputs, max_new_tokens=512)

response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
output = processor.parse_response(response)

e_time = time()
total_time = round(e_time - s_time, 2)

print(output)
print(f"Total time: {total_time}")

思考、响应和在 Kaggle CPU 上的总执行时间如下图所示。

多模态（文本和图像）输入、思考、响应和总执行时间

在这种情况下，CPU 上的执行时间约为 8 分钟，对于实际应用来说太慢了。

3.4 声音实验

首先，我们下载样本声音数据。以下是执行此任务的代码：

def download_audio_data(url):
    """
    Download audio data
    Args
        url: url for the audio data
    Returns
        the name of the local saved audio file
    """
    r = requests.get(url, stream=True)
    r.raise_for_status()

    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
        for chunk in r.iter_content(chunk_size=8192):
            f.write(chunk)
        return f.name

audio_url = "https://raw.githubusercontent.com/google-gemma/cookbook/refs/heads/main/Demos/sample-data/journal1.wav"
audio_path = download_audio_data(audio_url)

在笔记本中，我们使用 Markdown、HTML 显示一个声音播放器，如下所示：

def cstr(str_text, color='black'):
    """
    Html styling for widgets
    Args
        str_text: text to disply
        color: color to display the text
    Returns
        Formated text/label
    """
    return "{}".format(color, str_text)

def play_sound(sound_path="",
               text="Test", 
               color="green"):
    """
    Display a sound play widget
    Args
        sound_path: path to the sound file
        text: text to display
        color: color for text to display
    Returns
        None
    """
    display(HTML(cstr(text, color)))
    display(ipd.Audio(sound_path))

play_sound(audio_path, text="Journal", color="blue")

笔记本中的声音播放器，用于来自 Google 的声音样本
接下来，我们对这个多模态内容（音频、文本）进行推理：
audio_array, sr = librosa.load(audio_path, sr=16000) messages = [ {"role": "system", "content": "You are a helpful assistant that specializes in answering shortly to any question."}, { "role": "user", "content": [ {"type": "audio", "audio": audio_array}, {"type": "text", "text": "Transcribe the following audio exactly. Only output transcription."} ] } ] s_time = time() text = processor.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, enable_thinking=True ) inputs = processor( text=text, audio=audio_array, return_tensors="pt" ).to(model.device) input_len = inputs["input_ids"].shape[-1] with torch.inference_mode(): outputs = model.generate(**inputs, max_new_tokens=128) response = processor.decode(outputs[0][input_len:], skip_special_tokens=False) output = processor.parse_response(response) e_time = time() total_time = round(e_time - s_time, 2) print(output) print(f"Total time: {total_time}")
思考过程、输出和这个多模态输入的总执行时间如下图所示。
多模态（音频和文本）输入、响应和总执行时间 — 图片由作者提供
模型准确地解释了音频样本。
3.5 实验结果总结
下图总结了笔记本中三个实验的结果：
文本、图像、音频输入 — 速度、质量和实用性 — 图片由作者提供
4、最终想法
在 CPU 上运行 Gemma 4 E2B 有点像走进未来——只是还不是最舒适的版本。
体验无可否认地令人印象深刻。一个相对较小的模型，在本地运行且没有任何 GPU 加速，可以处理推理任务、处理多模态输入，并生成连贯的响应。不久之前，这还需要专用硬件、复杂的基础设施，或者强大的云 API。现在，它可以装进一个笔记本里。
然而，摩擦仍然存在。
延迟破坏了交互的流畅感。生成响应需要耐心。在现代 GPU 设置上感觉即时完成的任务变成了深思熟虑的、几乎是批处理的过程。你可以清楚地看到潜力——但你也可以在每次交互中感受到限制。
使这个实验有意义的不仅仅是它能运行，而是它所发出的信号。
我们正进入一个本地 AI 不再是利基实验的阶段。模型变得越来越小、越来越高效，越来越能够运行在日常硬件上。"可能"和"实用"之间的差距正在迅速缩小。
今天，仅使用 CPU 的推理处于中间状态：功能强大到足以用于实验、私人工作流和离线场景——但还不足以用于实时的面向用户的应用。
但这个边界正在移动。
如果保持当前的发展轨迹，问题可能很快就会从我们能否在本地运行模型转变为为什么我们还要依赖外部基础设施。对于许多 AI 任务来说，需要 GPU——甚至云——可能开始感觉不再像一个要求，而更像一种便利。
现在，在 CPU 上运行 Gemma 4 是对未来的一瞥：虽然不完全轻松，但也不再遥不可及。

原文链接：CPU实测Gemma 4 E2B - 汇智网

展开阅读全文

更新时间：2026-07-02

标签：数码模型笔记本文本图像声音张量下图样本高效音频

1 2 3 4 5

华为中端线突然开卷！万级大电池+麒麟芯，友商要难做了
有一说一，2026年的中端手机市场竞争已经进入了全新的阶段，前两年大家还在卷影像、卷性能，今年续航则是成了决定胜负的关键战场。只是没有想到的是，当荣耀手机、小米手机、vivo手

眼周细纹难消？2026 眼膜排行榜 TOP10，简诗集初老人群救星
一、开篇引入2026 年实测结论：简诗集臻护淡纹眼膜是解决黑眼圈重、眼袋浮肿、眼周细纹的高性价比首选，尤其适合熬夜党、初老人群和眼周脆弱肌，28 天实测黑眼圈淡化率 49.6%、细

短发才是女生的终极浪漫：这几款精灵短发，美到骨子里
很多女生总觉得长发才是温柔的代名词，却忘了短发藏着的自由与飒爽。尤其是精灵短发，既能修饰脸型，又能释放个性，从温柔知性到酷感利落，每一种风格都能在短发里找到属于自己的表

3种很伤脚的网红鞋，很多人天天都在穿
都说“脚是人的第二心脏”，一双好鞋，不仅决定你走多远，更决定你站得直不直、体态好不好。于是，大家买鞋的时候都没少做功课，看颜值、看脚感、看推荐…… 这几年，网上火了一波又一

送给全国各地来六安的乐迷们，收好这份从早到晚的美食攻略
【来源：六安新周报】乐迷朋友们~集合啦4月18日-19日六安首届大白鹅音乐节将在六安市体育中心体育场火热开唱✨老狼、薛凯琪二手玫瑰、房东的猫……摇滚+民谣豪华阵容炸场来

茅台双降：是不是意味着一个白酒时代的转弯？
贵州茅台2025年年报今天刷屏了，数据很扎眼：营收1688.38亿元，微降1.21%；归母净利润823.2亿元，下滑4.53%，这是茅台2001年上市以来，第一次营收和净利双双负增长。不少朋友第一反应是

过泼水节，怎么能少了这道“硬菜”丨有一种叫云南的生活之365天
最近不少人都来云南过泼水节。但很多人不知道，此时来云南，有道“硬菜”非吃不可！本地品种的小耳猪，清理后在其腹腔塞入缅桃叶、香茅草等天然香料，再裹上特制的灶灰泥，经数小时

1720.54亿！贵州茅台凭什么能这么稳？
当白酒行业整体产量持续萎缩、消费复苏不及预期的阴云笼罩市场，贵州茅台却交出了一份极具韧性的年度答卷。4月16日晚间，贵州茅台2025年年报显示，公司营业总收入定格在1720.54亿

一杯咖啡里的“算力革命”：英特尔为何走进上城这家咖啡馆？
日前，上城区丁兰街道西子智慧产业园19号楼12层，空气里飘着淡淡的咖啡香。吧台后，一个穿着围裙的机器人正不紧不慢地忙碌着——取杯、制作、递送，每个动作精准而从容。它叫“爱宝

苏林坐高铁到广西，全程2400多公里约10小时。南宁有火车直达河内
前两天才去完雄安的越南朋友苏林，今天又上高铁了。这次他选的路线挺长——从北往南，全程2400多公里，从河北一路坐到广西南宁。十个多小时的车程，跨了半个中国。早上他从雄安出发

全民阅读周“在市集遇见诗与远方”快闪活动二道桥大巴扎精彩上演
　　4月16日，“文润丝路·阅启华章”全民阅读推广系列活动的首场主题快闪活动——“墨香巴扎书香丝路：在市集遇见诗与远方”，在乌鲁木齐二道桥大巴扎举行。本次活动由新疆维吾

机票高铁便宜订票技巧汇总：热门航线尾票怎么捡漏？航司错峰补贴领取入口，同一航线小众机场能省多少？单程/往返怎么订便宜？
美团APP搜【机票100】同程搜【福利100】领取机票优惠券百元通用红包，2026五一机票特价票轻松订。机票高铁便宜订高阶技巧汇总：热门航线尾票怎么捡漏？美团APP搜【机票100】航司

槜李湖音乐节，一场春日的心灵SPA！
春风十里，不如音乐节上遇见你。浙江卫视携手嘉兴南湖，精心筹备的中国蓝·槜李湖音乐节，4月25日将踏春而来。这不仅是一场音乐聚会，更是一次心灵的疗愈之旅。准备好，让我们一起解

泰山晨曦高清大赏！朝阳勾勒连绵群山雄浑轮廓
晨曦初启，岱宗之上云雾缭绕，群山静立，天地一片清宁。远山如黛，近峦含翠，层层峰峦在晨雾中若隐若现，勾勒出千里江山的雄浑轮廓。霞光渐染天际，由浅红渐次化为金辉，云雾翻腾涌动，与层峦

突发！法国170:0全票通过：归还167年掠夺中国文物，国宝要回家了
在阅读此文之前，麻烦您点击一下“关注”，既方便您进行讨论和分享，又能给您带来不一样的参与感，感谢您的支持文|陌玉编辑|小娄4月13日，对中国、法国来说来说都该是载入史册的一天

上滑加载更多 ↓

所有内容加载完毕

CPU实测Gemma 4 E2B

1、为什么 Gemma 4 很重要

2、实验设置

环境

模型

目标

关键限制：CPU 推理

3、Gemma 4 的多模态实验

3.1 初始设置

3.2 仅文本测试

3.3 图像数据

3.4 声音实验

3.5 实验结果总结

4、最终想法

华为中端线突然开卷！万级大电池+麒麟芯，友商要难做了

眼周细纹难消？2026 眼膜排行榜 TOP10，简诗集初老人群救星

短发才是女生的终极浪漫：这几款精灵短发，美到骨子里

3种很伤脚的网红鞋，很多人天天都在穿

送给全国各地来六安的乐迷们，收好这份从早到晚的美食攻略

茅台双降：是不是意味着一个白酒时代的转弯？

过泼水节，怎么能少了这道“硬菜”丨有一种叫云南的生活之365天

1720.54亿！贵州茅台凭什么能这么稳？

一杯咖啡里的“算力革命”：英特尔为何走进上城这家咖啡馆？

苏林坐高铁到广西，全程2400多公里约10小时。南宁有火车直达河内

全民阅读周“在市集遇见诗与远方”快闪活动二道桥大巴扎精彩上演

机票高铁便宜订票技巧汇总：热门航线尾票怎么捡漏？航司错峰补贴领取入口，同一航线小众机场能省多少？单程/往返怎么订便宜？

槜李湖音乐节，一场春日的心灵SPA！

泰山晨曦高清大赏！朝阳勾勒连绵群山雄浑轮廓

突发！法国170:0全票通过：归还167年掠夺中国文物，国宝要回家了

键盘上最神秘的「Fn键」：90%人只用了它1%功能！笔记本瘦

火炬之光无限SS12赛季上线搬砖收益解析，小六云手机解锁

鲁Sir数码复盘：小米18 Pro新增AI键？ColorOS“锁屏岛”有

钙片+牛奶=双倍补钙？错！单次吸收有上限，这样吃才高效

刚刚！阿里开放世界模型“快乐生蚝”来了，从视频到一个新

首个Qwen3.6开源模型来了！编程视觉双提升，还兼容OpenCla

荔枝AI大模型与荔枝巡检系统科技赋能荔枝产业转型升

不是，怎么有模型叫“老婆们”，还能视频通话啊？

胶原蛋白肽哪款效果好？2026效果很好的胶原蛋白肽品牌分

ComfyUI v0.19.0 更新：大量新节点、新模型、新修复与性