树莓派能跑 Gemma 4 吗？E2B 实测教程

能，树莓派真的能跑 Gemma 4。不快，但能用，而且有些场景还真挺合适的。先说清楚能跑成什么样，再教你怎么搞。

先把期望管好

开始之前看清楚现实：

	树莓派 5 (8GB)	MacBook M2 16GB
能跑的模型	Gemma 4 E2B (Q4)	Gemma 4 26B (Q4)
速度	2-5 token/秒	14-18 token/秒
体感	慢但能用	流畅
成本	~¥500	~¥9000+
功耗	5-15W	20-50W

每秒 2-5 个 token，短回答等几秒，长一点的回答可能要 30 秒。不适合实时聊天。但用来跑自动化任务、做离线助手、研究学习？完全可以。

硬件需求

树莓派 5，8GB 内存（必须——4GB 跑不了）
microSD 卡（至少 32GB，建议 64GB）或 USB SSD
主动散热（风扇或散热片——CPU 会很热）
树莓派 OS 64 位（Bookworm 或更新版本）

树莓派 4 的 8GB 版理论上也能跑 E2B，但 Pi 5 快大约 2 倍，买新的话推荐 Pi 5。

安装 Ollama

Ollama 原生支持 ARM64，在树莓派上装很简单：

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

# 启动并设为开机自启
sudo systemctl enable ollama
sudo systemctl start ollama

拉最小的 Gemma 4 模型：

# 拉 E2B——唯一能装进 8GB 的模型
ollama pull gemma4:e2b

# 运行
ollama run gemma4:e2b

首次下载在树莓派上要一会儿（模型大约 1.5GB）。加载完后输入内容试试——第一个回复需要几秒才开始生成。

实际性能测试

树莓派 5 8GB + 主动散热的实测数据：

模型: gemma4:e2b (Q4_K_M 量化)
提示: "用3句话解释什么是 API。"

提示处理: ~1.5 秒
生成速度: 3.2 token/秒
~50 token 回复总耗时: ~17 秒

模型: gemma4:e2b (Q4_K_M 量化)
提示: "写一个 Python 函数来反转字符串。"

提示处理: ~2 秒
生成速度: 2.8 token/秒
~80 token 回复总耗时: ~30 秒

慢，没法回避。树莓派的 ARM CPU 在单独干活——没有 GPU 加速。但回答是正确连贯的。跑的是同一个 Gemma 4 模型，跟两三万的 Mac 上是一样的——只是慢。

实际使用场景

这个速度下，实时聊天不太行。但下面这些场景很合适：

离线私人助手

import requests

def ask_gemma(question):
    response = requests.post("http://localhost:11434/api/chat", json={
        "model": "gemma4:e2b",
        "messages": [{"role": "user", "content": question}],
        "stream": False,
    })
    return response.json()["message"]["content"]

# 晚上提交问题，早上看结果
answer = ask_gemma("总结这篇文章的要点: ...")

智能家居大脑

接到 Home Assistant 上做自然语言控制：

# 把语音命令解析成结构化操作
command = "打开客厅的灯，调到50%亮度"

response = ask_gemma(f"""把这个家居控制命令解析成 JSON：
命令: {command}
格式: {{"device": "...", "action": "...", "value": "..."}}""")

2-5 tok/s 的速度下，解析一个简单命令大概 5 秒。控制家居设备嘛，不急这几秒。

极致隐私 AI

最大卖点：数据完全不出家门。没有云端、没有 API 密钥、没有任何使用条款。一台 ¥500 的小电脑就在你桌上跑 AI。

想要一个处理日记、笔记或敏感问题的私人 AI 助手——树莓派跑 Gemma 4 的性价比无敌。

学习和教育

树莓派跑 Gemma 4 是极好的教学工具：

学生不需要云端账号就能实验 AI
学校可以用不到 ¥600 一台搞定 AI 工作站
亲手体验大模型推理、分词、量化的全过程

优化技巧

1. 用 Q4 量化

Q4_K_M 是树莓派上速度和质量的最佳平衡。别试 Q8——太慢而且可能装不下。

2. 缩短上下文长度

# 减小上下文窗口省内存、加速处理
ollama run gemma4:e2b --num-ctx 1024

默认上下文窗口会吃掉宝贵的内存。简单问答 1024 token 够用了。

3. 用 SSD 代替 microSD

USB 3.0 SSD 能大幅加快模型加载速度。首次加载模型到内存时，microSD 卡是瓶颈。

4. 加 swap 空间

内存紧张的话：

# 加 4GB swap
sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

# 持久化
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

注意：swap 放在 microSD 上会很慢，尽量用 SSD。

5. 关掉其他东西

树莓派只有 8GB 内存。如果用 headless 模式，关掉桌面环境：

# 切到纯命令行模式
sudo systemctl set-default multi-user.target
sudo reboot

能省出约 500MB 内存——在这么紧的空间里，500MB 很关键。

6. 物理降温

树莓派 5 过热会降频。务必确保：

装了散热片
主动散热（风扇）
通风良好

树莓派 4 行不行？

树莓派 4 的 8GB 版可以跑 Gemma 4 E2B，但：

约 1.5-3 tok/s（比 Pi 5 慢约 40%）
没有加速推理的硬件指令
同样的使用场景都能用，就是需要更多耐心

如果手上已经有 Pi 4 8GB，试试。如果要新买，买 Pi 5。

好玩因素

说实话：在一个信用卡大小的电脑上跑 AI，就是很酷。它是话题制造器、周末项目、也是真正的学习体验。这块小板子能生成连贯有用的文本本身就很了不起。

带着一台跑 Gemma 4 的树莓派去技术聚会，保证有人过来跟你聊。

如果你想要更实用的方案，可以看看在 Mac 上跑或者用 Docker 部署。想了解为什么 E2B 模型能装进这么小的设备，架构解析里有各模型大小的详细说明。

下一步

对比更强的设备：Mac 性能实测
了解模型大小：选哪个 Gemma 4 模型
理解架构：Gemma 4 架构解析
搭正经服务器：Docker 部署教程

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />