能,树莓派真的能跑 Gemma 4。不快,但能用,而且有些场景还真挺合适的。先说清楚能跑成什么样,再教你怎么搞。
先把期望管好
开始之前看清楚现实:
| 树莓派 5 (8GB) | MacBook M2 16GB | |
|---|---|---|
| 能跑的模型 | Gemma 4 E2B (Q4) | Gemma 4 26B (Q4) |
| 速度 | 2-5 token/秒 | 14-18 token/秒 |
| 体感 | 慢但能用 | 流畅 |
| 成本 | ~¥500 | ~¥9000+ |
| 功耗 | 5-15W | 20-50W |
每秒 2-5 个 token,短回答等几秒,长一点的回答可能要 30 秒。不适合实时聊天。但用来跑自动化任务、做离线助手、研究学习?完全可以。
硬件需求
- 树莓派 5,8GB 内存(必须——4GB 跑不了)
- microSD 卡(至少 32GB,建议 64GB)或 USB SSD
- 主动散热(风扇或散热片——CPU 会很热)
- 树莓派 OS 64 位(Bookworm 或更新版本)
树莓派 4 的 8GB 版理论上也能跑 E2B,但 Pi 5 快大约 2 倍,买新的话推荐 Pi 5。
安装 Ollama
Ollama 原生支持 ARM64,在树莓派上装很简单:
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 验证安装
ollama --version
# 启动并设为开机自启
sudo systemctl enable ollama
sudo systemctl start ollama拉最小的 Gemma 4 模型:
# 拉 E2B——唯一能装进 8GB 的模型
ollama pull gemma4:e2b
# 运行
ollama run gemma4:e2b首次下载在树莓派上要一会儿(模型大约 1.5GB)。加载完后输入内容试试——第一个回复需要几秒才开始生成。
实际性能测试
树莓派 5 8GB + 主动散热的实测数据:
模型: gemma4:e2b (Q4_K_M 量化)
提示: "用3句话解释什么是 API。"
提示处理: ~1.5 秒
生成速度: 3.2 token/秒
~50 token 回复总耗时: ~17 秒模型: gemma4:e2b (Q4_K_M 量化)
提示: "写一个 Python 函数来反转字符串。"
提示处理: ~2 秒
生成速度: 2.8 token/秒
~80 token 回复总耗时: ~30 秒慢,没法回避。树莓派的 ARM CPU 在单独干活——没有 GPU 加速。但回答是正确连贯的。跑的是同一个 Gemma 4 模型,跟两三万的 Mac 上是一样的——只是慢。
实际使用场景
这个速度下,实时聊天不太行。但下面这些场景很合适:
离线私人助手
import requests
def ask_gemma(question):
response = requests.post("http://localhost:11434/api/chat", json={
"model": "gemma4:e2b",
"messages": [{"role": "user", "content": question}],
"stream": False,
})
return response.json()["message"]["content"]
# 晚上提交问题,早上看结果
answer = ask_gemma("总结这篇文章的要点: ...")智能家居大脑
接到 Home Assistant 上做自然语言控制:
# 把语音命令解析成结构化操作
command = "打开客厅的灯,调到50%亮度"
response = ask_gemma(f"""把这个家居控制命令解析成 JSON:
命令: {command}
格式: {{"device": "...", "action": "...", "value": "..."}}""")2-5 tok/s 的速度下,解析一个简单命令大概 5 秒。控制家居设备嘛,不急这几秒。
极致隐私 AI
最大卖点:数据完全不出家门。没有云端、没有 API 密钥、没有任何使用条款。一台 ¥500 的小电脑就在你桌上跑 AI。
想要一个处理日记、笔记或敏感问题的私人 AI 助手——树莓派跑 Gemma 4 的性价比无敌。
学习和教育
树莓派跑 Gemma 4 是极好的教学工具:
- 学生不需要云端账号就能实验 AI
- 学校可以用不到 ¥600 一台搞定 AI 工作站
- 亲手体验大模型推理、分词、量化的全过程
优化技巧
1. 用 Q4 量化
Q4_K_M 是树莓派上速度和质量的最佳平衡。别试 Q8——太慢而且可能装不下。
2. 缩短上下文长度
# 减小上下文窗口省内存、加速处理
ollama run gemma4:e2b --num-ctx 1024默认上下文窗口会吃掉宝贵的内存。简单问答 1024 token 够用了。
3. 用 SSD 代替 microSD
USB 3.0 SSD 能大幅加快模型加载速度。首次加载模型到内存时,microSD 卡是瓶颈。
4. 加 swap 空间
内存紧张的话:
# 加 4GB swap
sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
# 持久化
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab注意:swap 放在 microSD 上会很慢,尽量用 SSD。
5. 关掉其他东西
树莓派只有 8GB 内存。如果用 headless 模式,关掉桌面环境:
# 切到纯命令行模式
sudo systemctl set-default multi-user.target
sudo reboot能省出约 500MB 内存——在这么紧的空间里,500MB 很关键。
6. 物理降温
树莓派 5 过热会降频。务必确保:
- 装了散热片
- 主动散热(风扇)
- 通风良好
树莓派 4 行不行?
树莓派 4 的 8GB 版可以跑 Gemma 4 E2B,但:
- 约 1.5-3 tok/s(比 Pi 5 慢约 40%)
- 没有加速推理的硬件指令
- 同样的使用场景都能用,就是需要更多耐心
如果手上已经有 Pi 4 8GB,试试。如果要新买,买 Pi 5。
好玩因素
说实话:在一个信用卡大小的电脑上跑 AI,就是很酷。它是话题制造器、周末项目、也是真正的学习体验。这块小板子能生成连贯有用的文本本身就很了不起。
带着一台跑 Gemma 4 的树莓派去技术聚会,保证有人过来跟你聊。
如果你想要更实用的方案,可以看看在 Mac 上跑或者用 Docker 部署。想了解为什么 E2B 模型能装进这么小的设备,架构解析里有各模型大小的详细说明。
下一步
- 对比更强的设备:Mac 性能实测
- 了解模型大小:选哪个 Gemma 4 模型
- 理解架构:Gemma 4 架构解析
- 搭正经服务器:Docker 部署教程



