树莓派能跑 Gemma 4 吗?E2B 实测教程

2026/04/07

能,树莓派真的能跑 Gemma 4。不快,但能用,而且有些场景还真挺合适的。先说清楚能跑成什么样,再教你怎么搞。

先把期望管好

开始之前看清楚现实:

树莓派 5 (8GB)MacBook M2 16GB
能跑的模型Gemma 4 E2B (Q4)Gemma 4 26B (Q4)
速度2-5 token/秒14-18 token/秒
体感慢但能用流畅
成本~¥500~¥9000+
功耗5-15W20-50W

每秒 2-5 个 token,短回答等几秒,长一点的回答可能要 30 秒。不适合实时聊天。但用来跑自动化任务、做离线助手、研究学习?完全可以。

硬件需求

  • 树莓派 5,8GB 内存(必须——4GB 跑不了)
  • microSD 卡(至少 32GB,建议 64GB)或 USB SSD
  • 主动散热(风扇或散热片——CPU 会很热)
  • 树莓派 OS 64 位(Bookworm 或更新版本)

树莓派 4 的 8GB 版理论上也能跑 E2B,但 Pi 5 快大约 2 倍,买新的话推荐 Pi 5。

安装 Ollama

Ollama 原生支持 ARM64,在树莓派上装很简单:

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

# 启动并设为开机自启
sudo systemctl enable ollama
sudo systemctl start ollama

拉最小的 Gemma 4 模型:

# 拉 E2B——唯一能装进 8GB 的模型
ollama pull gemma4:e2b

# 运行
ollama run gemma4:e2b

首次下载在树莓派上要一会儿(模型大约 1.5GB)。加载完后输入内容试试——第一个回复需要几秒才开始生成。

实际性能测试

树莓派 5 8GB + 主动散热的实测数据:

模型: gemma4:e2b (Q4_K_M 量化)
提示: "用3句话解释什么是 API。"

提示处理: ~1.5 秒
生成速度: 3.2 token/秒
~50 token 回复总耗时: ~17 秒
模型: gemma4:e2b (Q4_K_M 量化)
提示: "写一个 Python 函数来反转字符串。"

提示处理: ~2 秒
生成速度: 2.8 token/秒
~80 token 回复总耗时: ~30 秒

慢,没法回避。树莓派的 ARM CPU 在单独干活——没有 GPU 加速。但回答是正确连贯的。跑的是同一个 Gemma 4 模型,跟两三万的 Mac 上是一样的——只是慢。

实际使用场景

这个速度下,实时聊天不太行。但下面这些场景很合适:

离线私人助手

import requests

def ask_gemma(question):
    response = requests.post("http://localhost:11434/api/chat", json={
        "model": "gemma4:e2b",
        "messages": [{"role": "user", "content": question}],
        "stream": False,
    })
    return response.json()["message"]["content"]

# 晚上提交问题,早上看结果
answer = ask_gemma("总结这篇文章的要点: ...")

智能家居大脑

接到 Home Assistant 上做自然语言控制:

# 把语音命令解析成结构化操作
command = "打开客厅的灯,调到50%亮度"

response = ask_gemma(f"""把这个家居控制命令解析成 JSON:
命令: {command}
格式: {{"device": "...", "action": "...", "value": "..."}}""")

2-5 tok/s 的速度下,解析一个简单命令大概 5 秒。控制家居设备嘛,不急这几秒。

极致隐私 AI

最大卖点:数据完全不出家门。没有云端、没有 API 密钥、没有任何使用条款。一台 ¥500 的小电脑就在你桌上跑 AI。

想要一个处理日记、笔记或敏感问题的私人 AI 助手——树莓派跑 Gemma 4 的性价比无敌。

学习和教育

树莓派跑 Gemma 4 是极好的教学工具:

  • 学生不需要云端账号就能实验 AI
  • 学校可以用不到 ¥600 一台搞定 AI 工作站
  • 亲手体验大模型推理、分词、量化的全过程

优化技巧

1. 用 Q4 量化

Q4_K_M 是树莓派上速度和质量的最佳平衡。别试 Q8——太慢而且可能装不下。

2. 缩短上下文长度

# 减小上下文窗口省内存、加速处理
ollama run gemma4:e2b --num-ctx 1024

默认上下文窗口会吃掉宝贵的内存。简单问答 1024 token 够用了。

3. 用 SSD 代替 microSD

USB 3.0 SSD 能大幅加快模型加载速度。首次加载模型到内存时,microSD 卡是瓶颈。

4. 加 swap 空间

内存紧张的话:

# 加 4GB swap
sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

# 持久化
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

注意:swap 放在 microSD 上会很慢,尽量用 SSD。

5. 关掉其他东西

树莓派只有 8GB 内存。如果用 headless 模式,关掉桌面环境:

# 切到纯命令行模式
sudo systemctl set-default multi-user.target
sudo reboot

能省出约 500MB 内存——在这么紧的空间里,500MB 很关键。

6. 物理降温

树莓派 5 过热会降频。务必确保:

  • 装了散热片
  • 主动散热(风扇)
  • 通风良好

树莓派 4 行不行?

树莓派 4 的 8GB 版可以跑 Gemma 4 E2B,但:

  • 约 1.5-3 tok/s(比 Pi 5 慢约 40%)
  • 没有加速推理的硬件指令
  • 同样的使用场景都能用,就是需要更多耐心

如果手上已经有 Pi 4 8GB,试试。如果要新买,买 Pi 5。

好玩因素

说实话:在一个信用卡大小的电脑上跑 AI,就是很酷。它是话题制造器、周末项目、也是真正的学习体验。这块小板子能生成连贯有用的文本本身就很了不起。

带着一台跑 Gemma 4 的树莓派去技术聚会,保证有人过来跟你聊。

如果你想要更实用的方案,可以看看在 Mac 上跑或者用 Docker 部署。想了解为什么 E2B 模型能装进这么小的设备,架构解析里有各模型大小的详细说明。

下一步

Gemma 4 AI

Gemma 4 AI

相关教程