是的,你可以在 Raspberry Pi 上執行 Gemma 4。不,它不會快。但它能用,而且有一些真正好的理由這樣做。讓我告訴你怎麼做,並誠實地說明該預期什麼。
什麼是實際的
開始前先設定預期:
| Raspberry Pi 5 (8GB) | MacBook M2 16GB | |
|---|---|---|
| 模型 | Gemma 4 E2B (Q4) | Gemma 4 26B (Q4) |
| 速度 | 2-5 tokens/秒 | 14-18 tokens/秒 |
| 感覺 | 慢但可用 | 流暢互動 |
| 成本 | ~$80 | ~$1200+ |
| 功耗 | 5-15W | 20-50W |
每秒 2-5 tokens,短答案你要等幾秒鐘,較長的回應可能要 30 秒。這不是互動聊天速度。但對於自動化任務、離線助理和折騰?完全可行。
需求
- Raspberry Pi 5 8GB RAM(必需——4GB 不夠用)
- microSD 卡(至少 32GB,最好 64GB)或 USB SSD
- 主動冷卻(風扇或散熱片——CPU 會發熱)
- Raspberry Pi OS 64-bit(Bookworm 或更新版本)
Pi 4 8GB 技術上也能跑 E2B,但 Pi 5 明顯更快(約 2 倍),如果你買新硬體我會推薦 Pi 5。
在 ARM 上安裝 Ollama
Ollama 原生支援 ARM64,所以在 Pi 上安裝很直接:
# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 驗證安裝
ollama --version
# 啟動服務
sudo systemctl enable ollama
sudo systemctl start ollama現在下載最小的 Gemma 4 模型:
# 下載 E2B——唯一能塞進 8GB 的模型
ollama pull gemma4:e2b
# 執行
ollama run gemma4:e2b在 Pi 上初始下載需要一會兒(模型約 1.5GB)。載入後,你應該會看到提示符。輸入東西然後等——你的第一個回應會花幾秒才開始生成。
效能現實檢視
我在有主動冷卻的 Raspberry Pi 5 8GB 上跑了一些基準測試:
模型:gemma4:e2b (Q4_K_M 量化)
提示:「Explain what an API is in 3 sentences.」
Prompt eval:~1.5 秒
生成速度:3.2 tokens/秒
~50 token 回應的總時間:~17 秒模型:gemma4:e2b (Q4_K_M 量化)
提示:「Write a Python function to reverse a string.」
Prompt eval:~2 秒
生成速度:2.8 tokens/秒
~80 token 回應的總時間:~30 秒它是慢。無法繞過這個。Pi 的 ARM CPU 在做所有工作——這裡沒有 GPU 加速。但答案是正確且連貫的。這個模型與在 3000 美元 Mac 上執行的是同一個 Gemma 4——只是較慢。
實用的使用場景
在這個速度下,互動聊天不理想。但這些使用場景很棒:
離線個人助理
import requests
def ask_gemma(question):
response = requests.post("http://localhost:11434/api/chat", json={
"model": "gemma4:e2b",
"messages": [{"role": "user", "content": question}],
"stream": False,
})
return response.json()["message"]["content"]
# 整晚處理一個問題,早上就有答案
answer = ask_gemma("Summarize the key points of this article: ...")家庭自動化大腦
連接到 Home Assistant 以進行自然語言控制:
# 將語音指令解析為結構化動作
command = "Turn on the living room lights and set them to 50%"
response = ask_gemma(f"""Parse this home command into JSON:
Command: {command}
Format: {{"device": "...", "action": "...", "value": "..."}}""")在 2-5 tok/s 時,解析一個簡單指令需要約 5 秒。對家庭自動化來說沒問題——你不急著開一盞燈。
隱私優先 AI
最大的賣點:你的資料絕不離開你家。沒有雲端,沒有 API 金鑰,沒有服務條款。就是一台 80 美元的電腦在你桌上執行 AI。
對想要隱私 AI 助理處理日記、個人筆記或敏感問題的人——跑 Gemma 4 的 Pi 在價格上很難被擊敗。
學習和教育
跑 Gemma 4 的 Raspberry Pi 是很棒的教學工具:
- 學生可以實驗 AI 而不需要雲端帳號
- 學校可以用每台不到 100 美元建立 AI 工作站
- 動手學習 LLM 推論、tokenization 和量化
最佳化技巧
1. 使用 Q4 量化(或更低)
Q4_K_M 在 Pi 上提供最佳的速度品質比。別嘗試 Q8——會太慢且可能塞不進記憶體。
2. 保持上下文短
# 減少上下文視窗以節省記憶體並加快處理
ollama run gemma4:e2b --num-ctx 1024預設上下文視窗吃掉你有限的記憶體。對簡單問答,1024 tokens 綽綽有餘。
3. 使用 SSD 而非 microSD
USB 3.0 SSD 大幅加快模型載入。microSD 卡是模型初次載入記憶體時的瓶頸。
# 檢查你的模型是否在慢速儲存上
ls -la ~/.ollama/models/4. 加入 swap 空間
如果你記憶體很緊:
# 加入 4GB swap
sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
# 使其永久化
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab警告:microSD 上的 swap 會很慢。如果可能請用 SSD。
5. 關閉其他一切
Pi 只有 8GB。如果你無頭執行,關閉桌面環境:
# 切換到僅 CLI
sudo systemctl set-default multi-user.target
sudo reboot這釋放約 500MB 的記憶體——在緊張的邊際下很重要。
6. 降低溫度
我說的是實際溫度。Pi 5 過熱時會降頻。確保你有:
- 適當的散熱片
- 主動冷卻(風扇)
- 良好的通風
Pi 4 呢?
Raspberry Pi 4 8GB 可以執行 Gemma 4 E2B,但:
- ~1.5-3 tok/s(約比 Pi 5 慢 40%)
- 沒有加密擴充指令用於更快的推論
- 仍然能用於相同的使用場景,只是需要更多耐心
如果你已經有 Pi 4 8GB,試試看。如果你要買新的,買 Pi 5。
樂趣因素
說實話:在信用卡大小的電腦上執行 AI 就是很酷。它是開啟對話的話題、週末專案和真正的學習體驗。它能生成連貫、有用的文字這件事本身就很了不起。
帶著跑 Gemma 4 的 Raspberry Pi 出現在聚會上,人們會想跟你聊。
對於更實用的設定,看看在 Mac 或 Docker 上執行 Gemma 4。如果你想了解為什麼 E2B 模型能塞進這麼小的硬體,我們的架構指南 解釋了不同的模型大小。
下一步
- 與更強大的設定比較:Mac 效能指南
- 了解模型大小:該選哪個 Gemma 4 模型
- 理解架構:Gemma 4 架構解析
- 設定合適的伺服器:Docker 部署
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


