如何在 Raspberry Pi 上執行 Gemma 4（是的，真的）

是的，你可以在 Raspberry Pi 上執行 Gemma 4。不，它不會快。但它能用，而且有一些真正好的理由這樣做。讓我告訴你怎麼做，並誠實地說明該預期什麼。

什麼是實際的

開始前先設定預期：

	Raspberry Pi 5 (8GB)	MacBook M2 16GB
模型	Gemma 4 E2B (Q4)	Gemma 4 26B (Q4)
速度	2-5 tokens/秒	14-18 tokens/秒
感覺	慢但可用	流暢互動
成本	~$80	~$1200+
功耗	5-15W	20-50W

每秒 2-5 tokens，短答案你要等幾秒鐘，較長的回應可能要 30 秒。這不是互動聊天速度。但對於自動化任務、離線助理和折騰？完全可行。

需求

Raspberry Pi 5 8GB RAM（必需——4GB 不夠用）
microSD 卡（至少 32GB，最好 64GB）或 USB SSD
主動冷卻（風扇或散熱片——CPU 會發熱）
Raspberry Pi OS 64-bit（Bookworm 或更新版本）

Pi 4 8GB 技術上也能跑 E2B，但 Pi 5 明顯更快（約 2 倍），如果你買新硬體我會推薦 Pi 5。

在 ARM 上安裝 Ollama

Ollama 原生支援 ARM64，所以在 Pi 上安裝很直接：

# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 驗證安裝
ollama --version

# 啟動服務
sudo systemctl enable ollama
sudo systemctl start ollama

現在下載最小的 Gemma 4 模型：

# 下載 E2B——唯一能塞進 8GB 的模型
ollama pull gemma4:e2b

# 執行
ollama run gemma4:e2b

在 Pi 上初始下載需要一會兒（模型約 1.5GB）。載入後，你應該會看到提示符。輸入東西然後等——你的第一個回應會花幾秒才開始生成。

效能現實檢視

我在有主動冷卻的 Raspberry Pi 5 8GB 上跑了一些基準測試：

模型：gemma4:e2b (Q4_K_M 量化)
提示：「Explain what an API is in 3 sentences.」

Prompt eval：~1.5 秒
生成速度：3.2 tokens/秒
~50 token 回應的總時間：~17 秒

模型：gemma4:e2b (Q4_K_M 量化)
提示：「Write a Python function to reverse a string.」

Prompt eval：~2 秒
生成速度：2.8 tokens/秒
~80 token 回應的總時間：~30 秒

它是慢。無法繞過這個。Pi 的 ARM CPU 在做所有工作——這裡沒有 GPU 加速。但答案是正確且連貫的。這個模型與在 3000 美元 Mac 上執行的是同一個 Gemma 4——只是較慢。

實用的使用場景

在這個速度下，互動聊天不理想。但這些使用場景很棒：

離線個人助理

import requests

def ask_gemma(question):
    response = requests.post("http://localhost:11434/api/chat", json={
        "model": "gemma4:e2b",
        "messages": [{"role": "user", "content": question}],
        "stream": False,
    })
    return response.json()["message"]["content"]

# 整晚處理一個問題，早上就有答案
answer = ask_gemma("Summarize the key points of this article: ...")

家庭自動化大腦

連接到 Home Assistant 以進行自然語言控制：

# 將語音指令解析為結構化動作
command = "Turn on the living room lights and set them to 50%"

response = ask_gemma(f"""Parse this home command into JSON:
Command: {command}
Format: {{"device": "...", "action": "...", "value": "..."}}""")

在 2-5 tok/s 時，解析一個簡單指令需要約 5 秒。對家庭自動化來說沒問題——你不急著開一盞燈。

隱私優先 AI

最大的賣點：你的資料絕不離開你家。沒有雲端，沒有 API 金鑰，沒有服務條款。就是一台 80 美元的電腦在你桌上執行 AI。

對想要隱私 AI 助理處理日記、個人筆記或敏感問題的人——跑 Gemma 4 的 Pi 在價格上很難被擊敗。

學習和教育

跑 Gemma 4 的 Raspberry Pi 是很棒的教學工具：

學生可以實驗 AI 而不需要雲端帳號
學校可以用每台不到 100 美元建立 AI 工作站
動手學習 LLM 推論、tokenization 和量化

最佳化技巧

1. 使用 Q4 量化（或更低）

Q4_K_M 在 Pi 上提供最佳的速度品質比。別嘗試 Q8——會太慢且可能塞不進記憶體。

2. 保持上下文短

# 減少上下文視窗以節省記憶體並加快處理
ollama run gemma4:e2b --num-ctx 1024

預設上下文視窗吃掉你有限的記憶體。對簡單問答，1024 tokens 綽綽有餘。

3. 使用 SSD 而非 microSD

USB 3.0 SSD 大幅加快模型載入。microSD 卡是模型初次載入記憶體時的瓶頸。

# 檢查你的模型是否在慢速儲存上
ls -la ~/.ollama/models/

4. 加入 swap 空間

如果你記憶體很緊：

# 加入 4GB swap
sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

# 使其永久化
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

警告：microSD 上的 swap 會很慢。如果可能請用 SSD。

5. 關閉其他一切

Pi 只有 8GB。如果你無頭執行，關閉桌面環境：

# 切換到僅 CLI
sudo systemctl set-default multi-user.target
sudo reboot

這釋放約 500MB 的記憶體——在緊張的邊際下很重要。

6. 降低溫度

我說的是實際溫度。Pi 5 過熱時會降頻。確保你有：

適當的散熱片
主動冷卻（風扇）
良好的通風

Pi 4 呢？

Raspberry Pi 4 8GB 可以執行 Gemma 4 E2B，但：

~1.5-3 tok/s（約比 Pi 5 慢 40%）
沒有加密擴充指令用於更快的推論
仍然能用於相同的使用場景，只是需要更多耐心

如果你已經有 Pi 4 8GB，試試看。如果你要買新的，買 Pi 5。

樂趣因素

說實話：在信用卡大小的電腦上執行 AI 就是很酷。它是開啟對話的話題、週末專案和真正的學習體驗。它能生成連貫、有用的文字這件事本身就很了不起。

帶著跑 Gemma 4 的 Raspberry Pi 出現在聚會上，人們會想跟你聊。

對於更實用的設定，看看在 Mac 或 Docker 上執行 Gemma 4。如果你想了解為什麼 E2B 模型能塞進這麼小的硬體，我們的架構指南解釋了不同的模型大小。

下一步

與更強大的設定比較：Mac 效能指南
了解模型大小：該選哪個 Gemma 4 模型
理解架構：Gemma 4 架構解析
設定合適的伺服器：Docker 部署

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />