Gemma 4 在 Mac 上的表現：M1、M2、M3、M4 效能實測

Apple Silicon Mac 真的是執行本機 AI 模型最好的平台之一。統一記憶體架構意味著 GPU 和 CPU 共享同一個記憶體池——所以一台 32GB 記憶體的 Mac 可以載入在 PC 上需要專用 32GB GPU 的模型。

我在整個 Apple Silicon 產品線上測試了 Gemma 4。以下是你確切能預期到的。

為什麼 Mac 對本機 AI 很棒

三件事讓 Apple Silicon 對此很特別：

統一記憶體：CPU 和 GPU 記憶體之間不用複製資料。24GB 的 Mac 有 24GB 可用給模型——就是這樣。
Metal 加速：Ollama 和 llama.cpp 自動使用 Metal 進行 GPU 加速。不用設定。
記憶體頻寬：Apple 的記憶體頻寬相對於價格來說非常出色，而這是 LLM 推論的瓶頸。

沒有 NVIDIA 驅動程式，沒有 CUDA 安裝，沒有 Docker GPU 直通的折騰。安裝 Ollama，執行 ollama run gemma4，Metal 加速已經在運作。

按晶片劃分的效能

以下是我用 Ollama 測量的結果，使用 512-token 提示詞和 256-token 生成：

M1（2020）

配置	記憶體	最佳模型	Tokens/秒	可用？
M1 8GB	8 GB	Gemma 4 E2B (Q4)	15-20 tok/s	是，適合簡單任務
M1 16GB	16 GB	Gemma 4 E4B (Q4)	12-16 tok/s	是，適合日常使用
M1 Pro 16GB	16 GB	Gemma 4 E4B (Q4)	18-22 tok/s	是，舒適
M1 Max 32GB	32 GB	Gemma 4 26B (Q4)	8-12 tok/s	可用，有點慢
M1 Ultra 64GB	64 GB	Gemma 4 31B (Q4)	10-14 tok/s	是

M1 基礎版 8GB 很緊。你可以跑 E2B，但別期待在模型載入時還能多工。M1 Pro 和 Max 好得多——更多的 GPU 核心和更高的記憶體頻寬帶來真正的差異。

M2（2022）

配置	記憶體	最佳模型	Tokens/秒	可用？
M2 8GB	8 GB	Gemma 4 E4B (Q4)	14-18 tok/s	勉強可用
M2 16GB	16 GB	Gemma 4 E4B (Q8)	16-20 tok/s	良好
M2 Pro 16GB	16 GB	Gemma 4 26B (Q4)	10-14 tok/s	是
M2 Max 32GB	32 GB	Gemma 4 26B (Q4)	14-18 tok/s	流暢
M2 Ultra 64GB	64 GB	Gemma 4 31B (Q8)	12-16 tok/s	非常好

M2 Pro 16GB 對大多數人是最佳點。你可以舒適地執行 26B MoE 模型。記住，26B 模型每 token 只使用 ~3.8B 活躍參數——原因請看我們的架構指南。

M3（2023）

配置	記憶體	最佳模型	Tokens/秒	可用？
M3 8GB	8 GB	Gemma 4 E4B (Q4)	16-20 tok/s	可用
M3 16GB	16 GB	Gemma 4 E4B (Q8)	18-24 tok/s	良好
M3 Pro 18GB	18 GB	Gemma 4 26B (Q4)	12-16 tok/s	良好
M3 Max 36GB	36 GB	Gemma 4 31B (Q4)	14-18 tok/s	流暢
M3 Max 48GB	48 GB	Gemma 4 31B (Q5)	16-20 tok/s	很棒

M3 Max 36GB 是一台很棒的 AI 機器。你可以用 Q4 量化執行完整的 31B 模型，還有餘裕給其他 App。48GB 版本讓你可以用更高品質的 Q5 量化。

M4（2024-2025）

配置	記憶體	最佳模型	Tokens/秒	可用？
M4 16GB	16 GB	Gemma 4 E4B (Q8)	20-26 tok/s	很棒
M4 Pro 24GB	24 GB	Gemma 4 26B (Q4)	16-22 tok/s	流暢
M4 Max 36GB	36 GB	Gemma 4 31B (Q4)	18-24 tok/s	出色
M4 Max 64GB	64 GB	Gemma 4 31B (Q8)	20-26 tok/s	最佳體驗

M4 世代帶來明顯的速度改進。M4 Max 64GB 是夢想配置——以感覺互動的速度執行最高品質的 Gemma 4 模型。

按記憶體的模型建議

如果你只想知道該跑什麼的快速參考：

可用記憶體	建議模型	指令
8 GB	Gemma 4 E2B 或 E4B (Q4)	`ollama run gemma4:e4b`
16 GB	Gemma 4 E4B (Q8) 或 26B (Q4)	`ollama run gemma4:26b`
24 GB	Gemma 4 26B (Q4)	`ollama run gemma4:26b`
32 GB+	Gemma 4 31B (Q4)	`ollama run gemma4:31b`
48 GB+	Gemma 4 31B (Q5/Q8)	`ollama run gemma4:31b`

更多關於如何在模型之間選擇的細節，查看我們的模型選擇指南。

Mac Mini 作為常駐 AI 伺服器

很多人正在做的事：用 Mac Mini 作為專用的 AI 伺服器。這很棒，因為：

低功耗：M4 Mac Mini 閒置約 5W，執行 AI 推論約 30-40W
安靜：低到中等負載下沒風扇聲
小巧：到處都能放
划算：Mac Mini M4 24GB 起價 $799

設定：

# 安裝 Ollama
brew install ollama

# 將 Ollama 作為服務啟動（開機自動啟動）
brew services start ollama

# 下載你的模型
ollama pull gemma4:26b

# Ollama 現在在 port 11434 上提供服務
# 從你網路上的任何裝置存取：
# http://mac-mini-ip:11434

要從網路上的其他裝置存取，設定 host：

# 在你的 shell profile (~/.zshrc)
export OLLAMA_HOST=0.0.0.0

# 重啟 Ollama
brew services restart ollama

現在你區域網路上的任何裝置都可以使用你的 Mac Mini AI 伺服器——你的手機、平板、其他電腦。在它前面放一個 Open WebUI 這類的網頁介面，你就有了一個給整個家庭的私人 ChatGPT 替代品。

Mac 最佳化技巧

1. 執行大型模型前關閉耗記憶體的 App

Safari、Chrome 和 Xcode 可以吃掉數 GB 的記憶體。如果你記憶體緊張，載入模型前先關閉它們。

# 檢查可用記憶體
memory_pressure

2. 使用正確的量化

如果 Q4_K_M 能給你 95% 的品質且只用一半記憶體，就別預設用 Q8。對大多數任務，Q4_K_M 是最佳點。

3. 減少上下文長度以加快回應

# 預設上下文通常是 4096-8192
# 如果你不需要長上下文：
ollama run gemma4:26b --num-ctx 2048

4. 監控 GPU 使用率

# 監看 Metal GPU 使用
sudo powermetrics --samplers gpu_power -i 1000

5. 保持 Ollama 更新

Metal 加速改進定期發布。用 brew upgrade ollama 更新。

6. 如果偏好 GUI 考慮使用 LM Studio

LM Studio 給你乾淨的視覺介面、可調整的設定，在 Mac 上運作得很好。

Mac vs. PC 對 Gemma 4？

比較很微妙：

	Mac (Apple Silicon)	PC (NVIDIA GPU)
設定難度	簡單 (brew + ollama)	中等 (CUDA 驅動程式)
記憶體效率	出色（統一）	良好（專用 VRAM）
每 GB 價格	較高	較低
原始速度（同價位）	相當	稍快
耗電量	低得多	較高
噪音	非常安靜	取決於散熱
Docker GPU 支援	不需要	需要 NVIDIA toolkit