0% read

Gemma 4 在 Mac 上的表現:M1、M2、M3、M4 效能實測

Apr 7, 2026

Apple Silicon Mac 真的是執行本機 AI 模型最好的平台之一。統一記憶體架構意味著 GPU 和 CPU 共享同一個記憶體池——所以一台 32GB 記憶體的 Mac 可以載入在 PC 上需要專用 32GB GPU 的模型。

我在整個 Apple Silicon 產品線上測試了 Gemma 4。以下是你確切能預期到的。

為什麼 Mac 對本機 AI 很棒

三件事讓 Apple Silicon 對此很特別:

  1. 統一記憶體:CPU 和 GPU 記憶體之間不用複製資料。24GB 的 Mac 有 24GB 可用給模型——就是這樣。
  2. Metal 加速:Ollama 和 llama.cpp 自動使用 Metal 進行 GPU 加速。不用設定。
  3. 記憶體頻寬:Apple 的記憶體頻寬相對於價格來說非常出色,而這是 LLM 推論的瓶頸。

沒有 NVIDIA 驅動程式,沒有 CUDA 安裝,沒有 Docker GPU 直通的折騰。安裝 Ollama,執行 ollama run gemma4,Metal 加速已經在運作。

按晶片劃分的效能

以下是我用 Ollama 測量的結果,使用 512-token 提示詞和 256-token 生成:

M1(2020)

配置記憶體最佳模型Tokens/秒可用?
M1 8GB8 GBGemma 4 E2B (Q4)15-20 tok/s是,適合簡單任務
M1 16GB16 GBGemma 4 E4B (Q4)12-16 tok/s是,適合日常使用
M1 Pro 16GB16 GBGemma 4 E4B (Q4)18-22 tok/s是,舒適
M1 Max 32GB32 GBGemma 4 26B (Q4)8-12 tok/s可用,有點慢
M1 Ultra 64GB64 GBGemma 4 31B (Q4)10-14 tok/s

M1 基礎版 8GB 很緊。你可以跑 E2B,但別期待在模型載入時還能多工。M1 Pro 和 Max 好得多——更多的 GPU 核心和更高的記憶體頻寬帶來真正的差異。

M2(2022)

配置記憶體最佳模型Tokens/秒可用?
M2 8GB8 GBGemma 4 E4B (Q4)14-18 tok/s勉強可用
M2 16GB16 GBGemma 4 E4B (Q8)16-20 tok/s良好
M2 Pro 16GB16 GBGemma 4 26B (Q4)10-14 tok/s
M2 Max 32GB32 GBGemma 4 26B (Q4)14-18 tok/s流暢
M2 Ultra 64GB64 GBGemma 4 31B (Q8)12-16 tok/s非常好

M2 Pro 16GB 對大多數人是最佳點。你可以舒適地執行 26B MoE 模型。記住,26B 模型每 token 只使用 ~3.8B 活躍參數——原因請看我們的架構指南

M3(2023)

配置記憶體最佳模型Tokens/秒可用?
M3 8GB8 GBGemma 4 E4B (Q4)16-20 tok/s可用
M3 16GB16 GBGemma 4 E4B (Q8)18-24 tok/s良好
M3 Pro 18GB18 GBGemma 4 26B (Q4)12-16 tok/s良好
M3 Max 36GB36 GBGemma 4 31B (Q4)14-18 tok/s流暢
M3 Max 48GB48 GBGemma 4 31B (Q5)16-20 tok/s很棒

M3 Max 36GB 是一台很棒的 AI 機器。你可以用 Q4 量化執行完整的 31B 模型,還有餘裕給其他 App。48GB 版本讓你可以用更高品質的 Q5 量化。

M4(2024-2025)

配置記憶體最佳模型Tokens/秒可用?
M4 16GB16 GBGemma 4 E4B (Q8)20-26 tok/s很棒
M4 Pro 24GB24 GBGemma 4 26B (Q4)16-22 tok/s流暢
M4 Max 36GB36 GBGemma 4 31B (Q4)18-24 tok/s出色
M4 Max 64GB64 GBGemma 4 31B (Q8)20-26 tok/s最佳體驗

M4 世代帶來明顯的速度改進。M4 Max 64GB 是夢想配置——以感覺互動的速度執行最高品質的 Gemma 4 模型。

按記憶體的模型建議

如果你只想知道該跑什麼的快速參考:

可用記憶體建議模型指令
8 GBGemma 4 E2B 或 E4B (Q4)ollama run gemma4:e4b
16 GBGemma 4 E4B (Q8) 或 26B (Q4)ollama run gemma4:26b
24 GBGemma 4 26B (Q4)ollama run gemma4:26b
32 GB+Gemma 4 31B (Q4)ollama run gemma4:31b
48 GB+Gemma 4 31B (Q5/Q8)ollama run gemma4:31b

更多關於如何在模型之間選擇的細節,查看我們的模型選擇指南

Mac Mini 作為常駐 AI 伺服器

很多人正在做的事:用 Mac Mini 作為專用的 AI 伺服器。這很棒,因為:

  • 低功耗:M4 Mac Mini 閒置約 5W,執行 AI 推論約 30-40W
  • 安靜:低到中等負載下沒風扇聲
  • 小巧:到處都能放
  • 划算:Mac Mini M4 24GB 起價 $799

設定:

# 安裝 Ollama
brew install ollama

# 將 Ollama 作為服務啟動(開機自動啟動)
brew services start ollama

# 下載你的模型
ollama pull gemma4:26b

# Ollama 現在在 port 11434 上提供服務
# 從你網路上的任何裝置存取:
# http://mac-mini-ip:11434

要從網路上的其他裝置存取,設定 host:

# 在你的 shell profile (~/.zshrc)
export OLLAMA_HOST=0.0.0.0

# 重啟 Ollama
brew services restart ollama

現在你區域網路上的任何裝置都可以使用你的 Mac Mini AI 伺服器——你的手機、平板、其他電腦。在它前面放一個 Open WebUI 這類的網頁介面,你就有了一個給整個家庭的私人 ChatGPT 替代品。

Mac 最佳化技巧

1. 執行大型模型前關閉耗記憶體的 App

Safari、Chrome 和 Xcode 可以吃掉數 GB 的記憶體。如果你記憶體緊張,載入模型前先關閉它們。

# 檢查可用記憶體
memory_pressure

2. 使用正確的量化

如果 Q4_K_M 能給你 95% 的品質且只用一半記憶體,就別預設用 Q8。對大多數任務,Q4_K_M 是最佳點。

3. 減少上下文長度以加快回應

# 預設上下文通常是 4096-8192
# 如果你不需要長上下文:
ollama run gemma4:26b --num-ctx 2048

4. 監控 GPU 使用率

# 監看 Metal GPU 使用
sudo powermetrics --samplers gpu_power -i 1000

5. 保持 Ollama 更新

Metal 加速改進定期發布。用 brew upgrade ollama 更新。

6. 如果偏好 GUI 考慮使用 LM Studio

LM Studio 給你乾淨的視覺介面、可調整的設定,在 Mac 上運作得很好。

Mac vs. PC 對 Gemma 4?

比較很微妙:

Mac (Apple Silicon)PC (NVIDIA GPU)
設定難度簡單 (brew + ollama)中等 (CUDA 驅動程式)
記憶體效率出色(統一)良好(專用 VRAM)
每 GB 價格較高較低
原始速度(同價位)相當稍快
耗電量低得多較高
噪音非常安靜取決於散熱
Docker GPU 支援不需要需要 NVIDIA toolkit

對大多數個人使用者,Mac 是更容易且更愉快的體驗。對正式環境伺服器,在 Docker 中用 vLLM 執行 NVIDIA GPU 每單位成本提供更好的吞吐量。

下一步

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 在 Mac 上的表現:M1、M2、M3、M4 效能實測 | 部落格