Apple Silicon Mac 真的是執行本機 AI 模型最好的平台之一。統一記憶體架構意味著 GPU 和 CPU 共享同一個記憶體池——所以一台 32GB 記憶體的 Mac 可以載入在 PC 上需要專用 32GB GPU 的模型。
我在整個 Apple Silicon 產品線上測試了 Gemma 4。以下是你確切能預期到的。
為什麼 Mac 對本機 AI 很棒
三件事讓 Apple Silicon 對此很特別:
- 統一記憶體:CPU 和 GPU 記憶體之間不用複製資料。24GB 的 Mac 有 24GB 可用給模型——就是這樣。
- Metal 加速:Ollama 和 llama.cpp 自動使用 Metal 進行 GPU 加速。不用設定。
- 記憶體頻寬:Apple 的記憶體頻寬相對於價格來說非常出色,而這是 LLM 推論的瓶頸。
沒有 NVIDIA 驅動程式,沒有 CUDA 安裝,沒有 Docker GPU 直通的折騰。安裝 Ollama,執行 ollama run gemma4,Metal 加速已經在運作。
按晶片劃分的效能
以下是我用 Ollama 測量的結果,使用 512-token 提示詞和 256-token 生成:
M1(2020)
| 配置 | 記憶體 | 最佳模型 | Tokens/秒 | 可用? |
|---|---|---|---|---|
| M1 8GB | 8 GB | Gemma 4 E2B (Q4) | 15-20 tok/s | 是,適合簡單任務 |
| M1 16GB | 16 GB | Gemma 4 E4B (Q4) | 12-16 tok/s | 是,適合日常使用 |
| M1 Pro 16GB | 16 GB | Gemma 4 E4B (Q4) | 18-22 tok/s | 是,舒適 |
| M1 Max 32GB | 32 GB | Gemma 4 26B (Q4) | 8-12 tok/s | 可用,有點慢 |
| M1 Ultra 64GB | 64 GB | Gemma 4 31B (Q4) | 10-14 tok/s | 是 |
M1 基礎版 8GB 很緊。你可以跑 E2B,但別期待在模型載入時還能多工。M1 Pro 和 Max 好得多——更多的 GPU 核心和更高的記憶體頻寬帶來真正的差異。
M2(2022)
| 配置 | 記憶體 | 最佳模型 | Tokens/秒 | 可用? |
|---|---|---|---|---|
| M2 8GB | 8 GB | Gemma 4 E4B (Q4) | 14-18 tok/s | 勉強可用 |
| M2 16GB | 16 GB | Gemma 4 E4B (Q8) | 16-20 tok/s | 良好 |
| M2 Pro 16GB | 16 GB | Gemma 4 26B (Q4) | 10-14 tok/s | 是 |
| M2 Max 32GB | 32 GB | Gemma 4 26B (Q4) | 14-18 tok/s | 流暢 |
| M2 Ultra 64GB | 64 GB | Gemma 4 31B (Q8) | 12-16 tok/s | 非常好 |
M2 Pro 16GB 對大多數人是最佳點。你可以舒適地執行 26B MoE 模型。記住,26B 模型每 token 只使用 ~3.8B 活躍參數——原因請看我們的架構指南。
M3(2023)
| 配置 | 記憶體 | 最佳模型 | Tokens/秒 | 可用? |
|---|---|---|---|---|
| M3 8GB | 8 GB | Gemma 4 E4B (Q4) | 16-20 tok/s | 可用 |
| M3 16GB | 16 GB | Gemma 4 E4B (Q8) | 18-24 tok/s | 良好 |
| M3 Pro 18GB | 18 GB | Gemma 4 26B (Q4) | 12-16 tok/s | 良好 |
| M3 Max 36GB | 36 GB | Gemma 4 31B (Q4) | 14-18 tok/s | 流暢 |
| M3 Max 48GB | 48 GB | Gemma 4 31B (Q5) | 16-20 tok/s | 很棒 |
M3 Max 36GB 是一台很棒的 AI 機器。你可以用 Q4 量化執行完整的 31B 模型,還有餘裕給其他 App。48GB 版本讓你可以用更高品質的 Q5 量化。
M4(2024-2025)
| 配置 | 記憶體 | 最佳模型 | Tokens/秒 | 可用? |
|---|---|---|---|---|
| M4 16GB | 16 GB | Gemma 4 E4B (Q8) | 20-26 tok/s | 很棒 |
| M4 Pro 24GB | 24 GB | Gemma 4 26B (Q4) | 16-22 tok/s | 流暢 |
| M4 Max 36GB | 36 GB | Gemma 4 31B (Q4) | 18-24 tok/s | 出色 |
| M4 Max 64GB | 64 GB | Gemma 4 31B (Q8) | 20-26 tok/s | 最佳體驗 |
M4 世代帶來明顯的速度改進。M4 Max 64GB 是夢想配置——以感覺互動的速度執行最高品質的 Gemma 4 模型。
按記憶體的模型建議
如果你只想知道該跑什麼的快速參考:
| 可用記憶體 | 建議模型 | 指令 |
|---|---|---|
| 8 GB | Gemma 4 E2B 或 E4B (Q4) | ollama run gemma4:e4b |
| 16 GB | Gemma 4 E4B (Q8) 或 26B (Q4) | ollama run gemma4:26b |
| 24 GB | Gemma 4 26B (Q4) | ollama run gemma4:26b |
| 32 GB+ | Gemma 4 31B (Q4) | ollama run gemma4:31b |
| 48 GB+ | Gemma 4 31B (Q5/Q8) | ollama run gemma4:31b |
更多關於如何在模型之間選擇的細節,查看我們的模型選擇指南。
Mac Mini 作為常駐 AI 伺服器
很多人正在做的事:用 Mac Mini 作為專用的 AI 伺服器。這很棒,因為:
- 低功耗:M4 Mac Mini 閒置約 5W,執行 AI 推論約 30-40W
- 安靜:低到中等負載下沒風扇聲
- 小巧:到處都能放
- 划算:Mac Mini M4 24GB 起價 $799
設定:
# 安裝 Ollama
brew install ollama
# 將 Ollama 作為服務啟動(開機自動啟動)
brew services start ollama
# 下載你的模型
ollama pull gemma4:26b
# Ollama 現在在 port 11434 上提供服務
# 從你網路上的任何裝置存取:
# http://mac-mini-ip:11434要從網路上的其他裝置存取,設定 host:
# 在你的 shell profile (~/.zshrc)
export OLLAMA_HOST=0.0.0.0
# 重啟 Ollama
brew services restart ollama現在你區域網路上的任何裝置都可以使用你的 Mac Mini AI 伺服器——你的手機、平板、其他電腦。在它前面放一個 Open WebUI 這類的網頁介面,你就有了一個給整個家庭的私人 ChatGPT 替代品。
Mac 最佳化技巧
1. 執行大型模型前關閉耗記憶體的 App
Safari、Chrome 和 Xcode 可以吃掉數 GB 的記憶體。如果你記憶體緊張,載入模型前先關閉它們。
# 檢查可用記憶體
memory_pressure2. 使用正確的量化
如果 Q4_K_M 能給你 95% 的品質且只用一半記憶體,就別預設用 Q8。對大多數任務,Q4_K_M 是最佳點。
3. 減少上下文長度以加快回應
# 預設上下文通常是 4096-8192
# 如果你不需要長上下文:
ollama run gemma4:26b --num-ctx 20484. 監控 GPU 使用率
# 監看 Metal GPU 使用
sudo powermetrics --samplers gpu_power -i 10005. 保持 Ollama 更新
Metal 加速改進定期發布。用 brew upgrade ollama 更新。
6. 如果偏好 GUI 考慮使用 LM Studio
LM Studio 給你乾淨的視覺介面、可調整的設定,在 Mac 上運作得很好。
Mac vs. PC 對 Gemma 4?
比較很微妙:
| Mac (Apple Silicon) | PC (NVIDIA GPU) | |
|---|---|---|
| 設定難度 | 簡單 (brew + ollama) | 中等 (CUDA 驅動程式) |
| 記憶體效率 | 出色(統一) | 良好(專用 VRAM) |
| 每 GB 價格 | 較高 | 較低 |
| 原始速度(同價位) | 相當 | 稍快 |
| 耗電量 | 低得多 | 較高 |
| 噪音 | 非常安靜 | 取決於散熱 |
| Docker GPU 支援 | 不需要 | 需要 NVIDIA toolkit |
對大多數個人使用者,Mac 是更容易且更愉快的體驗。對正式環境伺服器,在 Docker 中用 vLLM 執行 NVIDIA GPU 每單位成本提供更好的吞吐量。
下一步
- 安裝並執行:Ollama 快速入門指南
- 挑選合適的模型:模型選擇指南
- 查看完整硬體規格:硬體需求
- 嘗試 GUI 方式:LM Studio 指南
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


