Gemma 4 on Mac：M1、M2、M3、M4のパフォーマンステスト

Apple Silicon Macは、ローカルAIモデルを実行するための真に最高のプラットフォームの1つです。統合メモリアーキテクチャにより、GPUとCPUが同じRAMプールを共有します — つまり32GBのメモリを持つMacは、PC上の32GBの専用GPUを必要とするモデルをロードできます。

Apple Siliconラインナップ全体でGemma 4をテストしました。期待できることを正確に紹介します。

なぜMacはローカルAIに最適か

3つの点がApple Siliconをこれに特別にしています：

統合メモリ：CPUとGPUメモリ間のデータコピーなし。24GBのMacには24GBがモデルに利用可能 — それだけ。
Metalアクセラレーション：Ollamaとllama.cppは自動的にMetalをGPUアクセラレーションに使用。セットアップ不要。
メモリ帯域：Appleのメモリ帯域は価格に対して優秀で、それがLLM推論のボトルネック。

NVIDIAドライバーなし、CUDAインストールなし、Docker GPUパススルーの手探りもなし。Ollamaをインストールし、ollama run gemma4を実行すると、Metalアクセラレーションがすでに動作しています。

チップ別パフォーマンス

Ollamaで、512トークンプロンプトと256トークン生成を使って測定した結果：

M1 (2020)

構成	RAM	推奨モデル	トークン/秒	使えるか？
M1 8GB	8 GB	Gemma 4 E2B (Q4)	15-20 tok/s	はい、シンプルなタスクに
M1 16GB	16 GB	Gemma 4 E4B (Q4)	12-16 tok/s	はい、日常使用に良い
M1 Pro 16GB	16 GB	Gemma 4 E4B (Q4)	18-22 tok/s	はい、快適
M1 Max 32GB	32 GB	Gemma 4 26B (Q4)	8-12 tok/s	使えるが、少し遅い
M1 Ultra 64GB	64 GB	Gemma 4 31B (Q4)	10-14 tok/s	はい

8GBのM1ベースはきつい。E2Bは動かせますが、モデルがロードされている間に多くのマルチタスクを期待しないでください。M1 ProとMaxははるかに良い — より多くのGPUコアと高いメモリ帯域が本当の違いを生み出します。

M2 (2022)

構成	RAM	推奨モデル	トークン/秒	使えるか？
M2 8GB	8 GB	Gemma 4 E4B (Q4)	14-18 tok/s	タイトだが動く
M2 16GB	16 GB	Gemma 4 E4B (Q8)	16-20 tok/s	良好
M2 Pro 16GB	16 GB	Gemma 4 26B (Q4)	10-14 tok/s	はい
M2 Max 32GB	32 GB	Gemma 4 26B (Q4)	14-18 tok/s	スムーズ
M2 Ultra 64GB	64 GB	Gemma 4 31B (Q8)	12-16 tok/s	非常に良い

16GBのM2 Proはほとんどの人にとって最適解です。26B MoEモデルを快適に動かせます。26Bモデルはトークンあたり約3.8Bのアクティブパラメータしか使わないことを思い出してください — 理由についてはアーキテクチャガイドをご覧ください。

M3 (2023)

構成	RAM	推奨モデル	トークン/秒	使えるか？
M3 8GB	8 GB	Gemma 4 E4B (Q4)	16-20 tok/s	動作
M3 16GB	16 GB	Gemma 4 E4B (Q8)	18-24 tok/s	良好
M3 Pro 18GB	18 GB	Gemma 4 26B (Q4)	12-16 tok/s	良好
M3 Max 36GB	36 GB	Gemma 4 31B (Q4)	14-18 tok/s	スムーズ
M3 Max 48GB	48 GB	Gemma 4 31B (Q5)	16-20 tok/s	すごい

36GBのM3 Maxは素晴らしいAIマシンです。Q4量子化でフル31Bモデルを動かしながら、他のアプリ用の余裕もあります。48GBバリアントはより高品質なQ5量子化を使用できます。

M4 (2024-2025)

構成	RAM	推奨モデル	トークン/秒	使えるか？
M4 16GB	16 GB	Gemma 4 E4B (Q8)	20-26 tok/s	すごい
M4 Pro 24GB	24 GB	Gemma 4 26B (Q4)	16-22 tok/s	スムーズ
M4 Max 36GB	36 GB	Gemma 4 31B (Q4)	18-24 tok/s	優秀
M4 Max 64GB	64 GB	Gemma 4 31B (Q8)	20-26 tok/s	最高の体験

M4世代は顕著な速度改善をもたらします。64GBのM4 Maxは夢のセットアップ — 最高品質のGemma 4モデルをインタラクティブに感じる速度で動かせます。

RAM別のモデル推奨

何を実行すべきか知りたいだけの場合のクイックリファレンス：

利用可能なRAM	推奨モデル	コマンド
8 GB	Gemma 4 E2BまたはE4B (Q4)	`ollama run gemma4:e4b`
16 GB	Gemma 4 E4B (Q8)または26B (Q4)	`ollama run gemma4:26b`
24 GB	Gemma 4 26B (Q4)	`ollama run gemma4:26b`
32 GB以上	Gemma 4 31B (Q4)	`ollama run gemma4:31b`
48 GB以上	Gemma 4 31B (Q5/Q8)	`ollama run gemma4:31b`

モデル選択の詳細については、モデル選択ガイドをご覧ください。

Mac MiniをオルウェイズオンAIサーバーに

多くの人がやっていること：Mac Miniを専用AIサーバーとして使う。素晴らしい理由：

低消費電力：M4 Mac Miniはアイドル時約5W、AI推論時約30-40W
サイレント：低〜中負荷ではファンなし
小さい：どこにでも収まる
手頃：24GB搭載のMac Mini M4は$799から

セットアップ：

# Ollamaをインストール
brew install ollama

# Ollamaをサービスとして起動（起動時に実行）
brew services start ollama

# モデルをプル
ollama pull gemma4:26b

# Ollamaはポート11434でサービス
# ネットワーク上の任意のデバイスからアクセス：
# http://mac-mini-ip:11434

ネットワーク上の他のデバイスからアクセスするには、ホストを設定：

# シェルプロファイル（~/.zshrc）に
export OLLAMA_HOST=0.0.0.0

# Ollamaを再起動
brew services restart ollama

これでLAN上の任意のデバイスがMac Mini AIサーバーを使えます — スマホ、タブレット、他のコンピューター。Open WebUIのようなウェブUIを前面に置けば、家族全員のためのプライベートなChatGPTの代替になります。

Mac向け最適化のヒント

1. 大きなモデルを実行する前にメモリを食うアプリを閉じる

Safari、Chrome、XcodeはギガバイトのRAMを食う可能性があります。メモリがタイトなら、モデルをロードする前に終了しましょう。

# 利用可能なメモリを確認
memory_pressure

2. 適切な量子化を使う

Q4_K_Mが半分のメモリで品質の95%を得られるなら、Q8にデフォルトしないでください。ほとんどのタスクでQ4_K_Mが最適解です。

3. より高速なレスポンスのためにコンテキスト長を減らす

# デフォルトコンテキストは通常4096-8192
# 長いコンテキストが不要なら：
ollama run gemma4:26b --num-ctx 2048

4. GPU使用率を監視

# Metal GPU使用を監視
sudo powermetrics --samplers gpu_power -i 1000

5. Ollamaを最新に保つ

Metalアクセラレーションの改善は定期的に出荷されます。brew upgrade ollamaで更新。

6. GUIを好むならLM Studioを検討

LM Studioはクリーンなビジュアルインターフェース、調整可能な設定を提供し、Macで優れた動作をします。

Gemma 4にMac vs PCはどうか？

比較は微妙です：

	Mac（Apple Silicon）	PC（NVIDIA GPU）
セットアップの難しさ	簡単（brew + ollama）	中（CUDAドライバー）
メモリ効率	優秀（統合）	良好（専用VRAM）
GBあたりの価格	高い	低い
生の速度（同価格）	同等	わずかに高速
消費電力	はるかに低い	高い
ノイズ	非常に静か	冷却に依存
Docker GPUサポート	不要	NVIDIAツールキット必要