自分のPCでGemma 4は動く？（RAM・GPU必要スペック）

「自分のPCで動く？」— 誰もが最初に聞く質問です。答えは、どのGemma 4モデルを動かしたいか、どんなハードウェアを持っているかによります。混乱を解消して、具体的な数字をお伝えします。

ハードウェア要件一覧

各モデルの量子化レベル別の必要スペック：

モデル	4-bit (Q4)	8-bit (Q8)	16-bit (FP16)	最小RAM/VRAM
E2B (2B)	約1.5GB	約2.5GB	約4GB	4GB RAM
E4B (4B)	約3GB	約5GB	約8GB	6GB RAM
26B MoE	約8GB	約18GB	約28GB	8GB VRAM
31B Dense	約20GB	約34GB	約62GB	20GB VRAM

「量子化」とは？ モデルの数値精度を下げて圧縮する手法です。4-bitが最も圧縮され（最小・最速・やや精度低下）、16-bitがフル精度（最大・最高精度・最もメモリ消費）。ほとんどの人には4-bitがベスト — 品質の差はほとんどわかりません。

KVキャッシュの落とし穴

ほとんどのガイドが触れないポイント。モデルの重みはメモリ使用量の一部に過ぎません。Gemma 4が長い会話を処理するとき、過去のトークンのアテンション情報を保存するKVキャッシュ（キー・バリューキャッシュ）が蓄積されます。

31Bモデルでフル262Kコンテキスト長を使用すると、KVキャッシュだけで約22GBのメモリを消費します — モデルの重みとは別にです。つまり24GBのVRAMがあっても、長い会話中にメモリ不足になる可能性があります。

実用的なアドバイス：

OOMエラーが出たらコンテキスト長を減らす。262Kトークンが常に必要なわけではない
Ollamaでは num_ctx でコンテキストを制限: ollama run gemma4:31b --num-ctx 4096
ほとんどのタスクでは4K〜8Kコンテキストで十分

自分のPCで動く？

具体的なハードウェア別の対応状況：

MacBook Air M2 (8GB)

モデル	動作可能？	備考
E2B	はい	快適、高速レスポンス
E4B	はい	良好なパフォーマンス、ベストバランス
26B	いいえ	ユニファイドメモリ不足
31B	いいえ	全く足りない

結論： E4Bがベスト。8GBマシンでも驚くほどの実力。

MacBook Pro M3/M4 (16GB)

モデル	動作可能？	備考
E2B	はい	余裕だが高速
E4B	はい	優秀なパフォーマンス
26B	はい（4-bit）	動くがメモリはきつい。他のアプリは閉じて
31B	いいえ	メモリ不足

結論： 26B MoEモデルが4-bit量子化で動作します。ノートPCで本格的なモデルが動く — 26B vs 31B比較でトレードオフを理解しましょう。ただしChromeで50タブ開きながらは無理です。

MacBook Pro M3/M4 (36GB/48GB)

モデル	動作可能？	備考
E2B	はい	かなり余裕
E4B	はい	高速で快適
26B	はい	8-bitでも快適
31B	はい（4-bit、36GB）	きついが動く

結論： 大型モデル実行のスイートスポット。36GBなら31B 4-bitまで対応。48GBなら余裕。

Mac Studio M2 Ultra (64GB以上)

モデル	動作可能？	備考
全モデル	はい	妥協なし

結論： 31B 8-bitを含め、すべてのGemma 4モデルが快適に動作。M2 Ultraのユニファイドメモリアーキテクチャがこのワークロードに最適。

ゲーミングPC — RTX 3060 (12GB VRAM)

モデル	動作可能？	備考
E2B	はい	GPUアクセラレーション、非常に高速
E4B	はい	高速推論
26B	はい（4-bit）	12GB VRAMに収まる
31B	いいえ	20GB以上のVRAMが必要

結論： RTX 3060は価格の割にAI用途で優秀なカード。12GB VRAMで26Bモデルが4-bitで快適に動作。

ゲーミングPC — RTX 4090 (24GB VRAM)

モデル	動作可能？	備考
E2B	はい	超高速
E4B	はい	超高速
26B	はい	8-bitでも快適
31B	はい（4-bit）	KVキャッシュ分の余裕あり

結論： AI向けコンシューマGPUの王者。Gemma 4の全モデルが動作。31Bモデルも4-bitで合理的なコンテキスト長で収まる。

クラウド — A100 (80GB VRAM)

モデル	動作可能？	備考
全モデル	はい	フルスピード、フル精度

結論： 最高のパフォーマンスやフル精度モデルが必要ならA100をレンタル。Google Cloud、AWS、Lambda Labs、RunPodで利用可能。

CPU専用：動くが遅い

GPUなし？CPUだけでもGemma 4は動きます。ただし速度に覚悟を：

E2B（CPU）: 約5-10トークン/秒。十分使える。
E4B（CPU）: 約2-5トークン/秒。使えるが忍耐が必要。
26B（CPU）: 約0.5-2トークン/秒。かなり遅いが技術的には動く。
31B（CPU）: やめておきましょう。ほとんどのマシンで1トークン/秒以下。

CPU推論はGPU推論の2〜10倍遅いです。Apple SiliconはIntel/AMDよりCPU推論が得意で、ユニファイドメモリアーキテクチャとNeural Engineのおかげです。

量子化：どのフォーマットを使う？

Ollamaなら量子化は自動処理されます。Hugging FaceからGGUFファイルをダウンロードする場合：

フォーマット	FP16比サイズ	品質	速度	使い時
Q4_K_M	約25%	95-97%	最速	おすすめデフォルト。ベストバランス
Q5_K_M	約35%	97-98%	高速	品質を少し上げたい場合
Q6_K	約50%	98-99%	中速	品質がより重要な場合
Q8_0	約65%	99%+	低速	ほぼロスレス、RAMに余裕が必要
FP16	100%	100%	最低速	VRAMが十分にある場合のみ

おすすめ：Q4_K_M。 コミュニティが収束したスイートスポットです。品質低下はわずかで、最高のパフォーマンスと最小ファイルサイズが得られます。VRAMに余裕があればQ5_K_Mがわずかに品質向上。

パフォーマンスを最大限引き出すコツ

全プラットフォーム対応の包括的な最適化ウォークスルーは速度最適化ガイドをご覧ください。

他のアプリを閉じる。 特にブラウザ。Chromeだけで2〜4GBのRAMを消費します。26B以上のモデルを動かすときは1GBでも大事。

コンテキスト長を減らす。 メモリ不足エラーが出たら、コンテキストウィンドウを制限。ほとんどの会話に262Kトークンは必要ありません。num_ctx を4096か8192に設定。

Metal (Mac) またはCUDA (NVIDIA) を使う。 GPUアクセラレーションが有効になっているか確認。Ollamaは自動で対応しますが、他のツールではバックエンド設定を確認。

メモリ使用量を監視。 Macならアクティビティモニタ、Linuxなら nvidia-smi でGPUメモリ確認。スワップが発生していたらパフォーマンスは急降下。

レイヤーのオフロードを検討。 llama.cppなどのツールでは一部のレイヤーをGPU、残りをCPUに配置可能。GPUに少し大きすぎるモデルを動かせますが、フルGPU推論よりは遅い。

何を買うべき？

AI向けハードウェアを買うなら、予算別のおすすめ：

予算	おすすめ	動かせるモデル
¥0	既存のノートPC + E4B	E2B, E4B
¥3〜6万	中古RTX 3060 12GB	26Bまで（4-bit）
¥7〜12万	RTX 4060 Ti 16GB	26Bまで（8-bit）
¥15〜23万	RTX 4090 24GB	31Bまで（4-bit）
¥30〜60万	Mac Studio M2 Pro/Max 32-64GB	全モデル快適
¥75万以上	Mac Studio M2 Ultra 64GB+	すべて妥協なし
従量課金	クラウドA100（約¥150-300/時）	すべてフルスピード