自分のPCでGemma 4は動く?(RAM・GPU必要スペック)

4月 7, 2026

「自分のPCで動く?」— 誰もが最初に聞く質問です。答えは、どのGemma 4モデルを動かしたいか、どんなハードウェアを持っているかによります。混乱を解消して、具体的な数字をお伝えします。

ハードウェア要件一覧

各モデルの量子化レベル別の必要スペック:

モデル4-bit (Q4)8-bit (Q8)16-bit (FP16)最小RAM/VRAM
E2B (2B)約1.5GB約2.5GB約4GB4GB RAM
E4B (4B)約3GB約5GB約8GB6GB RAM
26B MoE約8GB約18GB約28GB8GB VRAM
31B Dense約20GB約34GB約62GB20GB VRAM

「量子化」とは? モデルの数値精度を下げて圧縮する手法です。4-bitが最も圧縮され(最小・最速・やや精度低下)、16-bitがフル精度(最大・最高精度・最もメモリ消費)。ほとんどの人には4-bitがベスト — 品質の差はほとんどわかりません。

KVキャッシュの落とし穴

ほとんどのガイドが触れないポイント。モデルの重みはメモリ使用量の一部に過ぎません。Gemma 4が長い会話を処理するとき、過去のトークンのアテンション情報を保存するKVキャッシュ(キー・バリューキャッシュ)が蓄積されます。

31Bモデルでフル262Kコンテキスト長を使用すると、KVキャッシュだけで約22GBのメモリを消費します — モデルの重みとは別にです。つまり24GBのVRAMがあっても、長い会話中にメモリ不足になる可能性があります。

実用的なアドバイス:

  • OOMエラーが出たらコンテキスト長を減らす。262Kトークンが常に必要なわけではない
  • Ollamaでは num_ctx でコンテキストを制限: ollama run gemma4:31b --num-ctx 4096
  • ほとんどのタスクでは4K〜8Kコンテキストで十分

自分のPCで動く?

具体的なハードウェア別の対応状況:

MacBook Air M2 (8GB)

モデル動作可能?備考
E2Bはい快適、高速レスポンス
E4Bはい良好なパフォーマンス、ベストバランス
26Bいいえユニファイドメモリ不足
31Bいいえ全く足りない

結論: E4Bがベスト。8GBマシンでも驚くほどの実力。

MacBook Pro M3/M4 (16GB)

モデル動作可能?備考
E2Bはい余裕だが高速
E4Bはい優秀なパフォーマンス
26Bはい(4-bit)動くがメモリはきつい。他のアプリは閉じて
31Bいいえメモリ不足

結論: 26B MoEモデルが4-bit量子化で動作します。ノートPCで本格的なモデルが動く — 26B vs 31B比較でトレードオフを理解しましょう。ただしChromeで50タブ開きながらは無理です。

MacBook Pro M3/M4 (36GB/48GB)

モデル動作可能?備考
E2Bはいかなり余裕
E4Bはい高速で快適
26Bはい8-bitでも快適
31Bはい(4-bit、36GB)きついが動く

結論: 大型モデル実行のスイートスポット。36GBなら31B 4-bitまで対応。48GBなら余裕。

Mac Studio M2 Ultra (64GB以上)

モデル動作可能?備考
全モデルはい妥協なし

結論: 31B 8-bitを含め、すべてのGemma 4モデルが快適に動作。M2 Ultraのユニファイドメモリアーキテクチャがこのワークロードに最適。

ゲーミングPC — RTX 3060 (12GB VRAM)

モデル動作可能?備考
E2BはいGPUアクセラレーション、非常に高速
E4Bはい高速推論
26Bはい(4-bit)12GB VRAMに収まる
31Bいいえ20GB以上のVRAMが必要

結論: RTX 3060は価格の割にAI用途で優秀なカード。12GB VRAMで26Bモデルが4-bitで快適に動作。

ゲーミングPC — RTX 4090 (24GB VRAM)

モデル動作可能?備考
E2Bはい超高速
E4Bはい超高速
26Bはい8-bitでも快適
31Bはい(4-bit)KVキャッシュ分の余裕あり

結論: AI向けコンシューマGPUの王者。Gemma 4の全モデルが動作。31Bモデルも4-bitで合理的なコンテキスト長で収まる。

クラウド — A100 (80GB VRAM)

モデル動作可能?備考
全モデルはいフルスピード、フル精度

結論: 最高のパフォーマンスやフル精度モデルが必要ならA100をレンタル。Google Cloud、AWS、Lambda Labs、RunPodで利用可能。

CPU専用:動くが遅い

GPUなし?CPUだけでもGemma 4は動きます。ただし速度に覚悟を:

  • E2B(CPU): 約5-10トークン/秒。十分使える。
  • E4B(CPU): 約2-5トークン/秒。使えるが忍耐が必要。
  • 26B(CPU): 約0.5-2トークン/秒。かなり遅いが技術的には動く。
  • 31B(CPU): やめておきましょう。ほとんどのマシンで1トークン/秒以下。

CPU推論はGPU推論の2〜10倍遅いです。Apple SiliconはIntel/AMDよりCPU推論が得意で、ユニファイドメモリアーキテクチャとNeural Engineのおかげです。

量子化:どのフォーマットを使う?

Ollamaなら量子化は自動処理されます。Hugging FaceからGGUFファイルをダウンロードする場合:

フォーマットFP16比サイズ品質速度使い時
Q4_K_M約25%95-97%最速おすすめデフォルト。 ベストバランス
Q5_K_M約35%97-98%高速品質を少し上げたい場合
Q6_K約50%98-99%中速品質がより重要な場合
Q8_0約65%99%+低速ほぼロスレス、RAMに余裕が必要
FP16100%100%最低速VRAMが十分にある場合のみ

おすすめ:Q4_K_M。 コミュニティが収束したスイートスポットです。品質低下はわずかで、最高のパフォーマンスと最小ファイルサイズが得られます。VRAMに余裕があればQ5_K_Mがわずかに品質向上。

パフォーマンスを最大限引き出すコツ

全プラットフォーム対応の包括的な最適化ウォークスルーは速度最適化ガイドをご覧ください。

他のアプリを閉じる。 特にブラウザ。Chromeだけで2〜4GBのRAMを消費します。26B以上のモデルを動かすときは1GBでも大事。

コンテキスト長を減らす。 メモリ不足エラーが出たら、コンテキストウィンドウを制限。ほとんどの会話に262Kトークンは必要ありません。num_ctx を4096か8192に設定。

Metal (Mac) またはCUDA (NVIDIA) を使う。 GPUアクセラレーションが有効になっているか確認。Ollamaは自動で対応しますが、他のツールではバックエンド設定を確認。

メモリ使用量を監視。 Macならアクティビティモニタ、Linuxなら nvidia-smi でGPUメモリ確認。スワップが発生していたらパフォーマンスは急降下。

レイヤーのオフロードを検討。 llama.cppなどのツールでは一部のレイヤーをGPU、残りをCPUに配置可能。GPUに少し大きすぎるモデルを動かせますが、フルGPU推論よりは遅い。

何を買うべき?

AI向けハードウェアを買うなら、予算別のおすすめ:

予算おすすめ動かせるモデル
¥0既存のノートPC + E4BE2B, E4B
¥3〜6万中古RTX 3060 12GB26Bまで(4-bit)
¥7〜12万RTX 4060 Ti 16GB26Bまで(8-bit)
¥15〜23万RTX 4090 24GB31Bまで(4-bit)
¥30〜60万Mac Studio M2 Pro/Max 32-64GB全モデル快適
¥75万以上Mac Studio M2 Ultra 64GB+すべて妥協なし
従量課金クラウドA100(約¥150-300/時)すべてフルスピード

コスパ最強: 中古RTX 3060 12GB。非常に安くなっており、26Bモデルが動きます。ほとんどの人にはこれで十分。

Mac最強: MacBook Pro 36GBユニファイドメモリ。31B(4-bitできつい)まで動作し、普段使いにも最高のノートPC。

ローカル不要? ハードウェアを省略してGemma 4 APIを使いましょう。Google AI Studioなら無料でハードウェア要件なし。

クイック判断フローチャート

  1. 4GB RAMありますか? → E2Bが動きます。
  2. 8GB RAMありますか? → E4Bを動かしましょう。本当に良いです。
  3. 8GB以上VRAMのGPUがありますか? → 26Bを4-bitで。品質が大幅に向上。
  4. 20GB以上VRAMありますか? → 31B。トップクラスのローカルAI。
  5. 上記のどれもなし? → クラウドAPIを使いましょう。

用途に最適なモデルサイズがわからない場合はモデル比較ガイドをチェック。

次のステップ

Gemma 4 AI

Gemma 4 AI

Related Guides

自分のPCでGemma 4は動く?(RAM・GPU必要スペック) | ブログ