「自分のPCで動く?」— 誰もが最初に聞く質問です。答えは、どのGemma 4モデルを動かしたいか、どんなハードウェアを持っているかによります。混乱を解消して、具体的な数字をお伝えします。
ハードウェア要件一覧
各モデルの量子化レベル別の必要スペック:
| モデル | 4-bit (Q4) | 8-bit (Q8) | 16-bit (FP16) | 最小RAM/VRAM |
|---|---|---|---|---|
| E2B (2B) | 約1.5GB | 約2.5GB | 約4GB | 4GB RAM |
| E4B (4B) | 約3GB | 約5GB | 約8GB | 6GB RAM |
| 26B MoE | 約8GB | 約18GB | 約28GB | 8GB VRAM |
| 31B Dense | 約20GB | 約34GB | 約62GB | 20GB VRAM |
「量子化」とは? モデルの数値精度を下げて圧縮する手法です。4-bitが最も圧縮され(最小・最速・やや精度低下)、16-bitがフル精度(最大・最高精度・最もメモリ消費)。ほとんどの人には4-bitがベスト — 品質の差はほとんどわかりません。
KVキャッシュの落とし穴
ほとんどのガイドが触れないポイント。モデルの重みはメモリ使用量の一部に過ぎません。Gemma 4が長い会話を処理するとき、過去のトークンのアテンション情報を保存するKVキャッシュ(キー・バリューキャッシュ)が蓄積されます。
31Bモデルでフル262Kコンテキスト長を使用すると、KVキャッシュだけで約22GBのメモリを消費します — モデルの重みとは別にです。つまり24GBのVRAMがあっても、長い会話中にメモリ不足になる可能性があります。
実用的なアドバイス:
- OOMエラーが出たらコンテキスト長を減らす。262Kトークンが常に必要なわけではない
- Ollamaでは
num_ctxでコンテキストを制限:ollama run gemma4:31b --num-ctx 4096 - ほとんどのタスクでは4K〜8Kコンテキストで十分
自分のPCで動く?
具体的なハードウェア別の対応状況:
MacBook Air M2 (8GB)
| モデル | 動作可能? | 備考 |
|---|---|---|
| E2B | はい | 快適、高速レスポンス |
| E4B | はい | 良好なパフォーマンス、ベストバランス |
| 26B | いいえ | ユニファイドメモリ不足 |
| 31B | いいえ | 全く足りない |
結論: E4Bがベスト。8GBマシンでも驚くほどの実力。
MacBook Pro M3/M4 (16GB)
| モデル | 動作可能? | 備考 |
|---|---|---|
| E2B | はい | 余裕だが高速 |
| E4B | はい | 優秀なパフォーマンス |
| 26B | はい(4-bit) | 動くがメモリはきつい。他のアプリは閉じて |
| 31B | いいえ | メモリ不足 |
結論: 26B MoEモデルが4-bit量子化で動作します。ノートPCで本格的なモデルが動く — 26B vs 31B比較でトレードオフを理解しましょう。ただしChromeで50タブ開きながらは無理です。
MacBook Pro M3/M4 (36GB/48GB)
| モデル | 動作可能? | 備考 |
|---|---|---|
| E2B | はい | かなり余裕 |
| E4B | はい | 高速で快適 |
| 26B | はい | 8-bitでも快適 |
| 31B | はい(4-bit、36GB) | きついが動く |
結論: 大型モデル実行のスイートスポット。36GBなら31B 4-bitまで対応。48GBなら余裕。
Mac Studio M2 Ultra (64GB以上)
| モデル | 動作可能? | 備考 |
|---|---|---|
| 全モデル | はい | 妥協なし |
結論: 31B 8-bitを含め、すべてのGemma 4モデルが快適に動作。M2 Ultraのユニファイドメモリアーキテクチャがこのワークロードに最適。
ゲーミングPC — RTX 3060 (12GB VRAM)
| モデル | 動作可能? | 備考 |
|---|---|---|
| E2B | はい | GPUアクセラレーション、非常に高速 |
| E4B | はい | 高速推論 |
| 26B | はい(4-bit) | 12GB VRAMに収まる |
| 31B | いいえ | 20GB以上のVRAMが必要 |
結論: RTX 3060は価格の割にAI用途で優秀なカード。12GB VRAMで26Bモデルが4-bitで快適に動作。
ゲーミングPC — RTX 4090 (24GB VRAM)
| モデル | 動作可能? | 備考 |
|---|---|---|
| E2B | はい | 超高速 |
| E4B | はい | 超高速 |
| 26B | はい | 8-bitでも快適 |
| 31B | はい(4-bit) | KVキャッシュ分の余裕あり |
結論: AI向けコンシューマGPUの王者。Gemma 4の全モデルが動作。31Bモデルも4-bitで合理的なコンテキスト長で収まる。
クラウド — A100 (80GB VRAM)
| モデル | 動作可能? | 備考 |
|---|---|---|
| 全モデル | はい | フルスピード、フル精度 |
結論: 最高のパフォーマンスやフル精度モデルが必要ならA100をレンタル。Google Cloud、AWS、Lambda Labs、RunPodで利用可能。
CPU専用:動くが遅い
GPUなし?CPUだけでもGemma 4は動きます。ただし速度に覚悟を:
- E2B(CPU): 約5-10トークン/秒。十分使える。
- E4B(CPU): 約2-5トークン/秒。使えるが忍耐が必要。
- 26B(CPU): 約0.5-2トークン/秒。かなり遅いが技術的には動く。
- 31B(CPU): やめておきましょう。ほとんどのマシンで1トークン/秒以下。
CPU推論はGPU推論の2〜10倍遅いです。Apple SiliconはIntel/AMDよりCPU推論が得意で、ユニファイドメモリアーキテクチャとNeural Engineのおかげです。
量子化:どのフォーマットを使う?
Ollamaなら量子化は自動処理されます。Hugging FaceからGGUFファイルをダウンロードする場合:
| フォーマット | FP16比サイズ | 品質 | 速度 | 使い時 |
|---|---|---|---|---|
| Q4_K_M | 約25% | 95-97% | 最速 | おすすめデフォルト。 ベストバランス |
| Q5_K_M | 約35% | 97-98% | 高速 | 品質を少し上げたい場合 |
| Q6_K | 約50% | 98-99% | 中速 | 品質がより重要な場合 |
| Q8_0 | 約65% | 99%+ | 低速 | ほぼロスレス、RAMに余裕が必要 |
| FP16 | 100% | 100% | 最低速 | VRAMが十分にある場合のみ |
おすすめ:Q4_K_M。 コミュニティが収束したスイートスポットです。品質低下はわずかで、最高のパフォーマンスと最小ファイルサイズが得られます。VRAMに余裕があればQ5_K_Mがわずかに品質向上。
パフォーマンスを最大限引き出すコツ
全プラットフォーム対応の包括的な最適化ウォークスルーは速度最適化ガイドをご覧ください。
他のアプリを閉じる。 特にブラウザ。Chromeだけで2〜4GBのRAMを消費します。26B以上のモデルを動かすときは1GBでも大事。
コンテキスト長を減らす。 メモリ不足エラーが出たら、コンテキストウィンドウを制限。ほとんどの会話に262Kトークンは必要ありません。num_ctx を4096か8192に設定。
Metal (Mac) またはCUDA (NVIDIA) を使う。 GPUアクセラレーションが有効になっているか確認。Ollamaは自動で対応しますが、他のツールではバックエンド設定を確認。
メモリ使用量を監視。 Macならアクティビティモニタ、Linuxなら nvidia-smi でGPUメモリ確認。スワップが発生していたらパフォーマンスは急降下。
レイヤーのオフロードを検討。 llama.cppなどのツールでは一部のレイヤーをGPU、残りをCPUに配置可能。GPUに少し大きすぎるモデルを動かせますが、フルGPU推論よりは遅い。
何を買うべき?
AI向けハードウェアを買うなら、予算別のおすすめ:
| 予算 | おすすめ | 動かせるモデル |
|---|---|---|
| ¥0 | 既存のノートPC + E4B | E2B, E4B |
| ¥3〜6万 | 中古RTX 3060 12GB | 26Bまで(4-bit) |
| ¥7〜12万 | RTX 4060 Ti 16GB | 26Bまで(8-bit) |
| ¥15〜23万 | RTX 4090 24GB | 31Bまで(4-bit) |
| ¥30〜60万 | Mac Studio M2 Pro/Max 32-64GB | 全モデル快適 |
| ¥75万以上 | Mac Studio M2 Ultra 64GB+ | すべて妥協なし |
| 従量課金 | クラウドA100(約¥150-300/時) | すべてフルスピード |
コスパ最強: 中古RTX 3060 12GB。非常に安くなっており、26Bモデルが動きます。ほとんどの人にはこれで十分。
Mac最強: MacBook Pro 36GBユニファイドメモリ。31B(4-bitできつい)まで動作し、普段使いにも最高のノートPC。
ローカル不要? ハードウェアを省略してGemma 4 APIを使いましょう。Google AI Studioなら無料でハードウェア要件なし。
クイック判断フローチャート
- 4GB RAMありますか? → E2Bが動きます。
- 8GB RAMありますか? → E4Bを動かしましょう。本当に良いです。
- 8GB以上VRAMのGPUがありますか? → 26Bを4-bitで。品質が大幅に向上。
- 20GB以上VRAMありますか? → 31B。トップクラスのローカルAI。
- 上記のどれもなし? → クラウドAPIを使いましょう。
用途に最適なモデルサイズがわからない場合はモデル比較ガイドをチェック。
次のステップ
- インストールする? Ollamaセットアップガイド
- モデルを選ぶ? Gemma 4:どのモデルを使うべき?
- 問題が起きた? トラブルシューティングガイド
- ローカルをスキップしたい? APIアプローチを試す



