Gemma 4には4つのバリエーションがあり、適切なモデルを選ぶかどうかで体験は大きく変わります。大きすぎるモデルを選ぶとローディングスピナーを眺めることになり、小さすぎるモデルでは品質が足りません。あなたに最適なモデルを見つけましょう。
4つのモデル一覧
| モデル | パラメータ | アクティブパラメータ | アーキテクチャ | 最小RAM | 推奨RAM |
|---|---|---|---|---|---|
| E2B | 2B | 2B | Dense | 4 GB | 6 GB |
| E4B | 4B | 4B | Dense | 6 GB | 8 GB |
| 26B A4B | 26B | 3.8B | MoE | 8 GB | 16-18 GB |
| 31B Dense | 31B | 31B | Dense | 20 GB | 24-32 GB |
注目すべきポイント:26Bモデルは**Mixture of Experts(MoE)**です。総パラメータは260億ですが、一度にアクティブになるのは約38億だけ。つまり数字の印象よりはるかに効率的で、大型モデルの品質を小型モデルの速度で得られます。MoEアーキテクチャの詳細は26B vs 31B比較をご覧ください。
モデル別の詳細
E2B — ポケットロケット
20億パラメータ、約4GB RAM
最小のGemma 4モデル。リソースが限られた環境向けです。スマートフォン、Raspberry Pi、組み込みデバイス、深い推論は不要だが高速なレスポンスが欲しい場合に。
ollama run gemma4:e2b得意なこと:
- 手軽なテキスト生成と要約
- シンプルなQ&A
- 分類タスク
- スマートフォンやエッジデバイスでの実行
- レイテンシが深さより重要な場面
制限事項:
- 複雑な多段階推論は苦手
- クリエイティブな文章の繊細さに欠ける
- 長い会話でコンテキストを見落とすことがある
E4B — 万能選手(おすすめ)
40億パラメータ、約6GB RAM
どれを選べばいいかわからないなら、これがおすすめです。Mac、Windows、Linuxの最近のノートPCなら快適に動作し、サイズの割に驚くほど高品質です。
ollama run gemma4:e4b得意なこと:
- 汎用チャットとQ&A
- コード生成と解説
- コンテンツライティングと編集
- マルチモーダルタスク(画像+テキスト)
- ローカルAIの日常使い
デフォルト推奨の理由:
- 過去3〜4年以内のノートPCならほぼ動作
- 対話型チャットに十分な速度(Apple Siliconなら20トークン/秒以上)
- 品質が本当に良い — サイズ以上の実力
- リソース使用量が低く、他のアプリと同時に使える
26B A4B — 効率の王者
総26B、アクティブ3.8Bのみ(MoEアーキテクチャ)、約8-18GB RAM
ラインナップで最も面白いモデルです。Mixture of Expertsを使用 — Googleが260億パラメータを学習させましたが、入力ごとにアクティブになるのは約38億だけ。大型モデルの知識を小型モデルの速度で活用できます。
ollama run gemma4:26b得意なこと:
- 複雑な推論と分析
- 複数言語にわたるコーディングタスク
- 長文コンテンツ生成
- 専門的な知識に関する質問
- ラインナップ中最高の品質対FLOP比
注意点:
- アクティブパラメータは少なくても、26B全体をメモリに載せる必要あり
- GGUF Q4量子化で、コンテキスト長に応じて約8〜16GBを想定
- MoEモデルは出力品質のばらつきがやや大きい(入力によって異なるエキスパートがアクティブになるため)
こんな人に最適: 16GB以上のRAMとまともなGPU(またはApple Silicon Mac)があるなら、ラインナップ全体で最強のモデルと言えます。31Bに近い品質をE4Bの速度で得られます。
31B Dense — 最大のパワー
310億パラメータ、すべてDense、最低約20GB RAM
最大かつ最も高性能なGemma 4モデル。すべてのトークン処理が310億パラメータすべてを使います。ショートカットなし、ルーティングなし — 純粋な処理能力。
ollama run gemma4:31b得意なこと:
- 最も難しい推論タスク
- 最高品質のクリエイティブライティング
- 複雑なコード生成とデバッグ
- 研究と分析
- 品質だけが重要な場合
要件:
- 最低20GB RAM(24〜32GB推奨)
- 許容できる速度のために専用GPU強く推奨
- Q4量子化でモデルファイルは約18GB
VRAM要件(GPUユーザー)
GPUで実行する場合の必要VRAM。具体的なマシン別(MacBook、ゲーミングPC、クラウド)の詳細はハードウェア要件ガイドをご覧ください。
| モデル | Q4_K_M | Q5_K_M | Q8_0 | FP16 |
|---|---|---|---|---|
| E2B | 約1.5 GB | 約1.8 GB | 約2.5 GB | 約4 GB |
| E4B | 約3 GB | 約3.5 GB | 約5 GB | 約8 GB |
| 26B A4B | 約8 GB | 約10 GB | 約14 GB | 約52 GB |
| 31B Dense | 約18 GB | 約21 GB | 約30 GB | 約62 GB |
プロのコツ: Q4_K_M量子化がほとんどの人にベストバランスです。フル精度と比べて品質低下はわずかで、メモリ節約は大きいです。
KVキャッシュに注意
つまずきやすいポイント:メモリを消費するのはモデルの重みだけではありません。KVキャッシュ — 会話のコンテキストを保存する領域 — は、Gemma 4の巨大なコンテキストウィンドウでは膨大になります。
コミュニティの報告によると、31Bモデルで262Kコンテキストウィンドウを使用すると、KVキャッシュだけで約22GBの追加メモリを消費します。モデルの重みとは別にです。
実用的なアドバイス:
- メモリ問題が発生したら、コンテキスト長を減らしましょう:
# Ollamaでコンテキストウィンドウを制限 ollama run gemma4:31b --ctx-size 8192 - 26Bと31Bモデルでは、KVキャッシュ量子化(Q8またはQ4)の有効化でメモリ使用量を大幅削減可能
- E2BとE4Bモデルはより現実的 — 長いコンテキストでもKVキャッシュは管理可能
判断チャート:あなたのハードウェアは?
「スマートフォンかRaspberry Piです」 → E2B。これしか入りません。
「8GB RAMのノートPCです」 → E4B。快適に動作し、他のアプリも使えます。
「16GB RAMのノートPC/デスクトップです」 → 速度重視ならE4B、品質重視で少し待てるなら26B(量子化)。
「24GB以上のRAMまたは8GB以上VRAMのGPUがあります」 → 26Bがベストバランス。本当に素晴らしいモデルです。
「24GB以上VRAMのワークステーションがあります」 → 31B Denseで最高品質を。パワーを活かしましょう。
「サーバーやクラウドで使いたい」 → 予算とレイテンシ要件に応じて26Bまたは31B。
ベンチマーク比較
主要ベンチマークでの比較:
| ベンチマーク | E2B | E4B | 26B A4B | 31B Dense |
|---|---|---|---|---|
| MMLU | Good | Better | Best-tier | Best |
| HumanEval(コード) | Decent | Good | Very Good | Excellent |
| GSM8K(数学) | Basic | Good | Strong | Strongest |
| マルチモーダル(Vision) | Basic | Good | Strong | Best |
| 速度(tok/s、M3) | 約60 | 約35 | 約25 | 約8 |
26B MoEモデルが目立ちます — 31Bに近い品質スコアを約3倍の速度で出せます。MoEアーキテクチャの強みが発揮されています。
量子化:どれを選ぶ?
Hugging FaceからGGUFファイルをダウンロードすると、Q4_K_M、Q5_K_M、Q8_0などのオプションがあります:
| 量子化 | 品質低下 | サイズ削減 | おすすめ |
|---|---|---|---|
| Q4_K_M | わずか | 約75%小 | ベストなデフォルト選択 |
| Q5_K_M | 非常に少ない | 約65%小 | 余裕があれば |
| Q8_0 | ほぼなし | 約50%小 | 品質重視 |
| FP16 | なし | フルサイズ | ファインチューニング専用 |
おすすめ: Q4_K_Mから始めましょう。特定の用途で品質に問題を感じたらQ5_K_Mに上げてください。ほとんどの人は違いを本当に区別できません。
モデルのダウンロード方法はダウンロード完全ガイドをご覧ください。
次のステップ
- ダウンロードする? → Gemma 4ダウンロードガイド(全方法)
- ハードウェアを確認 → Gemma 4ハードウェア要件
- 問題が発生? → Gemma 4トラブルシューティング
- 他のモデルと比較したい? → Gemma 4 vs Llama 4 または Gemma 4 vs Qwen 3



