Gemma 4はどのモデルを選ぶべき?(E2B vs E4B vs 26B vs 31B)

4月 7, 2026

Gemma 4には4つのバリエーションがあり、適切なモデルを選ぶかどうかで体験は大きく変わります。大きすぎるモデルを選ぶとローディングスピナーを眺めることになり、小さすぎるモデルでは品質が足りません。あなたに最適なモデルを見つけましょう。

4つのモデル一覧

モデルパラメータアクティブパラメータアーキテクチャ最小RAM推奨RAM
E2B2B2BDense4 GB6 GB
E4B4B4BDense6 GB8 GB
26B A4B26B3.8BMoE8 GB16-18 GB
31B Dense31B31BDense20 GB24-32 GB

注目すべきポイント:26Bモデルは**Mixture of Experts(MoE)**です。総パラメータは260億ですが、一度にアクティブになるのは約38億だけ。つまり数字の印象よりはるかに効率的で、大型モデルの品質を小型モデルの速度で得られます。MoEアーキテクチャの詳細は26B vs 31B比較をご覧ください。

モデル別の詳細

E2B — ポケットロケット

20億パラメータ、約4GB RAM

最小のGemma 4モデル。リソースが限られた環境向けです。スマートフォン、Raspberry Pi、組み込みデバイス、深い推論は不要だが高速なレスポンスが欲しい場合に。

ollama run gemma4:e2b

得意なこと:

  • 手軽なテキスト生成と要約
  • シンプルなQ&A
  • 分類タスク
  • スマートフォンやエッジデバイスでの実行
  • レイテンシが深さより重要な場面

制限事項:

  • 複雑な多段階推論は苦手
  • クリエイティブな文章の繊細さに欠ける
  • 長い会話でコンテキストを見落とすことがある

E4B — 万能選手(おすすめ)

40億パラメータ、約6GB RAM

どれを選べばいいかわからないなら、これがおすすめです。Mac、Windows、Linuxの最近のノートPCなら快適に動作し、サイズの割に驚くほど高品質です。

ollama run gemma4:e4b

得意なこと:

  • 汎用チャットとQ&A
  • コード生成と解説
  • コンテンツライティングと編集
  • マルチモーダルタスク(画像+テキスト)
  • ローカルAIの日常使い

デフォルト推奨の理由:

  • 過去3〜4年以内のノートPCならほぼ動作
  • 対話型チャットに十分な速度(Apple Siliconなら20トークン/秒以上)
  • 品質が本当に良い — サイズ以上の実力
  • リソース使用量が低く、他のアプリと同時に使える

26B A4B — 効率の王者

総26B、アクティブ3.8Bのみ(MoEアーキテクチャ)、約8-18GB RAM

ラインナップで最も面白いモデルです。Mixture of Expertsを使用 — Googleが260億パラメータを学習させましたが、入力ごとにアクティブになるのは約38億だけ。大型モデルの知識を小型モデルの速度で活用できます。

ollama run gemma4:26b

得意なこと:

  • 複雑な推論と分析
  • 複数言語にわたるコーディングタスク
  • 長文コンテンツ生成
  • 専門的な知識に関する質問
  • ラインナップ中最高の品質対FLOP比

注意点:

  • アクティブパラメータは少なくても、26B全体をメモリに載せる必要あり
  • GGUF Q4量子化で、コンテキスト長に応じて約8〜16GBを想定
  • MoEモデルは出力品質のばらつきがやや大きい(入力によって異なるエキスパートがアクティブになるため)

こんな人に最適: 16GB以上のRAMとまともなGPU(またはApple Silicon Mac)があるなら、ラインナップ全体で最強のモデルと言えます。31Bに近い品質をE4Bの速度で得られます。

31B Dense — 最大のパワー

310億パラメータ、すべてDense、最低約20GB RAM

最大かつ最も高性能なGemma 4モデル。すべてのトークン処理が310億パラメータすべてを使います。ショートカットなし、ルーティングなし — 純粋な処理能力。

ollama run gemma4:31b

得意なこと:

  • 最も難しい推論タスク
  • 最高品質のクリエイティブライティング
  • 複雑なコード生成とデバッグ
  • 研究と分析
  • 品質だけが重要な場合

要件:

  • 最低20GB RAM(24〜32GB推奨)
  • 許容できる速度のために専用GPU強く推奨
  • Q4量子化でモデルファイルは約18GB

VRAM要件(GPUユーザー)

GPUで実行する場合の必要VRAM。具体的なマシン別(MacBook、ゲーミングPC、クラウド)の詳細はハードウェア要件ガイドをご覧ください。

モデルQ4_K_MQ5_K_MQ8_0FP16
E2B約1.5 GB約1.8 GB約2.5 GB約4 GB
E4B約3 GB約3.5 GB約5 GB約8 GB
26B A4B約8 GB約10 GB約14 GB約52 GB
31B Dense約18 GB約21 GB約30 GB約62 GB

プロのコツ: Q4_K_M量子化がほとんどの人にベストバランスです。フル精度と比べて品質低下はわずかで、メモリ節約は大きいです。

KVキャッシュに注意

つまずきやすいポイント:メモリを消費するのはモデルの重みだけではありません。KVキャッシュ — 会話のコンテキストを保存する領域 — は、Gemma 4の巨大なコンテキストウィンドウでは膨大になります。

コミュニティの報告によると、31Bモデルで262Kコンテキストウィンドウを使用すると、KVキャッシュだけで約22GBの追加メモリを消費します。モデルの重みとは別にです。

実用的なアドバイス:

  • メモリ問題が発生したら、コンテキスト長を減らしましょう:
    # Ollamaでコンテキストウィンドウを制限
    ollama run gemma4:31b --ctx-size 8192
  • 26Bと31Bモデルでは、KVキャッシュ量子化(Q8またはQ4)の有効化でメモリ使用量を大幅削減可能
  • E2BとE4Bモデルはより現実的 — 長いコンテキストでもKVキャッシュは管理可能

判断チャート:あなたのハードウェアは?

「スマートフォンかRaspberry Piです」 → E2B。これしか入りません。

「8GB RAMのノートPCです」 → E4B。快適に動作し、他のアプリも使えます。

「16GB RAMのノートPC/デスクトップです」 → 速度重視ならE4B、品質重視で少し待てるなら26B(量子化)。

「24GB以上のRAMまたは8GB以上VRAMのGPUがあります」 → 26Bがベストバランス。本当に素晴らしいモデルです。

「24GB以上VRAMのワークステーションがあります」 → 31B Denseで最高品質を。パワーを活かしましょう。

「サーバーやクラウドで使いたい」 → 予算とレイテンシ要件に応じて26Bまたは31B。

ベンチマーク比較

主要ベンチマークでの比較:

ベンチマークE2BE4B26B A4B31B Dense
MMLUGoodBetterBest-tierBest
HumanEval(コード)DecentGoodVery GoodExcellent
GSM8K(数学)BasicGoodStrongStrongest
マルチモーダル(Vision)BasicGoodStrongBest
速度(tok/s、M3)約60約35約25約8

26B MoEモデルが目立ちます — 31Bに近い品質スコアを約3倍の速度で出せます。MoEアーキテクチャの強みが発揮されています。

量子化:どれを選ぶ?

Hugging FaceからGGUFファイルをダウンロードすると、Q4_K_M、Q5_K_M、Q8_0などのオプションがあります:

量子化品質低下サイズ削減おすすめ
Q4_K_Mわずか約75%小ベストなデフォルト選択
Q5_K_M非常に少ない約65%小余裕があれば
Q8_0ほぼなし約50%小品質重視
FP16なしフルサイズファインチューニング専用

おすすめ: Q4_K_Mから始めましょう。特定の用途で品質に問題を感じたらQ5_K_Mに上げてください。ほとんどの人は違いを本当に区別できません。

モデルのダウンロード方法はダウンロード完全ガイドをご覧ください。

次のステップ

Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4はどのモデルを選ぶべき?(E2B vs E4B vs 26B vs 31B) | ブログ