Gemma 4 26B vs 31B:MoE vs Dense — どちらが優れている?

4月 7, 2026

Gemma 4のハイエンドには2つの選択肢があります:26B Mixture of Experts(MoE)モデルと31B Denseモデル。動作原理が驚くほど異なり、最適な選択は何を優先するかによります。詳しく見ていきましょう。

MoEをわかりやすく説明

26B MoEモデルは総パラメータ260億ですが、ここがポイント — 全部を同時に使いません。複数の「エキスパート」サブネットワークがあり、ルーティング機構が各トークンに対してどのエキスパートを活性化するか選びます。一度のフォワードパスで実際にアクティブになるのは約38億パラメータだけ。

20人の専門医がいる病院をイメージしてください。患者が来たとき、20人全員に診てもらうのではなく、その症状に関連する2〜3人の専門医にルーティングされます。病院には20人分の知識がありますが、各診察で使われるのはスタッフの一部だけ。

MoE 26Bアーキテクチャ:
┌─────────────────────────────┐
│  ルーター: "どのエキスパート?" │
├──────┬──────┬──────┬───────┤
│ Exp1 │ Exp2 │ Exp3 │ ...   │  ← 26B 総パラメータ
├──────┴──────┴──────┴───────┤
│  トークンあたり約3.8Bだけ     │  ← 実際の計算コスト
│  アクティブ                   │
└─────────────────────────────┘

Denseの説明

31B Denseモデルはシンプル — 310億パラメータすべてがすべてのトークンに対してアクティブ。ルーティングなし、エキスパートなし、一つの大きなネットワークが毎回すべての処理を担当。

Dense 31Bアーキテクチャ:
┌─────────────────────────────┐
│  全310億パラメータがすべての   │  ← 毎トークンですべて使用
│  トークンに対してアクティブ    │
└─────────────────────────────┘

直接比較

指標26B MoE31B Dense
総パラメータ26B31B
アクティブパラメータ約3.8B31B
VRAM (FP16)約52 GB約62 GB
VRAM (Q4_K_M)約15 GB約18 GB
速度 (tok/s、RTX 4090)約45約18
速度 (tok/s、M3 Max 36GB)約25約10

ベンチマーク比較

ベンチマーク26B MoE31B Dense勝者
MMLU79.581.3Dense (+1.8)
HumanEval75.277.1Dense (+1.9)
GSM8K87.088.9Dense (+1.9)
MATH52.154.8Dense (+2.7)
ARC-Challenge68.369.1Dense (+0.8)
平均72.474.2Dense (+1.8 avg)

Denseモデルが生の品質では全般的に勝利していますが、差は小さい — 通常1〜3ポイント。問題は、このわずかな品質差が劇的な速度差を正当化するかどうかです。

速度比較

MoEが輝くポイント。トークンあたり3.8Bのパラメータしかアクティブにならないため、推論が劇的に速い:

ハードウェア26B MoE Q4 (tok/s)31B Dense Q4 (tok/s)MoE速度差
RTX 4090 24GB約45約182.5倍速い
RTX 3090 24GB約30約122.5倍速い
M3 Max 36GB約25約102.5倍速い
M4 Max 48GB約32約142.3倍速い

MoEモデルは一貫して2〜2.5倍速い。対話型の用途でレスポンスを待つ場合、この差は大きい。

VRAM比較

MoEの注意点 — 3.8Bしかアクティブにならなくても、26B全体をメモリにロードする必要があります:

フォーマット26B MoE31B Dense差分
FP16約52 GB約62 GBMoEが約10 GB節約
Q8_0約28 GB約33 GBMoEが約5 GB節約
Q5_K_M約19 GB約22 GBMoEが約3 GB節約
Q4_K_M約15 GB約18 GBMoEが約3 GB節約

MoEはどの量子化レベルでもDenseより少ないVRAMで済みますが、節約幅は速度差ほど劇的ではありません。どちらもフル精度では本格的なハードウェアが必要。

用途別のおすすめ

26B MoEを選ぶべき場面:

  • 対話型チャットとコーディング支援 — 2.5倍の速度アドバンテージで会話が自然に
  • 複数ユーザー向けAPIサービング — 高速推論 = スループット向上、クエリ単価低下
  • ハードウェアがボトルネック — VRAMがやや少なくて済み、はるかに高速
  • 「十分な品質」でOK — ほとんどの実用タスクで1〜2ポイントのベンチマーク差は問題にならない
  • コンシューマハードウェアで実行 — 16GB GPUでQ4 MoEは実用的

31B Denseを選ぶべき場面:

  • ファインチューニング — DenseモデルはMoEよりファインチューニングが素直、エキスパートルーティングが複雑さを追加
  • 難しいタスクで最高品質 — 数学、推論、コード生成で最後の1ポイントが必要な場合
  • バッチ処理 — オフラインで処理しトークン単位の速度を気にしない場合
  • 研究と評価 — 絶対的に最良のベースラインが必要な場合
  • シンプルなデプロイ — DenseモデルはフレームワークサポートがI広く、エッジケースが少ない

クイック判断表

優先事項おすすめ
速度26B MoE
品質31B Dense
コスト効率26B MoE
ファインチューニング31B Dense
対話的な使用26B MoE
オフラインバッチ処理31B Dense

フレームワークサポート

すべてのフレームワークがMoEモデルを同等に扱えるわけではありません:

フレームワークMoEサポートDenseサポート
Ollama対応対応
llama.cpp対応対応
vLLM対応対応
SGLang対応対応
LM Studio部分的対応
TensorRT-LLM対応対応
transformers対応対応

MoEサポートは大幅に成熟していますが、特定のフレームワークで問題が発生した場合、Denseの方が安全な選択。

次のステップ

ほとんどの人には26B MoEがベターな選択です。品質のトレードオフはわずかで2.5倍速い。31B Denseはファインチューニングや、最高品質が本当に必要でレスポンスを待てる場合に取っておきましょう。

Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 26B vs 31B:MoE vs Dense — どちらが優れている? | ブログ