Gemma 4のハイエンドには2つの選択肢があります:26B Mixture of Experts(MoE)モデルと31B Denseモデル。動作原理が驚くほど異なり、最適な選択は何を優先するかによります。詳しく見ていきましょう。
MoEをわかりやすく説明
26B MoEモデルは総パラメータ260億ですが、ここがポイント — 全部を同時に使いません。複数の「エキスパート」サブネットワークがあり、ルーティング機構が各トークンに対してどのエキスパートを活性化するか選びます。一度のフォワードパスで実際にアクティブになるのは約38億パラメータだけ。
20人の専門医がいる病院をイメージしてください。患者が来たとき、20人全員に診てもらうのではなく、その症状に関連する2〜3人の専門医にルーティングされます。病院には20人分の知識がありますが、各診察で使われるのはスタッフの一部だけ。
MoE 26Bアーキテクチャ:
┌─────────────────────────────┐
│ ルーター: "どのエキスパート?" │
├──────┬──────┬──────┬───────┤
│ Exp1 │ Exp2 │ Exp3 │ ... │ ← 26B 総パラメータ
├──────┴──────┴──────┴───────┤
│ トークンあたり約3.8Bだけ │ ← 実際の計算コスト
│ アクティブ │
└─────────────────────────────┘Denseの説明
31B Denseモデルはシンプル — 310億パラメータすべてがすべてのトークンに対してアクティブ。ルーティングなし、エキスパートなし、一つの大きなネットワークが毎回すべての処理を担当。
Dense 31Bアーキテクチャ:
┌─────────────────────────────┐
│ 全310億パラメータがすべての │ ← 毎トークンですべて使用
│ トークンに対してアクティブ │
└─────────────────────────────┘直接比較
| 指標 | 26B MoE | 31B Dense |
|---|---|---|
| 総パラメータ | 26B | 31B |
| アクティブパラメータ | 約3.8B | 31B |
| VRAM (FP16) | 約52 GB | 約62 GB |
| VRAM (Q4_K_M) | 約15 GB | 約18 GB |
| 速度 (tok/s、RTX 4090) | 約45 | 約18 |
| 速度 (tok/s、M3 Max 36GB) | 約25 | 約10 |
ベンチマーク比較
| ベンチマーク | 26B MoE | 31B Dense | 勝者 |
|---|---|---|---|
| MMLU | 79.5 | 81.3 | Dense (+1.8) |
| HumanEval | 75.2 | 77.1 | Dense (+1.9) |
| GSM8K | 87.0 | 88.9 | Dense (+1.9) |
| MATH | 52.1 | 54.8 | Dense (+2.7) |
| ARC-Challenge | 68.3 | 69.1 | Dense (+0.8) |
| 平均 | 72.4 | 74.2 | Dense (+1.8 avg) |
Denseモデルが生の品質では全般的に勝利していますが、差は小さい — 通常1〜3ポイント。問題は、このわずかな品質差が劇的な速度差を正当化するかどうかです。
速度比較
MoEが輝くポイント。トークンあたり3.8Bのパラメータしかアクティブにならないため、推論が劇的に速い:
| ハードウェア | 26B MoE Q4 (tok/s) | 31B Dense Q4 (tok/s) | MoE速度差 |
|---|---|---|---|
| RTX 4090 24GB | 約45 | 約18 | 2.5倍速い |
| RTX 3090 24GB | 約30 | 約12 | 2.5倍速い |
| M3 Max 36GB | 約25 | 約10 | 2.5倍速い |
| M4 Max 48GB | 約32 | 約14 | 2.3倍速い |
MoEモデルは一貫して2〜2.5倍速い。対話型の用途でレスポンスを待つ場合、この差は大きい。
VRAM比較
MoEの注意点 — 3.8Bしかアクティブにならなくても、26B全体をメモリにロードする必要があります:
| フォーマット | 26B MoE | 31B Dense | 差分 |
|---|---|---|---|
| FP16 | 約52 GB | 約62 GB | MoEが約10 GB節約 |
| Q8_0 | 約28 GB | 約33 GB | MoEが約5 GB節約 |
| Q5_K_M | 約19 GB | 約22 GB | MoEが約3 GB節約 |
| Q4_K_M | 約15 GB | 約18 GB | MoEが約3 GB節約 |
MoEはどの量子化レベルでもDenseより少ないVRAMで済みますが、節約幅は速度差ほど劇的ではありません。どちらもフル精度では本格的なハードウェアが必要。
用途別のおすすめ
26B MoEを選ぶべき場面:
- 対話型チャットとコーディング支援 — 2.5倍の速度アドバンテージで会話が自然に
- 複数ユーザー向けAPIサービング — 高速推論 = スループット向上、クエリ単価低下
- ハードウェアがボトルネック — VRAMがやや少なくて済み、はるかに高速
- 「十分な品質」でOK — ほとんどの実用タスクで1〜2ポイントのベンチマーク差は問題にならない
- コンシューマハードウェアで実行 — 16GB GPUでQ4 MoEは実用的
31B Denseを選ぶべき場面:
- ファインチューニング — DenseモデルはMoEよりファインチューニングが素直、エキスパートルーティングが複雑さを追加
- 難しいタスクで最高品質 — 数学、推論、コード生成で最後の1ポイントが必要な場合
- バッチ処理 — オフラインで処理しトークン単位の速度を気にしない場合
- 研究と評価 — 絶対的に最良のベースラインが必要な場合
- シンプルなデプロイ — DenseモデルはフレームワークサポートがI広く、エッジケースが少ない
クイック判断表
| 優先事項 | おすすめ |
|---|---|
| 速度 | 26B MoE |
| 品質 | 31B Dense |
| コスト効率 | 26B MoE |
| ファインチューニング | 31B Dense |
| 対話的な使用 | 26B MoE |
| オフラインバッチ処理 | 31B Dense |
フレームワークサポート
すべてのフレームワークがMoEモデルを同等に扱えるわけではありません:
| フレームワーク | MoEサポート | Denseサポート |
|---|---|---|
| Ollama | 対応 | 対応 |
| llama.cpp | 対応 | 対応 |
| vLLM | 対応 | 対応 |
| SGLang | 対応 | 対応 |
| LM Studio | 部分的 | 対応 |
| TensorRT-LLM | 対応 | 対応 |
| transformers | 対応 | 対応 |
MoEサポートは大幅に成熟していますが、特定のフレームワークで問題が発生した場合、Denseの方が安全な選択。
次のステップ
- まだモデルサイズで迷っている? どのGemma 4モデルを選ぶべき?で小型モデルを含む全ラインナップを解説
- 量子化オプションを理解したい? GGUFガイドでQ4/Q5/Q8の比較
- さっそく動かしたい? Ollamaチュートリアルに従って数分で開始
ほとんどの人には26B MoEがベターな選択です。品質のトレードオフはわずかで2.5倍速い。31B Denseはファインチューニングや、最高品質が本当に必要でレスポンスを待てる場合に取っておきましょう。



