Gemma 4 26B vs 31B：MoE vs Dense — どちらが優れている？

Gemma 4のハイエンドには2つの選択肢があります：26B Mixture of Experts（MoE）モデルと31B Denseモデル。動作原理が驚くほど異なり、最適な選択は何を優先するかによります。詳しく見ていきましょう。

MoEをわかりやすく説明

26B MoEモデルは総パラメータ260億ですが、ここがポイント — 全部を同時に使いません。複数の「エキスパート」サブネットワークがあり、ルーティング機構が各トークンに対してどのエキスパートを活性化するか選びます。一度のフォワードパスで実際にアクティブになるのは約38億パラメータだけ。

20人の専門医がいる病院をイメージしてください。患者が来たとき、20人全員に診てもらうのではなく、その症状に関連する2〜3人の専門医にルーティングされます。病院には20人分の知識がありますが、各診察で使われるのはスタッフの一部だけ。

MoE 26Bアーキテクチャ:
┌─────────────────────────────┐
│  ルーター: "どのエキスパート？" │
├──────┬──────┬──────┬───────┤
│ Exp1 │ Exp2 │ Exp3 │ ...   │  ← 26B 総パラメータ
├──────┴──────┴──────┴───────┤
│  トークンあたり約3.8Bだけ     │  ← 実際の計算コスト
│  アクティブ                   │
└─────────────────────────────┘

Denseの説明

31B Denseモデルはシンプル — 310億パラメータすべてがすべてのトークンに対してアクティブ。ルーティングなし、エキスパートなし、一つの大きなネットワークが毎回すべての処理を担当。

Dense 31Bアーキテクチャ:
┌─────────────────────────────┐
│  全310億パラメータがすべての   │  ← 毎トークンですべて使用
│  トークンに対してアクティブ    │
└─────────────────────────────┘

直接比較

指標	26B MoE	31B Dense
総パラメータ	26B	31B
アクティブパラメータ	約3.8B	31B
VRAM (FP16)	約52 GB	約62 GB
VRAM (Q4_K_M)	約15 GB	約18 GB
速度 (tok/s、RTX 4090)	約45	約18
速度 (tok/s、M3 Max 36GB)	約25	約10

ベンチマーク比較

ベンチマーク	26B MoE	31B Dense	勝者
MMLU	79.5	81.3	Dense (+1.8)
HumanEval	75.2	77.1	Dense (+1.9)
GSM8K	87.0	88.9	Dense (+1.9)
MATH	52.1	54.8	Dense (+2.7)
ARC-Challenge	68.3	69.1	Dense (+0.8)
平均	72.4	74.2	Dense (+1.8 avg)

Denseモデルが生の品質では全般的に勝利していますが、差は小さい — 通常1〜3ポイント。問題は、このわずかな品質差が劇的な速度差を正当化するかどうかです。

速度比較

MoEが輝くポイント。トークンあたり3.8Bのパラメータしかアクティブにならないため、推論が劇的に速い：

ハードウェア	26B MoE Q4 (tok/s)	31B Dense Q4 (tok/s)	MoE速度差
RTX 4090 24GB	約45	約18	2.5倍速い
RTX 3090 24GB	約30	約12	2.5倍速い
M3 Max 36GB	約25	約10	2.5倍速い
M4 Max 48GB	約32	約14	2.3倍速い

MoEモデルは一貫して2〜2.5倍速い。対話型の用途でレスポンスを待つ場合、この差は大きい。

VRAM比較

MoEの注意点 — 3.8Bしかアクティブにならなくても、26B全体をメモリにロードする必要があります：

フォーマット	26B MoE	31B Dense	差分
FP16	約52 GB	約62 GB	MoEが約10 GB節約
Q8_0	約28 GB	約33 GB	MoEが約5 GB節約
Q5_K_M	約19 GB	約22 GB	MoEが約3 GB節約
Q4_K_M	約15 GB	約18 GB	MoEが約3 GB節約

MoEはどの量子化レベルでもDenseより少ないVRAMで済みますが、節約幅は速度差ほど劇的ではありません。どちらもフル精度では本格的なハードウェアが必要。

用途別のおすすめ

26B MoEを選ぶべき場面：

対話型チャットとコーディング支援 — 2.5倍の速度アドバンテージで会話が自然に
複数ユーザー向けAPIサービング — 高速推論 = スループット向上、クエリ単価低下
ハードウェアがボトルネック — VRAMがやや少なくて済み、はるかに高速
「十分な品質」でOK — ほとんどの実用タスクで1〜2ポイントのベンチマーク差は問題にならない
コンシューマハードウェアで実行 — 16GB GPUでQ4 MoEは実用的

31B Denseを選ぶべき場面：

ファインチューニング — DenseモデルはMoEよりファインチューニングが素直、エキスパートルーティングが複雑さを追加
難しいタスクで最高品質 — 数学、推論、コード生成で最後の1ポイントが必要な場合
バッチ処理 — オフラインで処理しトークン単位の速度を気にしない場合
研究と評価 — 絶対的に最良のベースラインが必要な場合
シンプルなデプロイ — DenseモデルはフレームワークサポートがI広く、エッジケースが少ない

クイック判断表

優先事項	おすすめ
速度	26B MoE
品質	31B Dense
コスト効率	26B MoE
ファインチューニング	31B Dense
対話的な使用	26B MoE
オフラインバッチ処理	31B Dense