Gemma 4アーキテクチャ解説：MoE・Dense・なぜ重要か

Gemma 4の仕組みを理解するのに博士号は必要ありません。しかし、アーキテクチャの基本を知っていれば、適切なモデルを選び、なぜ自分のハードウェアで速い（または遅い）のかを理解し、より良い結果を得ることができます。

学術用語なしで解説します。

Transformerの基礎（30秒バージョン）

Gemma 4を含むすべての最新言語モデルはTransformerアーキテクチャで構築されています。知っておくべきことは：

テキストが入力される — トークン（単語の一部）として
アテンション層 — どのトークンが互いに関連しているか判断
フィードフォワード層 — それらの関係を処理
テキストが出力される — 一度に1トークンずつ

Gemma 4はこれらの層を数十段積み重ねています。層が多く、幅広いほどモデルは賢くなりますが、サイズも大きく遅くなります。

Dense vs MoE：2つのアーキテクチャ

Gemma 4には2種類あり、これがモデルラインナップで最も重要な理解ポイントです。

Denseモデル（E2B、E4B）

Denseモデルでは、すべてのパラメータがすべてのトークンに使用されます。モデルが40億パラメータなら、各単語の生成に40億すべてが発火します。

全員がすべてのタスクで働く小さなチームだと考えてください：

シンプルで予測可能な性能
すべてのパラメータがすべての応答に貢献
総サイズが小さく、実行が簡単

MoEモデル（26B、31B）

MoEはMixture of Expertsの略です。重要な洞察：すべてのトークンにすべてのパラメータは必要ありません。代わりに、モデルには専門化された「エキスパート」のコレクションがあり、ルーターが各トークンに対してどれを活性化するか決定します。

実際にはこのように見えます：

入力トークン → ルーター → 16のうち2つのエキスパートを選択 → 出力

総パラメータ：260億
トークンあたりアクティブ：約38億（26Bモデル）

専門医がいる病院のようなものです。腕を骨折して来院した場合、全医師は必要ありません — 整形外科医と、必要なら放射線科医だけです。受付（ルーター）が適切な専門医にあなたを送ります。

なぜ26Bモデルは38億のアクティブパラメータしか使わないのか

これがGemma 4の秘密兵器です。26B MoEモデルは総パラメータ260億を持ちますが、任意のトークンでアクティブなのは約38億だけ。つまり：

指標	26B MoE	同等のDense
総パラメータ	26B	26B
トークンあたりアクティブ	約3.8B	26B
速度	高速（4Bモデル並み）	遅い（7倍の計算）
品質	26B Denseレベルに近い	フル26B品質
必要VRAM	予想より少ない	はるかに多い

26Bモデルの知識を約4Bモデルの速度で得られます。これがMoEが大きな話題になる理由です — 品質と速度の従来のトレードオフを打ち破ります。

どのモデルを選ぶかの実用的な比較については、モデル選択ガイドをご覧ください。

この仕組みを実際のローカル環境に落とし込む場合は、Gemma 4 26B MoEガイドで必要スペック、VRAM、実行方法を確認できます。

ルーターの仕組み

ルーターは各MoE層の最初にある小さなニューラルネットワークです。入ってくるトークンごとに：

トークンの表現を見る
各エキスパートをスコアリング（このエキスパートはこのトークンにどれだけ関連？）
トップKのエキスパートを選択（通常2つ）
スコアを重みとして使って出力を組み合わせる

ルーターは学習中に、どのエキスパートが何に優れているかを学びます。時間が経つにつれ、異なるエキスパートが専門化します — コードが得意なもの、推論が得意なもの、クリエイティブライティングが得意なもの。ルーターはその場で適切な組み合わせを判断します。

ロードバランシングはMoE学習で重要です。1つのエキスパートがすべてのトークンを受け取ると（「崩壊した」ルーター）、他のエキスパートが無駄になります。Gemma 4は補助損失関数を使用して、エキスパート間の負荷をバランスしています。

アテンション機構

Gemma 4は**Grouped Query Attention（GQA）**を使用しています。これは元のマルチヘッドアテンション（高品質だが高コスト）とマルチクエリアテンション（安いが低品質）の中間です。

GQAでは：

クエリヘッドがグループ化される
各グループがkey-valueヘッドの1セットを共有
これによりKVキャッシュのメモリが削減され、品質への影響は最小限

これがあなたにとって重要な理由：KVキャッシュは長いコンテキストを使うときに成長します。GQAはそれを管理可能にし、Gemma 4がVRAMを圧迫せずに非常に長い入力を処理できる理由です。

256Kコンテキストウィンドウ

Gemma 4は最大256Kトークンのコンテキストをサポートします — およそ200,000語または400ページの本に相当します。仕組みは：

RoPE（Rotary Position Embeddings）： 特定の長さで上限のある固定位置IDの代わりに、RoPEは位置を回転としてエンコードします。これは長いシーケンスに自然にスケールし、学習中にあまり見なかった長さに対してもよく一般化します。

実用的なコンテキスト長：

コンテキスト長	およそ相当	VRAMへの影響
8Kトークン	10-15ページのドキュメント	ベースライン
32Kトークン	50ページのドキュメント	ベースラインの約2倍
128Kトークン	完全なコードベース	ベースラインの約4倍
256Kトークン	本1冊丸ごと	ベースラインの約8倍

重要な注意点： モデルが256Kをサポートしているからといって、常に使うべきではありません。KVキャッシュはコンテキスト長に比例して線形に成長し、アテンション計算は二次関数的に成長します。ほとんどのタスクでは8K〜32Kで十分です。長いコンテキストは本当に必要なとき — コードベース全体や完全な法的契約の分析など — のために取っておきましょう。

なぜGemma 4はパラメータあたり効率的か

いくつかのアーキテクチャ選択がGemma 4をその重量以上にしています：

MoEルーティング：トークンあたり15-20%のパラメータのみアクティブ
GQA：KVキャッシュメモリの削減
SwiGLU活性化：フィードフォワード層でのより良い情報フロー
RMSNorm：LayerNormより高速な正規化
最適化されたトークナイザー：256K語彙でより多くの言語を効率的にカバー

結果：26B MoEモデルは、標準ベンチマークで2-3倍以上のアクティブパラメータを持つDenseモデルにしばしば匹敵または勝ります。

アーキテクチャ概要

機能	E2B	E4B	26B	31B
タイプ	Dense	Dense	MoE	MoE
総パラメータ	約2B	約4B	約26B	約31B
アクティブパラメータ	約2B	約4B	約3.8B	約4.5B
エキスパート	該当なし	該当なし	16（トップ2）	16（トップ2）
アテンション	GQA	GQA	GQA	GQA
最大コンテキスト	256K	256K	256K	256K
最適な用途	エッジデバイス	ノートPC	ほとんどのユーザー	最高品質

これがあなたにとって意味すること

モデル選択：26B MoEと同程度の総サイズのDenseモデルで迷っているなら、MoEの方が同等の品質で高速です。Llama 4とのアーキテクチャ比較をご覧ください。
VRAM見積もり：MoEモデルはすべてのパラメータにVRAMが必要ですが（すべてメモリ内）、計算はアクティブパラメータに応じてスケールします。ハードウェアガイドをご確認ください。
長いコンテキストタスク：短いコンテキストから始めて、必要な時だけ拡張しましょう。VRAMが感謝します。
ファインチューニング：MoEモデルはLoRAでファインチューニングでき、アテンション層やエキスパート層をターゲットにできます。