0% read

Gemma 4アーキテクチャ解説:MoE・Dense・なぜ重要か

4月 7, 2026
|Updated: 5月 19, 2026

Gemma 4の仕組みを理解するのに博士号は必要ありません。しかし、アーキテクチャの基本を知っていれば、適切なモデルを選び、なぜ自分のハードウェアで速い(または遅い)のかを理解し、より良い結果を得ることができます。

学術用語なしで解説します。

Transformerの基礎(30秒バージョン)

Gemma 4を含むすべての最新言語モデルはTransformerアーキテクチャで構築されています。知っておくべきことは:

  1. テキストが入力される — トークン(単語の一部)として
  2. アテンション層 — どのトークンが互いに関連しているか判断
  3. フィードフォワード層 — それらの関係を処理
  4. テキストが出力される — 一度に1トークンずつ

Gemma 4はこれらの層を数十段積み重ねています。層が多く、幅広いほどモデルは賢くなりますが、サイズも大きく遅くなります。

Dense vs MoE:2つのアーキテクチャ

Gemma 4には2種類あり、これがモデルラインナップで最も重要な理解ポイントです。

Denseモデル(E2B、E4B)

Denseモデルでは、すべてのパラメータがすべてのトークンに使用されます。モデルが40億パラメータなら、各単語の生成に40億すべてが発火します。

全員がすべてのタスクで働く小さなチームだと考えてください:

  • シンプルで予測可能な性能
  • すべてのパラメータがすべての応答に貢献
  • 総サイズが小さく、実行が簡単

MoEモデル(26B、31B)

MoEはMixture of Expertsの略です。重要な洞察:すべてのトークンにすべてのパラメータは必要ありません。代わりに、モデルには専門化された「エキスパート」のコレクションがあり、ルーターが各トークンに対してどれを活性化するか決定します。

実際にはこのように見えます:

入力トークン → ルーター → 16のうち2つのエキスパートを選択 → 出力

総パラメータ:260億
トークンあたりアクティブ:約38億(26Bモデル)

専門医がいる病院のようなものです。腕を骨折して来院した場合、全医師は必要ありません — 整形外科医と、必要なら放射線科医だけです。受付(ルーター)が適切な専門医にあなたを送ります。

なぜ26Bモデルは38億のアクティブパラメータしか使わないのか

これがGemma 4の秘密兵器です。26B MoEモデルは総パラメータ260億を持ちますが、任意のトークンでアクティブなのは約38億だけ。つまり:

指標26B MoE同等のDense
総パラメータ26B26B
トークンあたりアクティブ約3.8B26B
速度高速(4Bモデル並み)遅い(7倍の計算)
品質26B Denseレベルに近いフル26B品質
必要VRAM予想より少ないはるかに多い

26Bモデルの知識を約4Bモデルの速度で得られます。これがMoEが大きな話題になる理由です — 品質と速度の従来のトレードオフを打ち破ります。

どのモデルを選ぶかの実用的な比較については、モデル選択ガイドをご覧ください。

この仕組みを実際のローカル環境に落とし込む場合は、Gemma 4 26B MoEガイドで必要スペック、VRAM、実行方法を確認できます。

ルーターの仕組み

ルーターは各MoE層の最初にある小さなニューラルネットワークです。入ってくるトークンごとに:

  1. トークンの表現を見る
  2. 各エキスパートをスコアリング(このエキスパートはこのトークンにどれだけ関連?)
  3. トップKのエキスパートを選択(通常2つ)
  4. スコアを重みとして使って出力を組み合わせる

ルーターは学習中に、どのエキスパートが何に優れているかを学びます。時間が経つにつれ、異なるエキスパートが専門化します — コードが得意なもの、推論が得意なもの、クリエイティブライティングが得意なもの。ルーターはその場で適切な組み合わせを判断します。

ロードバランシングはMoE学習で重要です。1つのエキスパートがすべてのトークンを受け取ると(「崩壊した」ルーター)、他のエキスパートが無駄になります。Gemma 4は補助損失関数を使用して、エキスパート間の負荷をバランスしています。

アテンション機構

Gemma 4は**Grouped Query Attention(GQA)**を使用しています。これは元のマルチヘッドアテンション(高品質だが高コスト)とマルチクエリアテンション(安いが低品質)の中間です。

GQAでは:

  • クエリヘッドがグループ化される
  • 各グループがkey-valueヘッドの1セットを共有
  • これによりKVキャッシュのメモリが削減され、品質への影響は最小限

これがあなたにとって重要な理由:KVキャッシュは長いコンテキストを使うときに成長します。GQAはそれを管理可能にし、Gemma 4がVRAMを圧迫せずに非常に長い入力を処理できる理由です。

256Kコンテキストウィンドウ

Gemma 4は最大256Kトークンのコンテキストをサポートします — およそ200,000語または400ページの本に相当します。仕組みは:

RoPE(Rotary Position Embeddings): 特定の長さで上限のある固定位置IDの代わりに、RoPEは位置を回転としてエンコードします。これは長いシーケンスに自然にスケールし、学習中にあまり見なかった長さに対してもよく一般化します。

実用的なコンテキスト長:

コンテキスト長およそ相当VRAMへの影響
8Kトークン10-15ページのドキュメントベースライン
32Kトークン50ページのドキュメントベースラインの約2倍
128Kトークン完全なコードベースベースラインの約4倍
256Kトークン本1冊丸ごとベースラインの約8倍

重要な注意点: モデルが256Kをサポートしているからといって、常に使うべきではありません。KVキャッシュはコンテキスト長に比例して線形に成長し、アテンション計算は二次関数的に成長します。ほとんどのタスクでは8K〜32Kで十分です。長いコンテキストは本当に必要なとき — コードベース全体や完全な法的契約の分析など — のために取っておきましょう。

なぜGemma 4はパラメータあたり効率的か

いくつかのアーキテクチャ選択がGemma 4をその重量以上にしています:

  1. MoEルーティング:トークンあたり15-20%のパラメータのみアクティブ
  2. GQA:KVキャッシュメモリの削減
  3. SwiGLU活性化:フィードフォワード層でのより良い情報フロー
  4. RMSNorm:LayerNormより高速な正規化
  5. 最適化されたトークナイザー:256K語彙でより多くの言語を効率的にカバー

結果:26B MoEモデルは、標準ベンチマークで2-3倍以上のアクティブパラメータを持つDenseモデルにしばしば匹敵または勝ります。

アーキテクチャ概要

機能E2BE4B26B31B
タイプDenseDenseMoEMoE
総パラメータ約2B約4B約26B約31B
アクティブパラメータ約2B約4B約3.8B約4.5B
エキスパート該当なし該当なし16(トップ2)16(トップ2)
アテンションGQAGQAGQAGQA
最大コンテキスト256K256K256K256K
最適な用途エッジデバイスノートPCほとんどのユーザー最高品質

これがあなたにとって意味すること

  • モデル選択:26B MoEと同程度の総サイズのDenseモデルで迷っているなら、MoEの方が同等の品質で高速です。Llama 4とのアーキテクチャ比較をご覧ください。
  • VRAM見積もり:MoEモデルはすべてのパラメータにVRAMが必要ですが(すべてメモリ内)、計算はアクティブパラメータに応じてスケールします。ハードウェアガイドをご確認ください。
  • 長いコンテキストタスク:短いコンテキストから始めて、必要な時だけ拡張しましょう。VRAMが感謝します。
  • ファインチューニング:MoEモデルはLoRAでファインチューニングでき、アテンション層やエキスパート層をターゲットにできます。

次のステップ

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4アーキテクチャ解説:MoE・Dense・なぜ重要か | ブログ