Gemma 4の仕組みを理解するのに博士号は必要ありません。しかし、アーキテクチャの基本を知っていれば、適切なモデルを選び、なぜ自分のハードウェアで速い(または遅い)のかを理解し、より良い結果を得ることができます。
学術用語なしで解説します。
Transformerの基礎(30秒バージョン)
Gemma 4を含むすべての最新言語モデルはTransformerアーキテクチャで構築されています。知っておくべきことは:
- テキストが入力される — トークン(単語の一部)として
- アテンション層 — どのトークンが互いに関連しているか判断
- フィードフォワード層 — それらの関係を処理
- テキストが出力される — 一度に1トークンずつ
Gemma 4はこれらの層を数十段積み重ねています。層が多く、幅広いほどモデルは賢くなりますが、サイズも大きく遅くなります。
Dense vs MoE:2つのアーキテクチャ
Gemma 4には2種類あり、これがモデルラインナップで最も重要な理解ポイントです。
Denseモデル(E2B、E4B)
Denseモデルでは、すべてのパラメータがすべてのトークンに使用されます。モデルが40億パラメータなら、各単語の生成に40億すべてが発火します。
全員がすべてのタスクで働く小さなチームだと考えてください:
- シンプルで予測可能な性能
- すべてのパラメータがすべての応答に貢献
- 総サイズが小さく、実行が簡単
MoEモデル(26B、31B)
MoEはMixture of Expertsの略です。重要な洞察:すべてのトークンにすべてのパラメータは必要ありません。代わりに、モデルには専門化された「エキスパート」のコレクションがあり、ルーターが各トークンに対してどれを活性化するか決定します。
実際にはこのように見えます:
入力トークン → ルーター → 16のうち2つのエキスパートを選択 → 出力
総パラメータ:260億
トークンあたりアクティブ:約38億(26Bモデル)専門医がいる病院のようなものです。腕を骨折して来院した場合、全医師は必要ありません — 整形外科医と、必要なら放射線科医だけです。受付(ルーター)が適切な専門医にあなたを送ります。
なぜ26Bモデルは38億のアクティブパラメータしか使わないのか
これがGemma 4の秘密兵器です。26B MoEモデルは総パラメータ260億を持ちますが、任意のトークンでアクティブなのは約38億だけ。つまり:
| 指標 | 26B MoE | 同等のDense |
|---|---|---|
| 総パラメータ | 26B | 26B |
| トークンあたりアクティブ | 約3.8B | 26B |
| 速度 | 高速(4Bモデル並み) | 遅い(7倍の計算) |
| 品質 | 26B Denseレベルに近い | フル26B品質 |
| 必要VRAM | 予想より少ない | はるかに多い |
26Bモデルの知識を約4Bモデルの速度で得られます。これがMoEが大きな話題になる理由です — 品質と速度の従来のトレードオフを打ち破ります。
どのモデルを選ぶかの実用的な比較については、モデル選択ガイドをご覧ください。
この仕組みを実際のローカル環境に落とし込む場合は、Gemma 4 26B MoEガイドで必要スペック、VRAM、実行方法を確認できます。
ルーターの仕組み
ルーターは各MoE層の最初にある小さなニューラルネットワークです。入ってくるトークンごとに:
- トークンの表現を見る
- 各エキスパートをスコアリング(このエキスパートはこのトークンにどれだけ関連?)
- トップKのエキスパートを選択(通常2つ)
- スコアを重みとして使って出力を組み合わせる
ルーターは学習中に、どのエキスパートが何に優れているかを学びます。時間が経つにつれ、異なるエキスパートが専門化します — コードが得意なもの、推論が得意なもの、クリエイティブライティングが得意なもの。ルーターはその場で適切な組み合わせを判断します。
ロードバランシングはMoE学習で重要です。1つのエキスパートがすべてのトークンを受け取ると(「崩壊した」ルーター)、他のエキスパートが無駄になります。Gemma 4は補助損失関数を使用して、エキスパート間の負荷をバランスしています。
アテンション機構
Gemma 4は**Grouped Query Attention(GQA)**を使用しています。これは元のマルチヘッドアテンション(高品質だが高コスト)とマルチクエリアテンション(安いが低品質)の中間です。
GQAでは:
- クエリヘッドがグループ化される
- 各グループがkey-valueヘッドの1セットを共有
- これによりKVキャッシュのメモリが削減され、品質への影響は最小限
これがあなたにとって重要な理由:KVキャッシュは長いコンテキストを使うときに成長します。GQAはそれを管理可能にし、Gemma 4がVRAMを圧迫せずに非常に長い入力を処理できる理由です。
256Kコンテキストウィンドウ
Gemma 4は最大256Kトークンのコンテキストをサポートします — およそ200,000語または400ページの本に相当します。仕組みは:
RoPE(Rotary Position Embeddings): 特定の長さで上限のある固定位置IDの代わりに、RoPEは位置を回転としてエンコードします。これは長いシーケンスに自然にスケールし、学習中にあまり見なかった長さに対してもよく一般化します。
実用的なコンテキスト長:
| コンテキスト長 | およそ相当 | VRAMへの影響 |
|---|---|---|
| 8Kトークン | 10-15ページのドキュメント | ベースライン |
| 32Kトークン | 50ページのドキュメント | ベースラインの約2倍 |
| 128Kトークン | 完全なコードベース | ベースラインの約4倍 |
| 256Kトークン | 本1冊丸ごと | ベースラインの約8倍 |
重要な注意点: モデルが256Kをサポートしているからといって、常に使うべきではありません。KVキャッシュはコンテキスト長に比例して線形に成長し、アテンション計算は二次関数的に成長します。ほとんどのタスクでは8K〜32Kで十分です。長いコンテキストは本当に必要なとき — コードベース全体や完全な法的契約の分析など — のために取っておきましょう。
なぜGemma 4はパラメータあたり効率的か
いくつかのアーキテクチャ選択がGemma 4をその重量以上にしています:
- MoEルーティング:トークンあたり15-20%のパラメータのみアクティブ
- GQA:KVキャッシュメモリの削減
- SwiGLU活性化:フィードフォワード層でのより良い情報フロー
- RMSNorm:LayerNormより高速な正規化
- 最適化されたトークナイザー:256K語彙でより多くの言語を効率的にカバー
結果:26B MoEモデルは、標準ベンチマークで2-3倍以上のアクティブパラメータを持つDenseモデルにしばしば匹敵または勝ります。
アーキテクチャ概要
| 機能 | E2B | E4B | 26B | 31B |
|---|---|---|---|---|
| タイプ | Dense | Dense | MoE | MoE |
| 総パラメータ | 約2B | 約4B | 約26B | 約31B |
| アクティブパラメータ | 約2B | 約4B | 約3.8B | 約4.5B |
| エキスパート | 該当なし | 該当なし | 16(トップ2) | 16(トップ2) |
| アテンション | GQA | GQA | GQA | GQA |
| 最大コンテキスト | 256K | 256K | 256K | 256K |
| 最適な用途 | エッジデバイス | ノートPC | ほとんどのユーザー | 最高品質 |
これがあなたにとって意味すること
- モデル選択:26B MoEと同程度の総サイズのDenseモデルで迷っているなら、MoEの方が同等の品質で高速です。Llama 4とのアーキテクチャ比較をご覧ください。
- VRAM見積もり:MoEモデルはすべてのパラメータにVRAMが必要ですが(すべてメモリ内)、計算はアクティブパラメータに応じてスケールします。ハードウェアガイドをご確認ください。
- 長いコンテキストタスク:短いコンテキストから始めて、必要な時だけ拡張しましょう。VRAMが感謝します。
- ファインチューニング:MoEモデルはLoRAでファインチューニングでき、アテンション層やエキスパート層をターゲットにできます。
次のステップ
- モデル選択ガイドで適切なモデルを選ぶ
- 選んだアーキテクチャのハードウェア要件を確認
- 26B MoEを試すならGemma 4 26B MoEガイドを見る
- Mac Apple Siliconでのアーキテクチャ性能を確認
- アーキテクチャを比較:Gemma 4 vs Llama 4
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


