Gemma 4はGemma 3から大きなアップグレードですが、切り替える価値があるでしょうか?答えはあなたが何をしているかによります。この記事では、情報に基づいた決定を下せるように、すべての意味のある違いを分解します。
主な変更点の概要
| 機能 | Gemma 3 | Gemma 4 |
|---|---|---|
| ライセンス | Google制限付き使用 | Apache 2.0 |
| アーキテクチャ | Denseのみ | Dense + MoE |
| 音声入力 | 非対応 | E2BとE4Bモデル |
| 最大コンテキスト | 128K | 256K |
| モデルサイズ | 1B, 4B, 12B, 27B | 1B, 4B, 12B, 27B, E2B, E4B, 26B MoE, 31B Dense |
| Function calling | 基本 | 構造化出力付きネイティブ |
| 量子化サポート | GGUF利用可能 | GGUF + 量子化耐性の改善 |
ライセンス:制限付きからオープンへ
これは間違いなく最大の変更です。Gemma 3は特定のシナリオで商用利用を制限し、使用上限を持つGoogleのカスタムライセンスを使用していました。Gemma 4はApache 2.0に切り替わります — KubernetesやTensorFlowのようなプロジェクトで使用されているのと同じライセンスです。
あなたにとっての意味:
- 使用制限なし。 商用・非商用問わずあらゆる製品で使用可能。
- 出力所有権の懸念なし。 Googleはモデル出力の権利を主張しません。
- 自由にフォーク・変更可能。 法的不確実性なしで派生モデルを構築。
- エンタープライズフレンドリー。 法務チームはApache 2.0を好みます、よく理解されているからです。
ライセンスがGemma 3を本番環境で避けた理由なら、そのブロッカーはなくなりました。
MoEアーキテクチャ:26Bモデル
Gemma 4は従来のDenseモデルと並んでMixture of Experts(MoE)モデルを導入します。26B MoEモデルは総パラメータ260億を持ちますが、トークンあたり約38億のみをアクティブにします。
重要な理由:
- 速度:より少ないパラメータがアクティブなので、MoEは同等品質のDenseモデルよりはるかに高速に動作
- メモリ:フル26Bをロードする必要があるが、推論計算は4Bモデルに近い
- 品質:ベンチマークは26B MoEがほとんどのタスクで27B denseと同等に性能を発揮することを示す
# OllamaでMoEモデルを実行
ollama run gemma4:26b
# 速度を比較 — MoEが大幅に速いことに気付く
ollama run gemma4:27b音声入力:E2BとE4B
Gemma 4はE2B(20億)とE4B(40億)エッジモデルを通じて音声理解を追加します。これらはテキストや画像と並んで話された音声を処理できます。
ユースケース:
- オンデバイスの音声コマンド処理
- コンテキスト理解付き音声転写
- 音声、テキスト、画像を組み合わせるマルチモーダルアプリケーション
注:音声サポートはE2BとE4Bモデルのみ。大きな12B、27B、26B、31Bモデルはテキストとビジョンを処理しますが音声はありません。
256Kコンテキストウィンドウ
Gemma 3は128Kトークンが上限でした。Gemma 4はそれを256Kに倍にします。実際には:
| コンテキスト長 | おおよそ相当 |
|---|---|
| 8K | 長い記事 |
| 32K | 短い本の章 |
| 128K(Gemma 3最大) | 中編 |
| 256K(Gemma 4最大) | 完全な小説 |
長いコンテキストはより多くのメモリを使用し、推論を遅くすることを忘れないでください。256Kを使えるからといって、常に使うべきではありません — 実際に必要なものにコンテキストを設定しましょう。
ベンチマーク改善
Gemma 4は標準ベンチマーク全体で意味のある改善を示します:
| ベンチマーク | Gemma 3 27B | Gemma 4 27B | 改善 |
|---|---|---|---|
| MMLU | 75.6 | 80.2 | +4.6 |
| HumanEval | 68.5 | 76.8 | +8.3 |
| GSM8K | 82.3 | 88.1 | +5.8 |
| MATH | 45.2 | 53.7 | +8.5 |
最大の利得はコード生成(HumanEval)と数学的推論(MATH)にあります。一般知識(MMLU)も改善しましたが、より控えめです。
マイグレーションガイド
OllamaでGemma 3から
# 古いモデルを削除
ollama rm gemma3:12b
# 新しいモデルをプル
ollama pull gemma4:12b
# Ollama APIを使用する既存のスクリプトはそのまま動作
# モデル名を更新するだけtransformersでGemma 3から
# 前(Gemma 3)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-3-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-3-12b-it")
# 後(Gemma 4) — 同じAPI、異なるモデル名
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-12b-it")破壊的変更
- チャットテンプレート形式:Gemma 4は更新されたチャットテンプレートを使用。プロンプトを手動で構築している場合、新しい形式を確認してください。
- トークナイザー更新:一部の特殊トークンが変更されました。トークンレベルの操作を行っている場合、コードを検証してください。
- MoEモデルには異なる設定が必要:26B MoEモデルはMoEアーキテクチャをサポートするフレームワークが必要です。すべてのツールがまだこれを処理しているわけではありません。
Gemma 3に留まる時
Gemma 3に留まる正当な理由があります:
- ツールがGemma 4をまだサポートしていない。 一部のフレームワークは新しいリリースに遅れをとります。
- Gemma 3をファインチューンした。 ファインチューンされた重みはGemma 4に転送できません。再ファインチューニングには時間と計算が必要です。
- 安定性が機能より重要。 Gemma 3には数か月のコミュニティのバグ修正があります。
- 非常に制約されたハードウェア上。 Gemma 4モデルは同じサイズでわずかに高いメモリ要件を持つ可能性があります。
次のステップ
- モデルを選ぶ準備は? 詳細なサイズ推奨のためにどのGemma 4モデルを選ぶべき?をチェック
- MoE vs Denseをより理解したい? 深い比較のためにGemma 4 26B vs 31B:MoE vs Denseを読む
- Gemma 4が競合にどう立ち向かうか? クロスファミリー比較のためにGemma 4 vs Llama 4を見る
結論:Gemma 4は測定可能な方法ですべてでより良いモデルで、Apache 2.0ライセンスは最大の商用バリアを取り除きます。Gemma 3に留まる特定の理由がない限り、アップグレードする価値があります。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


