0% read

Gemma 4 vs Gemma 3:何が新しく、アップグレードすべきか?

4月 7, 2026

Gemma 4はGemma 3から大きなアップグレードですが、切り替える価値があるでしょうか?答えはあなたが何をしているかによります。この記事では、情報に基づいた決定を下せるように、すべての意味のある違いを分解します。

主な変更点の概要

機能Gemma 3Gemma 4
ライセンスGoogle制限付き使用Apache 2.0
アーキテクチャDenseのみDense + MoE
音声入力非対応E2BとE4Bモデル
最大コンテキスト128K256K
モデルサイズ1B, 4B, 12B, 27B1B, 4B, 12B, 27B, E2B, E4B, 26B MoE, 31B Dense
Function calling基本構造化出力付きネイティブ
量子化サポートGGUF利用可能GGUF + 量子化耐性の改善

ライセンス:制限付きからオープンへ

これは間違いなく最大の変更です。Gemma 3は特定のシナリオで商用利用を制限し、使用上限を持つGoogleのカスタムライセンスを使用していました。Gemma 4はApache 2.0に切り替わります — KubernetesやTensorFlowのようなプロジェクトで使用されているのと同じライセンスです。

あなたにとっての意味:

  • 使用制限なし。 商用・非商用問わずあらゆる製品で使用可能。
  • 出力所有権の懸念なし。 Googleはモデル出力の権利を主張しません。
  • 自由にフォーク・変更可能。 法的不確実性なしで派生モデルを構築。
  • エンタープライズフレンドリー。 法務チームはApache 2.0を好みます、よく理解されているからです。

ライセンスがGemma 3を本番環境で避けた理由なら、そのブロッカーはなくなりました。

MoEアーキテクチャ:26Bモデル

Gemma 4は従来のDenseモデルと並んでMixture of Experts(MoE)モデルを導入します。26B MoEモデルは総パラメータ260億を持ちますが、トークンあたり約38億のみをアクティブにします。

重要な理由:

  • 速度:より少ないパラメータがアクティブなので、MoEは同等品質のDenseモデルよりはるかに高速に動作
  • メモリ:フル26Bをロードする必要があるが、推論計算は4Bモデルに近い
  • 品質:ベンチマークは26B MoEがほとんどのタスクで27B denseと同等に性能を発揮することを示す
# OllamaでMoEモデルを実行
ollama run gemma4:26b

# 速度を比較 — MoEが大幅に速いことに気付く
ollama run gemma4:27b

音声入力:E2BとE4B

Gemma 4はE2B(20億)とE4B(40億)エッジモデルを通じて音声理解を追加します。これらはテキストや画像と並んで話された音声を処理できます。

ユースケース:

  • オンデバイスの音声コマンド処理
  • コンテキスト理解付き音声転写
  • 音声、テキスト、画像を組み合わせるマルチモーダルアプリケーション

注:音声サポートはE2BとE4Bモデルのみ。大きな12B、27B、26B、31Bモデルはテキストとビジョンを処理しますが音声はありません。

256Kコンテキストウィンドウ

Gemma 3は128Kトークンが上限でした。Gemma 4はそれを256Kに倍にします。実際には:

コンテキスト長おおよそ相当
8K長い記事
32K短い本の章
128K(Gemma 3最大)中編
256K(Gemma 4最大)完全な小説

長いコンテキストはより多くのメモリを使用し、推論を遅くすることを忘れないでください。256Kを使えるからといって、常に使うべきではありません — 実際に必要なものにコンテキストを設定しましょう。

ベンチマーク改善

Gemma 4は標準ベンチマーク全体で意味のある改善を示します:

ベンチマークGemma 3 27BGemma 4 27B改善
MMLU75.680.2+4.6
HumanEval68.576.8+8.3
GSM8K82.388.1+5.8
MATH45.253.7+8.5

最大の利得はコード生成(HumanEval)と数学的推論(MATH)にあります。一般知識(MMLU)も改善しましたが、より控えめです。

マイグレーションガイド

OllamaでGemma 3から

# 古いモデルを削除
ollama rm gemma3:12b

# 新しいモデルをプル
ollama pull gemma4:12b

# Ollama APIを使用する既存のスクリプトはそのまま動作
# モデル名を更新するだけ

transformersでGemma 3から

# 前(Gemma 3)
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-3-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-3-12b-it")

# 後(Gemma 4) — 同じAPI、異なるモデル名
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-12b-it")

破壊的変更

  • チャットテンプレート形式:Gemma 4は更新されたチャットテンプレートを使用。プロンプトを手動で構築している場合、新しい形式を確認してください。
  • トークナイザー更新:一部の特殊トークンが変更されました。トークンレベルの操作を行っている場合、コードを検証してください。
  • MoEモデルには異なる設定が必要:26B MoEモデルはMoEアーキテクチャをサポートするフレームワークが必要です。すべてのツールがまだこれを処理しているわけではありません。

Gemma 3に留まる時

Gemma 3に留まる正当な理由があります:

  • ツールがGemma 4をまだサポートしていない。 一部のフレームワークは新しいリリースに遅れをとります。
  • Gemma 3をファインチューンした。 ファインチューンされた重みはGemma 4に転送できません。再ファインチューニングには時間と計算が必要です。
  • 安定性が機能より重要。 Gemma 3には数か月のコミュニティのバグ修正があります。
  • 非常に制約されたハードウェア上。 Gemma 4モデルは同じサイズでわずかに高いメモリ要件を持つ可能性があります。

次のステップ

結論:Gemma 4は測定可能な方法ですべてでより良いモデルで、Apache 2.0ライセンスは最大の商用バリアを取り除きます。Gemma 3に留まる特定の理由がない限り、アップグレードする価値があります。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 vs Gemma 3:何が新しく、アップグレードすべきか? | ブログ