Gemma 4 vs Gemma 3：何が新しく、アップグレードすべきか？

Gemma 4はGemma 3から大きなアップグレードですが、切り替える価値があるでしょうか？答えはあなたが何をしているかによります。この記事では、情報に基づいた決定を下せるように、すべての意味のある違いを分解します。

主な変更点の概要

機能	Gemma 3	Gemma 4
ライセンス	Google制限付き使用	Apache 2.0
アーキテクチャ	Denseのみ	Dense + MoE
音声入力	非対応	E2BとE4Bモデル
最大コンテキスト	128K	256K
モデルサイズ	1B, 4B, 12B, 27B	1B, 4B, 12B, 27B, E2B, E4B, 26B MoE, 31B Dense
Function calling	基本	構造化出力付きネイティブ
量子化サポート	GGUF利用可能	GGUF + 量子化耐性の改善

ライセンス：制限付きからオープンへ

これは間違いなく最大の変更です。Gemma 3は特定のシナリオで商用利用を制限し、使用上限を持つGoogleのカスタムライセンスを使用していました。Gemma 4はApache 2.0に切り替わります — KubernetesやTensorFlowのようなプロジェクトで使用されているのと同じライセンスです。

あなたにとっての意味：

使用制限なし。 商用・非商用問わずあらゆる製品で使用可能。
出力所有権の懸念なし。 Googleはモデル出力の権利を主張しません。
自由にフォーク・変更可能。 法的不確実性なしで派生モデルを構築。
エンタープライズフレンドリー。 法務チームはApache 2.0を好みます、よく理解されているからです。

ライセンスがGemma 3を本番環境で避けた理由なら、そのブロッカーはなくなりました。

MoEアーキテクチャ：26Bモデル

Gemma 4は従来のDenseモデルと並んでMixture of Experts（MoE）モデルを導入します。26B MoEモデルは総パラメータ260億を持ちますが、トークンあたり約38億のみをアクティブにします。

重要な理由：

速度：より少ないパラメータがアクティブなので、MoEは同等品質のDenseモデルよりはるかに高速に動作
メモリ：フル26Bをロードする必要があるが、推論計算は4Bモデルに近い
品質：ベンチマークは26B MoEがほとんどのタスクで27B denseと同等に性能を発揮することを示す

# OllamaでMoEモデルを実行
ollama run gemma4:26b

# 速度を比較 — MoEが大幅に速いことに気付く
ollama run gemma4:27b

音声入力：E2BとE4B

Gemma 4はE2B（20億）とE4B（40億）エッジモデルを通じて音声理解を追加します。これらはテキストや画像と並んで話された音声を処理できます。

ユースケース：

オンデバイスの音声コマンド処理
コンテキスト理解付き音声転写
音声、テキスト、画像を組み合わせるマルチモーダルアプリケーション

注：音声サポートはE2BとE4Bモデルのみ。大きな12B、27B、26B、31Bモデルはテキストとビジョンを処理しますが音声はありません。

256Kコンテキストウィンドウ

Gemma 3は128Kトークンが上限でした。Gemma 4はそれを256Kに倍にします。実際には：

コンテキスト長	おおよそ相当
8K	長い記事
32K	短い本の章
128K（Gemma 3最大）	中編
256K（Gemma 4最大）	完全な小説

長いコンテキストはより多くのメモリを使用し、推論を遅くすることを忘れないでください。256Kを使えるからといって、常に使うべきではありません — 実際に必要なものにコンテキストを設定しましょう。

ベンチマーク改善

Gemma 4は標準ベンチマーク全体で意味のある改善を示します：

ベンチマーク	Gemma 3 27B	Gemma 4 27B	改善
MMLU	75.6	80.2	+4.6
HumanEval	68.5	76.8	+8.3
GSM8K	82.3	88.1	+5.8
MATH	45.2	53.7	+8.5

最大の利得はコード生成（HumanEval）と数学的推論（MATH）にあります。一般知識（MMLU）も改善しましたが、より控えめです。

マイグレーションガイド

OllamaでGemma 3から

# 古いモデルを削除
ollama rm gemma3:12b

# 新しいモデルをプル
ollama pull gemma4:12b

# Ollama APIを使用する既存のスクリプトはそのまま動作
# モデル名を更新するだけ

transformersでGemma 3から

# 前（Gemma 3）
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-3-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-3-12b-it")

# 後（Gemma 4） — 同じAPI、異なるモデル名
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-12b-it")

破壊的変更

チャットテンプレート形式：Gemma 4は更新されたチャットテンプレートを使用。プロンプトを手動で構築している場合、新しい形式を確認してください。
トークナイザー更新：一部の特殊トークンが変更されました。トークンレベルの操作を行っている場合、コードを検証してください。
MoEモデルには異なる設定が必要：26B MoEモデルはMoEアーキテクチャをサポートするフレームワークが必要です。すべてのツールがまだこれを処理しているわけではありません。