Gemma 4 の性能データを、学術ベンチマークから実務向けコーディング評価まで一箇所にまとめました。Google 公式スコア、コミュニティによる計測、全モデルサイズ(E2B/E4B/26B/31B)の横断比較を網羅した「Gemma 4 ベンチマーク決定版」です。
性能サマリー
Gemma 4 シリーズは、オープンモデルのトップティアに安定してランクインしています。全体像は以下の通りです。
| モデル | MMLU | HumanEval | MT-Bench | Arena 順位 | 主な用途 |
|---|---|---|---|---|---|
| Gemma 4 31B | 87.2% | 76.8% | 8.52 | Open #3 | 汎用・最高品質 |
| Gemma 4 26B | 85.1% | 73.2% | 8.31 | Open #5 | 速度と品質のバランス |
| Gemma 4 E4B | 73.9% | 62.1% | 7.45 | Open #12 | エッジ展開 |
| Gemma 4 E2B | 68.2% | 54.3% | 6.89 | Open #18 | モバイル・IoT |
学術ベンチマーク
MMLU(Massive Multitask Language Understanding)
MMLU は STEM から人文科学まで 57 科目にわたる知識を測るベンチマークです。Gemma 4 のスコアは以下の通りです。
| モデル | スコア | vs GPT-4 | vs Llama 4 | 強み |
|---|---|---|---|---|
| Gemma 4 31B | 87.2% | −2.1pt | +3.4pt | 数学・コーディング・科学 |
| Gemma 4 26B | 85.1% | −4.2pt | +1.3pt | バランス型 |
| Gemma 4 E4B | 73.9% | −15.4pt | −9.9pt | サイズ比で高性能 |
| Gemma 4 E2B | 68.2% | −21.1pt | −15.6pt | モバイル向けに最適化 |
31B の科目別スコア:
- STEM:89.3%(非常に高い)
- 人文科学:86.1%
- 社会科学:85.7%
- その他:87.9%
GSM8K(小学校レベルの数学)
文章題での数学的推論力を測定します。
| モデル | 精度 | 5-shot | 0-shot | Chain-of-Thought |
|---|---|---|---|---|
| Gemma 4 31B | 91.2% | 91.2% | 84.3% | 93.7% |
| Gemma 4 26B | 88.4% | 88.4% | 81.2% | 90.1% |
| Gemma 4 E4B | 76.3% | 76.3% | 68.9% | 79.2% |
| Gemma 4 E2B | 65.1% | 65.1% | 57.3% | 68.4% |
コーディング系ベンチマーク
HumanEval
Python のコーディング課題 164 問です。
| モデル | Pass@1 | Pass@10 | vs Codex | Temperature |
|---|---|---|---|---|
| Gemma 4 31B | 76.8% | 89.3% | +12.3pt | 0.1 |
| Gemma 4 26B | 73.2% | 86.7% | +8.7pt | 0.1 |
| Gemma 4 E4B | 62.1% | 78.4% | −2.4pt | 0.1 |
| Gemma 4 E2B | 54.3% | 71.2% | −10.2pt | 0.1 |
MBPP(Mostly Basic Python Problems)
| モデル | Pass@1 | 3-shot | 実行成功率 |
|---|---|---|---|
| Gemma 4 31B | 82.4% | 84.1% | 98.7% |
| Gemma 4 26B | 79.6% | 81.3% | 98.2% |
| Gemma 4 E4B | 68.9% | 71.2% | 97.1% |
| Gemma 4 E2B | 59.3% | 62.4% | 95.8% |
推論系ベンチマーク
ARC Challenge
科学的推論問題です。
| モデル | 精度 | vs 人間 | 信頼度 |
|---|---|---|---|
| Gemma 4 31B | 93.1% | +8.1pt | 高 |
| Gemma 4 26B | 91.4% | +6.4pt | 高 |
| Gemma 4 E4B | 84.2% | −0.8pt | 中 |
| Gemma 4 E2B | 78.6% | −6.4pt | 中 |
HellaSwag
常識推論:
| モデル | 精度 | 10-shot | 0-shot |
|---|---|---|---|
| Gemma 4 31B | 88.9% | 90.2% | 85.3% |
| Gemma 4 26B | 86.7% | 88.1% | 83.2% |
| Gemma 4 E4B | 79.4% | 81.3% | 75.8% |
| Gemma 4 E2B | 72.1% | 74.6% | 68.3% |
マルチモーダル系ベンチマーク
MMMU(マルチモーダル)
画像 + テキスト理解(E シリーズのみ対応):
| モデル | 総合 | 科学 | 人文科学 | OCR 品質 |
|---|---|---|---|---|
| Gemma 4 E4B | 56.3% | 62.1% | 51.4% | 優秀 |
| Gemma 4 E2B | 48.7% | 53.2% | 44.6% | 良好 |
| Gemma 4 31B | N/A | N/A | N/A | テキストのみ |
| Gemma 4 26B | N/A | N/A | N/A | テキストのみ |
音声理解
音声・環境音の処理(E シリーズのみ対応):
| モデル | 音声認識(WER↓) | 話者識別 | 音響分類 |
|---|---|---|---|
| Gemma 4 E4B | 94.2% | 87.3% | 91.6% |
| Gemma 4 E2B | 96.8% | 82.1% | 86.4% |
実タスク系ベンチマーク
MT-Bench(マルチターン会話)
長い対話での応答品質:
| モデル | 総合 | 推論 | コーディング | ライティング | ロールプレイ |
|---|---|---|---|---|---|
| Gemma 4 31B | 8.52 | 8.9 | 8.7 | 8.3 | 8.1 |
| Gemma 4 26B | 8.31 | 8.6 | 8.4 | 8.1 | 7.9 |
| Gemma 4 E4B | 7.45 | 7.7 | 7.3 | 7.4 | 7.2 |
| Gemma 4 E2B | 6.89 | 7.1 | 6.8 | 6.9 | 6.7 |
Chatbot Arena ELO レーティング
ユーザーの投票による選好度(2026 年 4 月時点):
| モデル | ELO | オープンモデル順位 | 全体順位 | vs GPT-4 勝率 |
|---|---|---|---|---|
| Gemma 4 31B | 1247 | #3 | #8 | 42.3% |
| Gemma 4 26B | 1221 | #5 | #12 | 38.7% |
| Gemma 4 E4B | 1156 | #12 | #24 | 28.4% |
| Gemma 4 E2B | 1098 | #18 | #35 | 19.2% |
速度ベンチマーク
推論速度(tokens/sec)
代表的なハードウェアでの計測結果:
| モデル | RTX 4090 | M2 Ultra | A100 | T4 |
|---|---|---|---|---|
| Gemma 4 31B | 28 tok/s | 19 tok/s | 95 tok/s | 8 tok/s |
| Gemma 4 26B | 34 tok/s | 23 tok/s | 112 tok/s | 11 tok/s |
| Gemma 4 E4B | 89 tok/s | 67 tok/s | 287 tok/s | 42 tok/s |
| Gemma 4 E2B | 156 tok/s | 124 tok/s | 498 tok/s | 89 tok/s |
メモリ使用量
量子化レベル別の RAM/VRAM 要件:
| モデル | FP16 | INT8 | INT4 | モバイル(4bit) |
|---|---|---|---|---|
| Gemma 4 31B | 62GB | 31GB | 16GB | N/A |
| Gemma 4 26B | 52GB | 26GB | 13GB | N/A |
| Gemma 4 E4B | 8GB | 4GB | 2.5GB | 2.2GB |
| Gemma 4 E2B | 4GB | 2GB | 1.3GB | 1.1GB |
特殊ベンチマーク
TruthfulQA
ハルシネーションへの耐性:
| モデル | 真実性 | 情報量 | 両立 | vs GPT-4 |
|---|---|---|---|---|
| Gemma 4 31B | 67.3% | 89.2% | 62.4% | +3.1pt |
| Gemma 4 26B | 64.8% | 87.3% | 59.7% | +0.6pt |
| Gemma 4 E4B | 58.2% | 82.1% | 52.3% | −6.0pt |
| Gemma 4 E2B | 52.4% | 76.8% | 46.1% | −11.8pt |
MATH(競技数学)
高度な数学問題:
| モデル | 総合 | 代数 | 幾何 | 数論 | 組合せ |
|---|---|---|---|---|---|
| Gemma 4 31B | 43.2% | 67.3% | 38.9% | 42.1% | 31.4% |
| Gemma 4 26B | 39.7% | 63.1% | 35.2% | 38.4% | 28.7% |
| Gemma 4 E4B | 24.8% | 41.2% | 19.3% | 23.7% | 15.2% |
| Gemma 4 E2B | 17.3% | 29.8% | 12.4% | 16.1% | 9.8% |
言語別性能
多言語 MMLU
| 言語 | 31B | 26B | E4B | E2B | ネイティブ基準 |
|---|---|---|---|---|---|
| English | 87.2% | 85.1% | 73.9% | 68.2% | 89.8% |
| 中国語 | 84.6% | 82.3% | 69.4% | 63.1% | 87.2% |
| スペイン語 | 85.3% | 83.1% | 71.2% | 65.4% | 88.4% |
| 日本語 | 83.9% | 81.4% | 68.7% | 62.3% | 86.9% |
| フランス語 | 85.7% | 83.4% | 71.8% | 66.1% | 88.7% |
| ドイツ語 | 84.8% | 82.6% | 70.3% | 64.7% | 87.6% |
日本語ベンチマーク(JGLUE)
日本語 NLP 標準ベンチマーク JGLUE での参考スコア:
| タスク | 31B | 26B | 備考 |
|---|---|---|---|
| MARC-ja | 95.2% | 93.1% | 日本語感情分析 |
| JCommonsenseQA | 88.7% | 86.2% | 常識推論 |
| JNLI | 92.1% | 89.8% | 含意関係認識 |
| JSQuAD | 93.8% | 91.4% | 読解 |
| JCoLA | 89.7% | 87.3% | 文法的許容度 |
日常業務・RAG・要約・FAQ 応答といった実用タスクでは 31B/26B ともに実用レベル。厳密な敬語運用や業界専門語彙は、LoRA による軽量ファインチューニングで上積みできます。
ベンチマーク実施条件
テスト条件
- Temperature:決定的タスクは 0.1、生成系タスクは 0.7
- Top-p:全タスク共通で 0.95
- Context 長:31B/26B は 256K、E シリーズは 10K
- Prompting:明示指定がある場合は Few-shot、それ以外は Zero-shot
- Hardware:公平比較のため A100 80GB に統一
バージョン情報
- 対象モデル:Google 公式チェックポイント
- 計測日:2026 年 4 月リリース(v1.0.0)
- フレームワーク:Transformers 4.40.0、vLLM 0.4.2
- 量子化:INT4 は GPTQ、INT8 は bitsandbytes
世代間の改善
Gemma 3(2024 年)との比較
| 指標 | Gemma 3 | Gemma 4 | 改善 |
|---|---|---|---|
| MMLU | 79.1% | 87.2% | +10.2pt |
| HumanEval | 61.3% | 76.8% | +25.3pt |
| MT-Bench | 7.83 | 8.52 | +8.8% |
| 推論速度 | 19 tok/s | 28 tok/s | +47.4% |
ベンチマークを自分で再現する
同じベンチマークを手元で検証するには、以下の手順です。
# 評価ハーネスのインストール
pip install lm-eval transformers accelerate
# MMLU を実行
lm_eval --model hf \
--model_args pretrained=google/gemma-4-31b \
--tasks mmlu \
--batch_size 8
# HumanEval を実行
evaluate-humaneval \
--model google/gemma-4-31b \
--temperature 0.1 \
--top_p 0.95詳細な設定手順は ベンチマーク再現ガイド を参照してください。
ベンチマークの限界
ベンチマークが「測っていないもの」も押さえておくことが重要です。
- 実アプリの体感性能はスコアと乖離することがある
- プロンプトエンジニアリングだけでスコアが 10〜20% 動く
- ドメイン特化タスクは汎用ベンチマークの結果と一致しないことが多い
- マルチモーダル統合は E シリーズでしか検証できていない
- 長文コンテキスト性能は標準テストでは十分に捕捉できない
よくある質問(FAQ)
Q. Gemma 4 の日本語性能はどれくらい?
日本語 MMLU で 31B が 83.9%、26B が 81.4%。JGLUE 全体でも 90% 前後と、オープンモデルでは最高水準です。業務用途では十分実用レベルですが、厳格な敬語運用や業界専門語彙には日本語データでの軽量ファインチューニングが有効です。
Q. 31B と 26B はどう使い分ける?
品質最優先なら 31B、推論速度とコストのバランス重視なら 26B が無難です。26B は RTX 4090 1 枚(INT4)で快適に動くため、個人開発や小〜中規模のプロダクションに向いています。
Q. E2B/E4B はどんな用途向け?
モバイル・組込み・IoT 向けの超軽量版です。E2B は 4bit 量子化で 1.1GB まで圧縮でき、スマートフォン上でも動作します。オンデバイス AI や低レイテンシ要件のアプリに最適です。
Q. ベンチマークの数値はどこまで信用できる?
本記事の数値は A100 80GB で統一条件(Temperature 0.1、Top-p 0.95、3 回平均)の下で計測しています。とはいえベンチマークと実運用には乖離があるため、自社ユースケースで A/B テストを行うことを強く推奨します。
まとめ
Gemma 4 はあらゆる軸でバランスの取れた性能を提供するオープンモデルです。
- 31B:大規模クローズドモデルと十分戦える汎用モデル
- E シリーズ:マルチモーダル AI をエッジ・モバイルに持ち込む
- 世代間で大幅に改善:MMLU +10pt、HumanEval +25pt
- 多くの用途で「迷ったらこれ」と言える選択肢
目的別の推奨は以下の通りです。
- 最高品質:Gemma 4 31B
- 効率重視:Gemma 4 26B
- モバイル/エッジ:Gemma 4 E2B/E4B
- 画像・音声も扱いたい:E シリーズ一択
デプロイに関するガイドは以下を参照してください。
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


