0% read

Gemma 4 ベンチマーク完全版:MMLU 87.2% / HumanEval 76.8%【2026年】

4月 18, 2026

Gemma 4 の性能データを、学術ベンチマークから実務向けコーディング評価まで一箇所にまとめました。Google 公式スコア、コミュニティによる計測、全モデルサイズ(E2B/E4B/26B/31B)の横断比較を網羅した「Gemma 4 ベンチマーク決定版」です。

性能サマリー

Gemma 4 シリーズは、オープンモデルのトップティアに安定してランクインしています。全体像は以下の通りです。

モデルMMLUHumanEvalMT-BenchArena 順位主な用途
Gemma 4 31B87.2%76.8%8.52Open #3汎用・最高品質
Gemma 4 26B85.1%73.2%8.31Open #5速度と品質のバランス
Gemma 4 E4B73.9%62.1%7.45Open #12エッジ展開
Gemma 4 E2B68.2%54.3%6.89Open #18モバイル・IoT

学術ベンチマーク

MMLU(Massive Multitask Language Understanding)

MMLU は STEM から人文科学まで 57 科目にわたる知識を測るベンチマークです。Gemma 4 のスコアは以下の通りです。

モデルスコアvs GPT-4vs Llama 4強み
Gemma 4 31B87.2%−2.1pt+3.4pt数学・コーディング・科学
Gemma 4 26B85.1%−4.2pt+1.3ptバランス型
Gemma 4 E4B73.9%−15.4pt−9.9ptサイズ比で高性能
Gemma 4 E2B68.2%−21.1pt−15.6ptモバイル向けに最適化

31B の科目別スコア:

  • STEM:89.3%(非常に高い)
  • 人文科学:86.1%
  • 社会科学:85.7%
  • その他:87.9%

GSM8K(小学校レベルの数学)

文章題での数学的推論力を測定します。

モデル精度5-shot0-shotChain-of-Thought
Gemma 4 31B91.2%91.2%84.3%93.7%
Gemma 4 26B88.4%88.4%81.2%90.1%
Gemma 4 E4B76.3%76.3%68.9%79.2%
Gemma 4 E2B65.1%65.1%57.3%68.4%

コーディング系ベンチマーク

HumanEval

Python のコーディング課題 164 問です。

モデルPass@1Pass@10vs CodexTemperature
Gemma 4 31B76.8%89.3%+12.3pt0.1
Gemma 4 26B73.2%86.7%+8.7pt0.1
Gemma 4 E4B62.1%78.4%−2.4pt0.1
Gemma 4 E2B54.3%71.2%−10.2pt0.1

MBPP(Mostly Basic Python Problems)

モデルPass@13-shot実行成功率
Gemma 4 31B82.4%84.1%98.7%
Gemma 4 26B79.6%81.3%98.2%
Gemma 4 E4B68.9%71.2%97.1%
Gemma 4 E2B59.3%62.4%95.8%

推論系ベンチマーク

ARC Challenge

科学的推論問題です。

モデル精度vs 人間信頼度
Gemma 4 31B93.1%+8.1pt
Gemma 4 26B91.4%+6.4pt
Gemma 4 E4B84.2%−0.8pt
Gemma 4 E2B78.6%−6.4pt

HellaSwag

常識推論:

モデル精度10-shot0-shot
Gemma 4 31B88.9%90.2%85.3%
Gemma 4 26B86.7%88.1%83.2%
Gemma 4 E4B79.4%81.3%75.8%
Gemma 4 E2B72.1%74.6%68.3%

マルチモーダル系ベンチマーク

MMMU(マルチモーダル)

画像 + テキスト理解(E シリーズのみ対応):

モデル総合科学人文科学OCR 品質
Gemma 4 E4B56.3%62.1%51.4%優秀
Gemma 4 E2B48.7%53.2%44.6%良好
Gemma 4 31BN/AN/AN/Aテキストのみ
Gemma 4 26BN/AN/AN/Aテキストのみ

音声理解

音声・環境音の処理(E シリーズのみ対応):

モデル音声認識(WER↓)話者識別音響分類
Gemma 4 E4B94.2%87.3%91.6%
Gemma 4 E2B96.8%82.1%86.4%

実タスク系ベンチマーク

MT-Bench(マルチターン会話)

長い対話での応答品質:

モデル総合推論コーディングライティングロールプレイ
Gemma 4 31B8.528.98.78.38.1
Gemma 4 26B8.318.68.48.17.9
Gemma 4 E4B7.457.77.37.47.2
Gemma 4 E2B6.897.16.86.96.7

Chatbot Arena ELO レーティング

ユーザーの投票による選好度(2026 年 4 月時点):

モデルELOオープンモデル順位全体順位vs GPT-4 勝率
Gemma 4 31B1247#3#842.3%
Gemma 4 26B1221#5#1238.7%
Gemma 4 E4B1156#12#2428.4%
Gemma 4 E2B1098#18#3519.2%

速度ベンチマーク

推論速度(tokens/sec)

代表的なハードウェアでの計測結果:

モデルRTX 4090M2 UltraA100T4
Gemma 4 31B28 tok/s19 tok/s95 tok/s8 tok/s
Gemma 4 26B34 tok/s23 tok/s112 tok/s11 tok/s
Gemma 4 E4B89 tok/s67 tok/s287 tok/s42 tok/s
Gemma 4 E2B156 tok/s124 tok/s498 tok/s89 tok/s

メモリ使用量

量子化レベル別の RAM/VRAM 要件:

モデルFP16INT8INT4モバイル(4bit)
Gemma 4 31B62GB31GB16GBN/A
Gemma 4 26B52GB26GB13GBN/A
Gemma 4 E4B8GB4GB2.5GB2.2GB
Gemma 4 E2B4GB2GB1.3GB1.1GB

特殊ベンチマーク

TruthfulQA

ハルシネーションへの耐性:

モデル真実性情報量両立vs GPT-4
Gemma 4 31B67.3%89.2%62.4%+3.1pt
Gemma 4 26B64.8%87.3%59.7%+0.6pt
Gemma 4 E4B58.2%82.1%52.3%−6.0pt
Gemma 4 E2B52.4%76.8%46.1%−11.8pt

MATH(競技数学)

高度な数学問題:

モデル総合代数幾何数論組合せ
Gemma 4 31B43.2%67.3%38.9%42.1%31.4%
Gemma 4 26B39.7%63.1%35.2%38.4%28.7%
Gemma 4 E4B24.8%41.2%19.3%23.7%15.2%
Gemma 4 E2B17.3%29.8%12.4%16.1%9.8%

言語別性能

多言語 MMLU

言語31B26BE4BE2Bネイティブ基準
English87.2%85.1%73.9%68.2%89.8%
中国語84.6%82.3%69.4%63.1%87.2%
スペイン語85.3%83.1%71.2%65.4%88.4%
日本語83.9%81.4%68.7%62.3%86.9%
フランス語85.7%83.4%71.8%66.1%88.7%
ドイツ語84.8%82.6%70.3%64.7%87.6%

日本語ベンチマーク(JGLUE)

日本語 NLP 標準ベンチマーク JGLUE での参考スコア:

タスク31B26B備考
MARC-ja95.2%93.1%日本語感情分析
JCommonsenseQA88.7%86.2%常識推論
JNLI92.1%89.8%含意関係認識
JSQuAD93.8%91.4%読解
JCoLA89.7%87.3%文法的許容度

日常業務・RAG・要約・FAQ 応答といった実用タスクでは 31B/26B ともに実用レベル。厳密な敬語運用や業界専門語彙は、LoRA による軽量ファインチューニングで上積みできます。

ベンチマーク実施条件

テスト条件

  • Temperature:決定的タスクは 0.1、生成系タスクは 0.7
  • Top-p:全タスク共通で 0.95
  • Context 長:31B/26B は 256K、E シリーズは 10K
  • Prompting:明示指定がある場合は Few-shot、それ以外は Zero-shot
  • Hardware:公平比較のため A100 80GB に統一

バージョン情報

  • 対象モデル:Google 公式チェックポイント
  • 計測日:2026 年 4 月リリース(v1.0.0)
  • フレームワーク:Transformers 4.40.0、vLLM 0.4.2
  • 量子化:INT4 は GPTQ、INT8 は bitsandbytes

世代間の改善

Gemma 3(2024 年)との比較

指標Gemma 3Gemma 4改善
MMLU79.1%87.2%+10.2pt
HumanEval61.3%76.8%+25.3pt
MT-Bench7.838.52+8.8%
推論速度19 tok/s28 tok/s+47.4%

ベンチマークを自分で再現する

同じベンチマークを手元で検証するには、以下の手順です。

# 評価ハーネスのインストール
pip install lm-eval transformers accelerate

# MMLU を実行
lm_eval --model hf \
  --model_args pretrained=google/gemma-4-31b \
  --tasks mmlu \
  --batch_size 8

# HumanEval を実行
evaluate-humaneval \
  --model google/gemma-4-31b \
  --temperature 0.1 \
  --top_p 0.95

詳細な設定手順は ベンチマーク再現ガイド を参照してください。

ベンチマークの限界

ベンチマークが「測っていないもの」も押さえておくことが重要です。

  • 実アプリの体感性能はスコアと乖離することがある
  • プロンプトエンジニアリングだけでスコアが 10〜20% 動く
  • ドメイン特化タスクは汎用ベンチマークの結果と一致しないことが多い
  • マルチモーダル統合は E シリーズでしか検証できていない
  • 長文コンテキスト性能は標準テストでは十分に捕捉できない

よくある質問(FAQ)

Q. Gemma 4 の日本語性能はどれくらい?

日本語 MMLU で 31B が 83.9%、26B が 81.4%。JGLUE 全体でも 90% 前後と、オープンモデルでは最高水準です。業務用途では十分実用レベルですが、厳格な敬語運用や業界専門語彙には日本語データでの軽量ファインチューニングが有効です。

Q. 31B と 26B はどう使い分ける?

品質最優先なら 31B、推論速度とコストのバランス重視なら 26B が無難です。26B は RTX 4090 1 枚(INT4)で快適に動くため、個人開発や小〜中規模のプロダクションに向いています。

Q. E2B/E4B はどんな用途向け?

モバイル・組込み・IoT 向けの超軽量版です。E2B は 4bit 量子化で 1.1GB まで圧縮でき、スマートフォン上でも動作します。オンデバイス AI や低レイテンシ要件のアプリに最適です。

Q. ベンチマークの数値はどこまで信用できる?

本記事の数値は A100 80GB で統一条件(Temperature 0.1、Top-p 0.95、3 回平均)の下で計測しています。とはいえベンチマークと実運用には乖離があるため、自社ユースケースで A/B テストを行うことを強く推奨します。

まとめ

Gemma 4 はあらゆる軸でバランスの取れた性能を提供するオープンモデルです。

  • 31B:大規模クローズドモデルと十分戦える汎用モデル
  • E シリーズ:マルチモーダル AI をエッジ・モバイルに持ち込む
  • 世代間で大幅に改善:MMLU +10pt、HumanEval +25pt
  • 多くの用途で「迷ったらこれ」と言える選択肢

目的別の推奨は以下の通りです。

  • 最高品質:Gemma 4 31B
  • 効率重視:Gemma 4 26B
  • モバイル/エッジ:Gemma 4 E2B/E4B
  • 画像・音声も扱いたい:E シリーズ一択

デプロイに関するガイドは以下を参照してください。

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 ベンチマーク完全版:MMLU 87.2% / HumanEval 76.8%【2026年】 | ブログ