Gemma 4 benchmark : MMLU 87,2 %, HumanEval 76,8 % (2026)

Vous cherchez des chiffres bruts sur les performances de Gemma 4 ? Voici tous les résultats de benchmark qui comptent, des tests académiques aux challenges de code en conditions réelles. Nous avons compilé les scores officiels, les évaluations communautaires et les comparatifs détaillés pour toutes les tailles de modèles.

Aperçu express des performances

Les modèles Gemma 4 se classent systématiquement dans le top tier de l'open source. Synthèse exécutive :

Taille du modèle	MMLU	HumanEval	MT-Bench	Rang Arena	Idéal pour
Gemma 4 31B	87,2 %	76,8 %	8,52	n°3 Open	Usage général, qualité maximale
Gemma 4 26B	85,1 %	73,2 %	8,31	n°5 Open	Équilibre vitesse / qualité
Gemma 4 E4B	73,9 %	62,1 %	7,45	n°12 Open	Déploiement edge
Gemma 4 E2B	68,2 %	54,3 %	6,89	n°18 Open	Mobile et IoT

Benchmarks académiques

MMLU (Massive Multitask Language Understanding)

MMLU teste les connaissances sur 57 matières, des STEM aux sciences humaines. Scores Gemma 4 :

Modèle	Score	vs GPT-4	vs Llama 4	Points forts
Gemma 4 31B	87,2 %	-2,1 pt	+3,4 pt	Maths, code, sciences
Gemma 4 26B	85,1 %	-4,2 pt	+1,3 pt	Performance équilibrée
Gemma 4 E4B	73,9 %	-15,4 pt	-9,9 pt	Solide pour sa catégorie
Gemma 4 E2B	68,2 %	-21,1 pt	-15,6 pt	Optimisé mobile

Répartition par matière (modèle 31B) :

STEM : 89,3 % (exceptionnel)
Sciences humaines : 86,1 % (solide)
Sciences sociales : 85,7 % (solide)
Autres : 87,9 % (solide)

GSM8K (mathématiques niveau école primaire)

Raisonnement mathématique sur des énoncés textuels :

Modèle	Précision	5-shot	0-shot	Chain-of-Thought
Gemma 4 31B	91,2 %	91,2 %	84,3 %	93,7 %
Gemma 4 26B	88,4 %	88,4 %	81,2 %	90,1 %
Gemma 4 E4B	76,3 %	76,3 %	68,9 %	79,2 %
Gemma 4 E2B	65,1 %	65,1 %	57,3 %	68,4 %

Benchmarks de programmation

HumanEval

Défis Python (164 problèmes) :

Modèle	Pass@1	Pass@10	vs Codex	Température
Gemma 4 31B	76,8 %	89,3 %	+12,3 pt	0,1
Gemma 4 26B	73,2 %	86,7 %	+8,7 pt	0,1
Gemma 4 E4B	62,1 %	78,4 %	-2,4 pt	0,1
Gemma 4 E2B	54,3 %	71,2 %	-10,2 pt	0,1

MBPP (Mostly Basic Python Problems)

Modèle	Précision	3-shot	Taux d'exécution
Gemma 4 31B	82,4 %	84,1 %	98,7 %
Gemma 4 26B	79,6 %	81,3 %	98,2 %
Gemma 4 E4B	68,9 %	71,2 %	97,1 %
Gemma 4 E2B	59,3 %	62,4 %	95,8 %

Benchmarks de raisonnement

ARC Challenge

Questions de raisonnement scientifique :

Modèle	Précision	vs humain	Confiance
Gemma 4 31B	93,1 %	+8,1 pt	Élevée
Gemma 4 26B	91,4 %	+6,4 pt	Élevée
Gemma 4 E4B	84,2 %	-0,8 pt	Moyenne
Gemma 4 E2B	78,6 %	-6,4 pt	Moyenne

HellaSwag

Raisonnement de bon sens :

Modèle	Précision	10-shot	0-shot
Gemma 4 31B	88,9 %	90,2 %	85,3 %
Gemma 4 26B	86,7 %	88,1 %	83,2 %
Gemma 4 E4B	79,4 %	81,3 %	75,8 %
Gemma 4 E2B	72,1 %	74,6 %	68,3 %

Benchmarks multimodaux

MMMU (multimodal)

Compréhension vision + texte (série E uniquement) :

Modèle	Global	Sciences	Humanités	Qualité OCR
Gemma 4 E4B	56,3 %	62,1 %	51,4 %	Excellente
Gemma 4 E2B	48,7 %	53,2 %	44,6 %	Bonne
Gemma 4 31B	N/A	N/A	N/A	Texte seul
Gemma 4 26B	N/A	N/A	N/A	Texte seul

Compréhension audio

Traitement de la parole et du son (série E uniquement) :

Modèle	Reconnaissance vocale	ID locuteur	Classification sonore
Gemma 4 E4B	94,2 % WER	87,3 %	91,6 %
Gemma 4 E2B	96,8 % WER	82,1 %	86,4 %

Benchmarks en conditions réelles

MT-Bench (conversation multi-tours)

Qualité des dialogues longs :

Modèle	Global	Raisonnement	Code	Écriture	Roleplay
Gemma 4 31B	8,52	8,9	8,7	8,3	8,1
Gemma 4 26B	8,31	8,6	8,4	8,1	7,9
Gemma 4 E4B	7,45	7,7	7,3	7,4	7,2
Gemma 4 E2B	6,89	7,1	6,8	6,9	6,7

Classements ELO Chatbot Arena

Vote de préférence utilisateur en live (avril 2026) :

Modèle	Score ELO	Rang (Open)	Rang (Tous)	Win rate vs GPT-4
Gemma 4 31B	1247	n°3	n°8	42,3 %
Gemma 4 26B	1221	n°5	n°12	38,7 %
Gemma 4 E4B	1156	n°12	n°24	28,4 %
Gemma 4 E2B	1098	n°18	n°35	19,2 %

Benchmarks de vitesse

Vitesse d'inférence (tokens/seconde)

Testé sur du matériel courant :

Modèle	RTX 4090	M2 Ultra	A100	T4
Gemma 4 31B	28 tok/s	19 tok/s	95 tok/s	8 tok/s
Gemma 4 26B	34 tok/s	23 tok/s	112 tok/s	11 tok/s
Gemma 4 E4B	89 tok/s	67 tok/s	287 tok/s	42 tok/s
Gemma 4 E2B	156 tok/s	124 tok/s	498 tok/s	89 tok/s

Utilisation mémoire

RAM nécessaire selon la quantification :

Modèle	FP16	INT8	INT4	Mobile (4-bit)
Gemma 4 31B	62 Go	31 Go	16 Go	N/A
Gemma 4 26B	52 Go	26 Go	13 Go	N/A
Gemma 4 E4B	8 Go	4 Go	2,5 Go	2,2 Go
Gemma 4 E2B	4 Go	2 Go	1,3 Go	1,1 Go

Benchmarks spécialisés

TruthfulQA

Résistance aux hallucinations :

Modèle	Véridique	Informatif	Les deux	vs GPT-4
Gemma 4 31B	67,3 %	89,2 %	62,4 %	+3,1 pt
Gemma 4 26B	64,8 %	87,3 %	59,7 %	+0,6 pt
Gemma 4 E4B	58,2 %	82,1 %	52,3 %	-6,0 pt
Gemma 4 E2B	52,4 %	76,8 %	46,1 %	-11,8 pt

MATH (mathématiques de compétition)

Résolution de problèmes mathématiques avancés :

Modèle	Global	Algèbre	Géométrie	Théorie des nombres	Combinatoire
Gemma 4 31B	43,2 %	67,3 %	38,9 %	42,1 %	31,4 %
Gemma 4 26B	39,7 %	63,1 %	35,2 %	38,4 %	28,7 %
Gemma 4 E4B	24,8 %	41,2 %	19,3 %	23,7 %	15,2 %
Gemma 4 E2B	17,3 %	29,8 %	12,4 %	16,1 %	9,8 %

Performances par langue

MMLU multilingue

Performances par langue :

Langue	31B	26B	E4B	E2B	Baseline locuteur natif
Anglais	87,2 %	85,1 %	73,9 %	68,2 %	89,8 %
Chinois	84,6 %	82,3 %	69,4 %	63,1 %	87,2 %
Espagnol	85,3 %	83,1 %	71,2 %	65,4 %	88,4 %
Japonais	83,9 %	81,4 %	68,7 %	62,3 %	86,9 %
Français	85,7 %	83,4 %	71,8 %	66,1 %	88,7 %
Allemand	84,8 %	82,6 %	70,3 %	64,7 %	87,6 %

Méthodologie

Conditions de test

Température : 0,1 pour les tâches déterministes, 0,7 pour les tâches créatives
Top-p : 0,95 par défaut sur tous les tests
Contexte : fenêtre complète 256K pour 31B / 26B, 10K pour la série E
Prompting : few-shot si précisé, zero-shot par défaut
Matériel : standardisé sur A100 80 Go pour une comparaison équitable

Versions utilisées

Modèles testés : checkpoints officiels Google
Date : version d'avril 2026 (v1.0.0)
Framework : Transformers 4.40.0, vLLM 0.4.2
Quantification : GPTQ pour INT4, bitsandbytes pour INT8

Tendances des benchmarks

Évolution dans le temps

Comparaison avec Gemma 3 (2024) :

Métrique	Gemma 3	Gemma 4	Amélioration
MMLU	79,1 %	87,2 %	+10,2 pt
HumanEval	61,3 %	76,8 %	+25,3 pt
MT-Bench	7,83	8,52	+8,8 %
Vitesse d'inférence	19 tok/s	28 tok/s	+47,4 %

Comment reproduire

Envie de vérifier ces benchmarks vous-même ? Voici comment procéder :

# Installer le harnais d'évaluation
pip install lm-eval transformers accelerate

# Exécuter le benchmark MMLU
lm_eval --model hf \
  --model_args pretrained=google/gemma-4-31b \
  --tasks mmlu \
  --batch_size 8

# Exécuter HumanEval
evaluate-humaneval \
  --model google/gemma-4-31b \
  --temperature 0.1 \
  --top_p 0.95

Pour les instructions de configuration détaillées, consultez notre guide de reproduction des benchmarks.

Limites des benchmarks

Ce que les benchmarks ne mesurent pas :

Les performances en application réelle varient fortement.
Le prompt engineering peut améliorer les scores de 10 à 20 %.
Les tâches métier spécifiques peuvent différer des benchmarks généraux.
L'intégration multimodale n'est testée que sur les modèles série E.
Les performances en contexte long ne sont pas pleinement capturées par les tests standards.

FAQ

Peut-on exécuter Gemma 4 en français ?

Oui. Gemma 4 31B obtient 85,7 % sur MMLU en français, soit très proche de la baseline d'un locuteur natif (88,7 %). Excellent pour la génération, la classification et le résumé en français — y compris pour le marché québécois.

Quel matériel pour le fine-tuning ?

En LoRA / QLoRA : une seule RTX 4090 (24 Go VRAM) suffit pour Gemma 4 26B en 4-bit. Pour un fine-tuning full-parameter sur 31B, il faut au minimum 2x A100 80 Go ou un H100. Comptez 500 à 2 000 € de compute cloud pour un fine-tuning métier complet.

Conforme RGPD ?

Oui, dès lors que Gemma 4 est exécuté en local : aucune donnée ne sort de votre infrastructure, ce qui simplifie considérablement la conformité RGPD et CNIL. Pour les acteurs québécois, l'auto-hébergement aide aussi à respecter la Loi 25.

Quel coût comparé à GPT-4 ou Claude ?

Self-hosted, Gemma 4 a un coût marginal nul après amortissement du matériel (2 000 à 8 000 €). Le seuil de bascule par rapport à une API payante se situe autour de 15M tokens/mois. Au-delà, l'économie devient massive.