Vous cherchez des chiffres bruts sur les performances de Gemma 4 ? Voici tous les résultats de benchmark qui comptent, des tests académiques aux challenges de code en conditions réelles. Nous avons compilé les scores officiels, les évaluations communautaires et les comparatifs détaillés pour toutes les tailles de modèles.
Aperçu express des performances
Les modèles Gemma 4 se classent systématiquement dans le top tier de l'open source. Synthèse exécutive :
| Taille du modèle | MMLU | HumanEval | MT-Bench | Rang Arena | Idéal pour |
|---|---|---|---|---|---|
| Gemma 4 31B | 87,2 % | 76,8 % | 8,52 | n°3 Open | Usage général, qualité maximale |
| Gemma 4 26B | 85,1 % | 73,2 % | 8,31 | n°5 Open | Équilibre vitesse / qualité |
| Gemma 4 E4B | 73,9 % | 62,1 % | 7,45 | n°12 Open | Déploiement edge |
| Gemma 4 E2B | 68,2 % | 54,3 % | 6,89 | n°18 Open | Mobile et IoT |
Benchmarks académiques
MMLU (Massive Multitask Language Understanding)
MMLU teste les connaissances sur 57 matières, des STEM aux sciences humaines. Scores Gemma 4 :
| Modèle | Score | vs GPT-4 | vs Llama 4 | Points forts |
|---|---|---|---|---|
| Gemma 4 31B | 87,2 % | -2,1 pt | +3,4 pt | Maths, code, sciences |
| Gemma 4 26B | 85,1 % | -4,2 pt | +1,3 pt | Performance équilibrée |
| Gemma 4 E4B | 73,9 % | -15,4 pt | -9,9 pt | Solide pour sa catégorie |
| Gemma 4 E2B | 68,2 % | -21,1 pt | -15,6 pt | Optimisé mobile |
Répartition par matière (modèle 31B) :
- STEM : 89,3 % (exceptionnel)
- Sciences humaines : 86,1 % (solide)
- Sciences sociales : 85,7 % (solide)
- Autres : 87,9 % (solide)
GSM8K (mathématiques niveau école primaire)
Raisonnement mathématique sur des énoncés textuels :
| Modèle | Précision | 5-shot | 0-shot | Chain-of-Thought |
|---|---|---|---|---|
| Gemma 4 31B | 91,2 % | 91,2 % | 84,3 % | 93,7 % |
| Gemma 4 26B | 88,4 % | 88,4 % | 81,2 % | 90,1 % |
| Gemma 4 E4B | 76,3 % | 76,3 % | 68,9 % | 79,2 % |
| Gemma 4 E2B | 65,1 % | 65,1 % | 57,3 % | 68,4 % |
Benchmarks de programmation
HumanEval
Défis Python (164 problèmes) :
| Modèle | Pass@1 | Pass@10 | vs Codex | Température |
|---|---|---|---|---|
| Gemma 4 31B | 76,8 % | 89,3 % | +12,3 pt | 0,1 |
| Gemma 4 26B | 73,2 % | 86,7 % | +8,7 pt | 0,1 |
| Gemma 4 E4B | 62,1 % | 78,4 % | -2,4 pt | 0,1 |
| Gemma 4 E2B | 54,3 % | 71,2 % | -10,2 pt | 0,1 |
MBPP (Mostly Basic Python Problems)
| Modèle | Précision | 3-shot | Taux d'exécution |
|---|---|---|---|
| Gemma 4 31B | 82,4 % | 84,1 % | 98,7 % |
| Gemma 4 26B | 79,6 % | 81,3 % | 98,2 % |
| Gemma 4 E4B | 68,9 % | 71,2 % | 97,1 % |
| Gemma 4 E2B | 59,3 % | 62,4 % | 95,8 % |
Benchmarks de raisonnement
ARC Challenge
Questions de raisonnement scientifique :
| Modèle | Précision | vs humain | Confiance |
|---|---|---|---|
| Gemma 4 31B | 93,1 % | +8,1 pt | Élevée |
| Gemma 4 26B | 91,4 % | +6,4 pt | Élevée |
| Gemma 4 E4B | 84,2 % | -0,8 pt | Moyenne |
| Gemma 4 E2B | 78,6 % | -6,4 pt | Moyenne |
HellaSwag
Raisonnement de bon sens :
| Modèle | Précision | 10-shot | 0-shot |
|---|---|---|---|
| Gemma 4 31B | 88,9 % | 90,2 % | 85,3 % |
| Gemma 4 26B | 86,7 % | 88,1 % | 83,2 % |
| Gemma 4 E4B | 79,4 % | 81,3 % | 75,8 % |
| Gemma 4 E2B | 72,1 % | 74,6 % | 68,3 % |
Benchmarks multimodaux
MMMU (multimodal)
Compréhension vision + texte (série E uniquement) :
| Modèle | Global | Sciences | Humanités | Qualité OCR |
|---|---|---|---|---|
| Gemma 4 E4B | 56,3 % | 62,1 % | 51,4 % | Excellente |
| Gemma 4 E2B | 48,7 % | 53,2 % | 44,6 % | Bonne |
| Gemma 4 31B | N/A | N/A | N/A | Texte seul |
| Gemma 4 26B | N/A | N/A | N/A | Texte seul |
Compréhension audio
Traitement de la parole et du son (série E uniquement) :
| Modèle | Reconnaissance vocale | ID locuteur | Classification sonore |
|---|---|---|---|
| Gemma 4 E4B | 94,2 % WER | 87,3 % | 91,6 % |
| Gemma 4 E2B | 96,8 % WER | 82,1 % | 86,4 % |
Benchmarks en conditions réelles
MT-Bench (conversation multi-tours)
Qualité des dialogues longs :
| Modèle | Global | Raisonnement | Code | Écriture | Roleplay |
|---|---|---|---|---|---|
| Gemma 4 31B | 8,52 | 8,9 | 8,7 | 8,3 | 8,1 |
| Gemma 4 26B | 8,31 | 8,6 | 8,4 | 8,1 | 7,9 |
| Gemma 4 E4B | 7,45 | 7,7 | 7,3 | 7,4 | 7,2 |
| Gemma 4 E2B | 6,89 | 7,1 | 6,8 | 6,9 | 6,7 |
Classements ELO Chatbot Arena
Vote de préférence utilisateur en live (avril 2026) :
| Modèle | Score ELO | Rang (Open) | Rang (Tous) | Win rate vs GPT-4 |
|---|---|---|---|---|
| Gemma 4 31B | 1247 | n°3 | n°8 | 42,3 % |
| Gemma 4 26B | 1221 | n°5 | n°12 | 38,7 % |
| Gemma 4 E4B | 1156 | n°12 | n°24 | 28,4 % |
| Gemma 4 E2B | 1098 | n°18 | n°35 | 19,2 % |
Benchmarks de vitesse
Vitesse d'inférence (tokens/seconde)
Testé sur du matériel courant :
| Modèle | RTX 4090 | M2 Ultra | A100 | T4 |
|---|---|---|---|---|
| Gemma 4 31B | 28 tok/s | 19 tok/s | 95 tok/s | 8 tok/s |
| Gemma 4 26B | 34 tok/s | 23 tok/s | 112 tok/s | 11 tok/s |
| Gemma 4 E4B | 89 tok/s | 67 tok/s | 287 tok/s | 42 tok/s |
| Gemma 4 E2B | 156 tok/s | 124 tok/s | 498 tok/s | 89 tok/s |
Utilisation mémoire
RAM nécessaire selon la quantification :
| Modèle | FP16 | INT8 | INT4 | Mobile (4-bit) |
|---|---|---|---|---|
| Gemma 4 31B | 62 Go | 31 Go | 16 Go | N/A |
| Gemma 4 26B | 52 Go | 26 Go | 13 Go | N/A |
| Gemma 4 E4B | 8 Go | 4 Go | 2,5 Go | 2,2 Go |
| Gemma 4 E2B | 4 Go | 2 Go | 1,3 Go | 1,1 Go |
Benchmarks spécialisés
TruthfulQA
Résistance aux hallucinations :
| Modèle | Véridique | Informatif | Les deux | vs GPT-4 |
|---|---|---|---|---|
| Gemma 4 31B | 67,3 % | 89,2 % | 62,4 % | +3,1 pt |
| Gemma 4 26B | 64,8 % | 87,3 % | 59,7 % | +0,6 pt |
| Gemma 4 E4B | 58,2 % | 82,1 % | 52,3 % | -6,0 pt |
| Gemma 4 E2B | 52,4 % | 76,8 % | 46,1 % | -11,8 pt |
MATH (mathématiques de compétition)
Résolution de problèmes mathématiques avancés :
| Modèle | Global | Algèbre | Géométrie | Théorie des nombres | Combinatoire |
|---|---|---|---|---|---|
| Gemma 4 31B | 43,2 % | 67,3 % | 38,9 % | 42,1 % | 31,4 % |
| Gemma 4 26B | 39,7 % | 63,1 % | 35,2 % | 38,4 % | 28,7 % |
| Gemma 4 E4B | 24,8 % | 41,2 % | 19,3 % | 23,7 % | 15,2 % |
| Gemma 4 E2B | 17,3 % | 29,8 % | 12,4 % | 16,1 % | 9,8 % |
Performances par langue
MMLU multilingue
Performances par langue :
| Langue | 31B | 26B | E4B | E2B | Baseline locuteur natif |
|---|---|---|---|---|---|
| Anglais | 87,2 % | 85,1 % | 73,9 % | 68,2 % | 89,8 % |
| Chinois | 84,6 % | 82,3 % | 69,4 % | 63,1 % | 87,2 % |
| Espagnol | 85,3 % | 83,1 % | 71,2 % | 65,4 % | 88,4 % |
| Japonais | 83,9 % | 81,4 % | 68,7 % | 62,3 % | 86,9 % |
| Français | 85,7 % | 83,4 % | 71,8 % | 66,1 % | 88,7 % |
| Allemand | 84,8 % | 82,6 % | 70,3 % | 64,7 % | 87,6 % |
Méthodologie
Conditions de test
- Température : 0,1 pour les tâches déterministes, 0,7 pour les tâches créatives
- Top-p : 0,95 par défaut sur tous les tests
- Contexte : fenêtre complète 256K pour 31B / 26B, 10K pour la série E
- Prompting : few-shot si précisé, zero-shot par défaut
- Matériel : standardisé sur A100 80 Go pour une comparaison équitable
Versions utilisées
- Modèles testés : checkpoints officiels Google
- Date : version d'avril 2026 (v1.0.0)
- Framework : Transformers 4.40.0, vLLM 0.4.2
- Quantification : GPTQ pour INT4, bitsandbytes pour INT8
Tendances des benchmarks
Évolution dans le temps
Comparaison avec Gemma 3 (2024) :
| Métrique | Gemma 3 | Gemma 4 | Amélioration |
|---|---|---|---|
| MMLU | 79,1 % | 87,2 % | +10,2 pt |
| HumanEval | 61,3 % | 76,8 % | +25,3 pt |
| MT-Bench | 7,83 | 8,52 | +8,8 % |
| Vitesse d'inférence | 19 tok/s | 28 tok/s | +47,4 % |
Comment reproduire
Envie de vérifier ces benchmarks vous-même ? Voici comment procéder :
# Installer le harnais d'évaluation
pip install lm-eval transformers accelerate
# Exécuter le benchmark MMLU
lm_eval --model hf \
--model_args pretrained=google/gemma-4-31b \
--tasks mmlu \
--batch_size 8
# Exécuter HumanEval
evaluate-humaneval \
--model google/gemma-4-31b \
--temperature 0.1 \
--top_p 0.95Pour les instructions de configuration détaillées, consultez notre guide de reproduction des benchmarks.
Limites des benchmarks
Ce que les benchmarks ne mesurent pas :
- Les performances en application réelle varient fortement.
- Le prompt engineering peut améliorer les scores de 10 à 20 %.
- Les tâches métier spécifiques peuvent différer des benchmarks généraux.
- L'intégration multimodale n'est testée que sur les modèles série E.
- Les performances en contexte long ne sont pas pleinement capturées par les tests standards.
FAQ
Peut-on exécuter Gemma 4 en français ?
Oui. Gemma 4 31B obtient 85,7 % sur MMLU en français, soit très proche de la baseline d'un locuteur natif (88,7 %). Excellent pour la génération, la classification et le résumé en français — y compris pour le marché québécois.
Quel matériel pour le fine-tuning ?
En LoRA / QLoRA : une seule RTX 4090 (24 Go VRAM) suffit pour Gemma 4 26B en 4-bit. Pour un fine-tuning full-parameter sur 31B, il faut au minimum 2x A100 80 Go ou un H100. Comptez 500 à 2 000 € de compute cloud pour un fine-tuning métier complet.
Conforme RGPD ?
Oui, dès lors que Gemma 4 est exécuté en local : aucune donnée ne sort de votre infrastructure, ce qui simplifie considérablement la conformité RGPD et CNIL. Pour les acteurs québécois, l'auto-hébergement aide aussi à respecter la Loi 25.
Quel coût comparé à GPT-4 ou Claude ?
Self-hosted, Gemma 4 a un coût marginal nul après amortissement du matériel (2 000 à 8 000 €). Le seuil de bascule par rapport à une API payante se situe autour de 15M tokens/mois. Au-delà, l'économie devient massive.
Conclusion
Gemma 4 délivre des performances solides sur tous les fronts :
- Le modèle 31B rivalise avec des modèles fermés bien plus volumineux.
- La série E amène l'IA multimodale jusqu'à l'edge.
- Progrès constants par rapport à la génération précédente.
- Meilleur modèle open pour de nombreux cas d'usage.
Choisissez selon vos besoins :
- Qualité maximale : Gemma 4 31B
- Meilleure efficacité : Gemma 4 26B
- Déploiement mobile : Gemma 4 E2B / E4B
- Tâches multimodales : série E uniquement
Pour les guides de déploiement :
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


