Quel modèle Gemma 4 choisir ? (E2B vs E4B vs 26B vs 31B)

avr. 7, 2026

Gemma 4 existe en quatre variantes, et choisir la bonne fait une grande différence. Un modèle trop gros et vous fixerez un spinner de chargement. Un modèle trop petit et la qualité ne sera pas au rendez-vous. Voyons lequel est fait pour vous.

Les quatre modèles en un coup d'oeil

ModèleParamètresParamètres actifsArchitectureRAM min.RAM recommandée
E2B2B2BDense4 Go6 Go
E4B4B4BDense6 Go8 Go
26B A4B26B3,8BMoE8 Go16-18 Go
31B Dense31B31BDense20 Go24-32 Go

Le point clé : le modèle 26B est un Mixture of Experts (MoE). Il possède 26 milliards de paramètres au total, mais n'en active qu'environ 3,8 milliards à la fois. Cela signifie qu'il est bien plus efficace que le chiffre ne le suggère — vous obtenez la qualité d'un grand modèle à la vitesse d'un petit. Pour approfondir l'architecture MoE, consultez notre comparaison 26B vs 31B.

Détail modèle par modèle

E2B — La fusée de poche

2 milliards de paramètres, ~4 Go de RAM

C'est le plus petit modèle Gemma 4, conçu pour les situations où les ressources sont limitées. Pensez smartphones, Raspberry Pi, appareils embarqués, ou quand vous avez besoin de réponses ultra-rapides sans raisonnement profond.

ollama run gemma4:e2b

Bon pour :

  • Génération de texte rapide et résumés
  • Questions-réponses simples
  • Tâches de classification
  • Exécution sur smartphones et appareils edge
  • Situations où la latence compte plus que la profondeur

Limitations :

  • Difficultés avec le raisonnement complexe en plusieurs étapes
  • Écriture créative moins nuancée
  • Peut perdre le contexte dans les longues conversations

E4B — Le compromis idéal (recommandé)

4 milliards de paramètres, ~6 Go de RAM

Si vous lisez ceci et ne savez pas lequel choisir, c'est probablement celui-ci. E4B tourne confortablement sur n'importe quel portable récent — Mac, Windows, Linux — et offre une qualité étonnamment bonne pour sa taille.

ollama run gemma4:e4b

Bon pour :

  • Chat et questions-réponses polyvalents
  • Génération et explication de code
  • Rédaction et édition de contenu
  • Tâches multimodales (images + texte)
  • Assistant IA quotidien en local

Pourquoi c'est le choix recommandé par défaut :

  • Tourne sur pratiquement tous les portables des 3-4 dernières années
  • Assez rapide pour le chat interactif (facilement 20+ tokens/s sur Apple Silicon)
  • La qualité est vraiment bonne — il frappe bien au-dessus de sa catégorie
  • Consommation de ressources assez faible pour tourner à côté de vos autres applications

26B A4B — Le roi de l'efficacité

26B au total, seulement 3,8B actifs (architecture MoE), ~8-18 Go de RAM

Ce modèle est le plus intéressant de la gamme. Il utilise le Mixture of Experts — Google a entraîné 26 milliards de paramètres, mais pour chaque entrée, seuls environ 3,8B s'activent. Vous obtenez le savoir d'un grand modèle avec la vitesse d'un petit.

ollama run gemma4:26b

Bon pour :

  • Raisonnement complexe et analyse
  • Tâches de programmation dans plusieurs langages
  • Génération de contenu long
  • Questions de connaissances spécialisées
  • Meilleur ratio qualité/FLOP de la gamme

Le piège :

  • Même si les paramètres actifs sont peu nombreux, vous devez quand même charger les 26B en mémoire
  • Avec la quantification GGUF Q4, comptez environ 8-16 Go selon la longueur de contexte
  • Les modèles MoE peuvent avoir une qualité de sortie légèrement plus variable (différents experts s'activent pour différentes entrées)

Qui devrait l'utiliser : Si vous avez une machine avec 16+ Go de RAM et un GPU correct (ou un Mac Apple Silicon), c'est sans doute le meilleur modèle de toute la gamme. Vous obtenez une qualité proche du 31B à la vitesse du E4B.

31B Dense — Puissance maximale

31 milliards de paramètres, tous denses, ~20 Go de RAM minimum

C'est le plus gros et le plus capable des modèles Gemma 4. Chaque token traité touche les 31 milliards de paramètres. Pas de raccourcis, pas de routage — juste de la capacité brute.

ollama run gemma4:31b

Bon pour :

  • Les tâches de raisonnement les plus difficiles
  • La meilleure qualité d'écriture créative
  • Génération et débogage de code complexe
  • Recherche et analyse
  • Quand la qualité est le seul critère

Exigences :

  • Minimum 20 Go de RAM (24-32 Go recommandés)
  • GPU dédié fortement recommandé pour une vitesse acceptable
  • En quantification Q4, le fichier du modèle fait environ 18 Go

Mémoire GPU requise (utilisateurs GPU)

Si vous utilisez un GPU, voici ce qu'il vous faut. Pour un détail par machine spécifique (MacBook, PC gaming, cloud), consultez notre guide de configuration matérielle.

ModèleQ4_K_MQ5_K_MQ8_0FP16
E2B~1,5 Go~1,8 Go~2,5 Go~4 Go
E4B~3 Go~3,5 Go~5 Go~8 Go
26B A4B~8 Go~10 Go~14 Go~52 Go
31B Dense~18 Go~21 Go~30 Go~62 Go

Astuce : la quantification Q4_K_M est le compromis idéal pour la plupart des gens. Vous perdez très peu en qualité par rapport à la pleine précision, et les économies de mémoire sont massives.

Attention au cache KV

Voici quelque chose qui piège beaucoup de monde : les poids du modèle ne sont pas les seuls à consommer votre mémoire. Le cache KV — qui stocke le contexte de votre conversation — peut devenir énorme, surtout avec la fenêtre de contexte massive de Gemma 4.

Les retours de la communauté sur le modèle 31B montrent qu'avec une fenêtre de contexte de 262K, le cache KV seul peut consommer ~22 Go de mémoire supplémentaire. C'est en plus des poids du modèle.

Conseils pratiques :

  • Si vous avez des problèmes de mémoire, essayez de réduire la longueur de contexte :
    # Dans Ollama, définir une fenêtre de contexte plus petite
    ollama run gemma4:31b --ctx-size 8192
  • Pour les modèles 26B et 31B, envisagez d'activer la quantification du cache KV (Q8 ou Q4) pour réduire significativement l'usage mémoire
  • Les modèles E2B et E4B sont beaucoup plus raisonnables — leur cache KV reste gérable même avec des contextes plus longs

Arbre de décision : quel matériel avez-vous ?

"J'ai un smartphone ou un Raspberry Pi" → E2B. C'est le seul qui tiendra.

"J'ai un portable avec 8 Go de RAM" → E4B. Il tournera bien et laissera de la place pour vos autres applications.

"J'ai un portable/bureau avec 16 Go de RAM" → E4B pour la vitesse, ou 26B (quantifié) si vous voulez une meilleure qualité et pouvez attendre un peu plus.

"J'ai 24+ Go de RAM ou un GPU avec 8+ Go de VRAM" → 26B est le compromis idéal. Sérieusement, il est incroyablement bon pour le coût de calcul.

"J'ai une station de travail avec 24+ Go de VRAM" → 31B Dense pour la qualité maximale. Vous avez la puissance, utilisez-la.

"Je veux l'utiliser sur mon serveur/cloud" → 26B ou 31B, selon votre budget et vos exigences de latence.

Comparaison de benchmarks

Voici comment les modèles se classent sur les benchmarks courants :

BenchmarkE2BE4B26B A4B31B Dense
MMLUBonMeilleurExcellentLe meilleur
HumanEval (Code)CorrectBonTrès bonExcellent
GSM8K (Maths)BasiqueBonFortLe plus fort
Multimodal (Vision)BasiqueBonFortLe meilleur
Vitesse (tok/s sur M3)~60~35~25~8

Le modèle 26B MoE se démarque — il se rapproche des scores de qualité du 31B tout en étant presque 3x plus rapide. L'architecture MoE porte vraiment ses fruits.

Quantification : laquelle choisir ?

Si vous téléchargez des fichiers GGUF depuis Hugging Face, vous verrez des options comme Q4_K_M, Q5_K_M, Q8_0, etc. Voici ce qu'elles signifient :

QuantificationPerte de qualitéRéduction de tailleRecommandation
Q4_K_MMinimale~75 % plus petitMeilleur choix par défaut
Q5_K_MTrès faible~65 % plus petitBien si vous avez la place
Q8_0Négligeable~50 % plus petitOrienté qualité
FP16AucuneTaille complèteUniquement pour le fine-tuning

Ma recommandation : commencez par Q4_K_M. Si vous remarquez des problèmes de qualité pour votre cas d'usage spécifique, passez à Q5_K_M. La plupart des gens ne voient sincèrement pas la différence.

Pour télécharger le modèle, rendez-vous sur notre guide de téléchargement complet.

Étapes suivantes

Gemma 4 AI

Gemma 4 AI

Related Guides

Quel modèle Gemma 4 choisir ? (E2B vs E4B vs 26B vs 31B) | Blog