Quel modèle Gemma 4 choisir ? (E2B vs E4B vs 26B vs 31B)

Gemma 4 existe en quatre variantes, et choisir la bonne fait une grande différence. Un modèle trop gros et vous fixerez un spinner de chargement. Un modèle trop petit et la qualité ne sera pas au rendez-vous. Voyons lequel est fait pour vous.

Les quatre modèles en un coup d'oeil

Modèle	Paramètres	Paramètres actifs	Architecture	RAM min.	RAM recommandée
E2B	2B	2B	Dense	4 Go	6 Go
E4B	4B	4B	Dense	6 Go	8 Go
26B A4B	26B	3,8B	MoE	8 Go	16-18 Go
31B Dense	31B	31B	Dense	20 Go	24-32 Go

Le point clé : le modèle 26B est un Mixture of Experts (MoE). Il possède 26 milliards de paramètres au total, mais n'en active qu'environ 3,8 milliards à la fois. Cela signifie qu'il est bien plus efficace que le chiffre ne le suggère — vous obtenez la qualité d'un grand modèle à la vitesse d'un petit. Pour approfondir l'architecture MoE, consultez notre comparaison 26B vs 31B.

Détail modèle par modèle

E2B — La fusée de poche

2 milliards de paramètres, ~4 Go de RAM

C'est le plus petit modèle Gemma 4, conçu pour les situations où les ressources sont limitées. Pensez smartphones, Raspberry Pi, appareils embarqués, ou quand vous avez besoin de réponses ultra-rapides sans raisonnement profond.

ollama run gemma4:e2b

Bon pour :

Génération de texte rapide et résumés
Questions-réponses simples
Tâches de classification
Exécution sur smartphones et appareils edge
Situations où la latence compte plus que la profondeur

Limitations :

Difficultés avec le raisonnement complexe en plusieurs étapes
Écriture créative moins nuancée
Peut perdre le contexte dans les longues conversations

E4B — Le compromis idéal (recommandé)

4 milliards de paramètres, ~6 Go de RAM

Si vous lisez ceci et ne savez pas lequel choisir, c'est probablement celui-ci. E4B tourne confortablement sur n'importe quel portable récent — Mac, Windows, Linux — et offre une qualité étonnamment bonne pour sa taille.

ollama run gemma4:e4b

Bon pour :

Chat et questions-réponses polyvalents
Génération et explication de code
Rédaction et édition de contenu
Tâches multimodales (images + texte)
Assistant IA quotidien en local

Pourquoi c'est le choix recommandé par défaut :

Tourne sur pratiquement tous les portables des 3-4 dernières années
Assez rapide pour le chat interactif (facilement 20+ tokens/s sur Apple Silicon)
La qualité est vraiment bonne — il frappe bien au-dessus de sa catégorie
Consommation de ressources assez faible pour tourner à côté de vos autres applications

26B A4B — Le roi de l'efficacité

26B au total, seulement 3,8B actifs (architecture MoE), ~8-18 Go de RAM

Ce modèle est le plus intéressant de la gamme. Il utilise le Mixture of Experts — Google a entraîné 26 milliards de paramètres, mais pour chaque entrée, seuls environ 3,8B s'activent. Vous obtenez le savoir d'un grand modèle avec la vitesse d'un petit.

ollama run gemma4:26b

Bon pour :

Raisonnement complexe et analyse
Tâches de programmation dans plusieurs langages
Génération de contenu long
Questions de connaissances spécialisées
Meilleur ratio qualité/FLOP de la gamme

Le piège :

Même si les paramètres actifs sont peu nombreux, vous devez quand même charger les 26B en mémoire
Avec la quantification GGUF Q4, comptez environ 8-16 Go selon la longueur de contexte
Les modèles MoE peuvent avoir une qualité de sortie légèrement plus variable (différents experts s'activent pour différentes entrées)

Qui devrait l'utiliser : Si vous avez une machine avec 16+ Go de RAM et un GPU correct (ou un Mac Apple Silicon), c'est sans doute le meilleur modèle de toute la gamme. Vous obtenez une qualité proche du 31B à la vitesse du E4B.

31B Dense — Puissance maximale

31 milliards de paramètres, tous denses, ~20 Go de RAM minimum

C'est le plus gros et le plus capable des modèles Gemma 4. Chaque token traité touche les 31 milliards de paramètres. Pas de raccourcis, pas de routage — juste de la capacité brute.

ollama run gemma4:31b

Bon pour :

Les tâches de raisonnement les plus difficiles
La meilleure qualité d'écriture créative
Génération et débogage de code complexe
Recherche et analyse
Quand la qualité est le seul critère

Exigences :

Minimum 20 Go de RAM (24-32 Go recommandés)
GPU dédié fortement recommandé pour une vitesse acceptable
En quantification Q4, le fichier du modèle fait environ 18 Go

Mémoire GPU requise (utilisateurs GPU)

Si vous utilisez un GPU, voici ce qu'il vous faut. Pour un détail par machine spécifique (MacBook, PC gaming, cloud), consultez notre guide de configuration matérielle.

Modèle	Q4_K_M	Q5_K_M	Q8_0	FP16
E2B	~1,5 Go	~1,8 Go	~2,5 Go	~4 Go
E4B	~3 Go	~3,5 Go	~5 Go	~8 Go
26B A4B	~8 Go	~10 Go	~14 Go	~52 Go
31B Dense	~18 Go	~21 Go	~30 Go	~62 Go

Astuce : la quantification Q4_K_M est le compromis idéal pour la plupart des gens. Vous perdez très peu en qualité par rapport à la pleine précision, et les économies de mémoire sont massives.

Attention au cache KV

Voici quelque chose qui piège beaucoup de monde : les poids du modèle ne sont pas les seuls à consommer votre mémoire. Le cache KV — qui stocke le contexte de votre conversation — peut devenir énorme, surtout avec la fenêtre de contexte massive de Gemma 4.

Les retours de la communauté sur le modèle 31B montrent qu'avec une fenêtre de contexte de 262K, le cache KV seul peut consommer ~22 Go de mémoire supplémentaire. C'est en plus des poids du modèle.

Conseils pratiques :

Si vous avez des problèmes de mémoire, essayez de réduire la longueur de contexte :

# Dans Ollama, définir une fenêtre de contexte plus petite
ollama run gemma4:31b --ctx-size 8192

Pour les modèles 26B et 31B, envisagez d'activer la quantification du cache KV (Q8 ou Q4) pour réduire significativement l'usage mémoire
Les modèles E2B et E4B sont beaucoup plus raisonnables — leur cache KV reste gérable même avec des contextes plus longs

Arbre de décision : quel matériel avez-vous ?

"J'ai un smartphone ou un Raspberry Pi" → E2B. C'est le seul qui tiendra.

"J'ai un portable avec 8 Go de RAM" → E4B. Il tournera bien et laissera de la place pour vos autres applications.

"J'ai un portable/bureau avec 16 Go de RAM" → E4B pour la vitesse, ou 26B (quantifié) si vous voulez une meilleure qualité et pouvez attendre un peu plus.

"J'ai 24+ Go de RAM ou un GPU avec 8+ Go de VRAM" → 26B est le compromis idéal. Sérieusement, il est incroyablement bon pour le coût de calcul.

"J'ai une station de travail avec 24+ Go de VRAM" → 31B Dense pour la qualité maximale. Vous avez la puissance, utilisez-la.

"Je veux l'utiliser sur mon serveur/cloud" → 26B ou 31B, selon votre budget et vos exigences de latence.

Comparaison de benchmarks

Voici comment les modèles se classent sur les benchmarks courants :

Benchmark	E2B	E4B	26B A4B	31B Dense
MMLU	Bon	Meilleur	Excellent	Le meilleur
HumanEval (Code)	Correct	Bon	Très bon	Excellent
GSM8K (Maths)	Basique	Bon	Fort	Le plus fort
Multimodal (Vision)	Basique	Bon	Fort	Le meilleur
Vitesse (tok/s sur M3)	~60	~35	~25	~8

Le modèle 26B MoE se démarque — il se rapproche des scores de qualité du 31B tout en étant presque 3x plus rapide. L'architecture MoE porte vraiment ses fruits.

Quantification : laquelle choisir ?

Si vous téléchargez des fichiers GGUF depuis Hugging Face, vous verrez des options comme Q4_K_M, Q5_K_M, Q8_0, etc. Voici ce qu'elles signifient :

Quantification	Perte de qualité	Réduction de taille	Recommandation
Q4_K_M	Minimale	~75 % plus petit	Meilleur choix par défaut
Q5_K_M	Très faible	~65 % plus petit	Bien si vous avez la place
Q8_0	Négligeable	~50 % plus petit	Orienté qualité
FP16	Aucune	Taille complète	Uniquement pour le fine-tuning

Ma recommandation : commencez par Q4_K_M. Si vous remarquez des problèmes de qualité pour votre cas d'usage spécifique, passez à Q5_K_M. La plupart des gens ne voient sincèrement pas la différence.

Pour télécharger le modèle, rendez-vous sur notre guide de téléchargement complet.