Gemma 4 26B vs 31B : MoE vs Dense — lequel est meilleur ?

Gemma 4 vous propose deux options haut de gamme : un modèle 26B Mixture of Experts (MoE) et un modèle 31B Dense. Ils fonctionnent de manière étonnamment différente, et le bon choix dépend de ce que vous optimisez. Décortiquons tout ça.

Le MoE expliqué simplement

Le modèle 26B MoE a 26 milliards de paramètres au total, mais voici le truc — il ne les utilise pas tous en même temps. Au lieu de ça, il possède plusieurs sous-réseaux "experts", et un mécanisme de routage sélectionne les experts à activer pour chaque token. Seulement environ 3,8 milliards de paramètres sont actifs lors de chaque passe forward.

Imaginez un hôpital avec 20 spécialistes. Quand un patient arrive, il ne voit pas les 20 médecins — il est orienté vers les 2-3 spécialistes pertinents pour sa condition. L'hôpital dispose du savoir de 20 médecins, mais chaque visite n'utilise qu'une fraction de l'équipe.

Architecture MoE 26B :
┌─────────────────────────────┐
│  Routeur : "Quels experts?"  │
├──────┬──────┬──────┬───────┤
│ Exp1 │ Exp2 │ Exp3 │ ...   │  ← 26B paramètres au total
├──────┴──────┴──────┴───────┤
│  Seulement ~3,8B actifs/token│  ← Coût de calcul réel
└─────────────────────────────┘

Le Dense expliqué

Le modèle 31B Dense est simple — les 31 milliards de paramètres sont actifs pour chaque token. Pas de routage, pas d'experts, juste un grand réseau qui fait tout le travail à chaque fois.

Architecture Dense 31B :
┌─────────────────────────────┐
│  31B paramètres actifs       │  ← Chaque token utilise tout
│  pour chaque token           │
└─────────────────────────────┘

Comparaison face à face

Métrique	26B MoE	31B Dense
Paramètres totaux	26B	31B
Paramètres actifs	~3,8B	31B
VRAM (FP16)	~52 Go	~62 Go
VRAM (Q4_K_M)	~15 Go	~18 Go
Vitesse (tok/s, RTX 4090)	~45	~18
Vitesse (tok/s, M3 Max 36 Go)	~25	~10

Comparaison de benchmarks

Benchmark	26B MoE	31B Dense	Gagnant
MMLU	79,5	81,3	Dense (+1,8)
HumanEval	75,2	77,1	Dense (+1,9)
GSM8K	87,0	88,9	Dense (+1,9)
MATH	52,1	54,8	Dense (+2,7)
ARC-Challenge	68,3	69,1	Dense (+0,8)
Moyenne	72,4	74,2	Dense (+1,8 moy.)

Le modèle Dense gagne en qualité brute sur toute la ligne, mais les marges sont faibles — typiquement 1-3 points. La question est de savoir si ce léger avantage en qualité justifie l'énorme différence de vitesse.

Comparaison de vitesse

C'est ici que le MoE brille. Comme seulement 3,8B de paramètres sont actifs par token, l'inférence est dramatiquement plus rapide :

Matériel	26B MoE Q4 (tok/s)	31B Dense Q4 (tok/s)	Avantage MoE
RTX 4090 24 Go	~45	~18	2,5x plus rapide
RTX 3090 24 Go	~30	~12	2,5x plus rapide
M3 Max 36 Go	~25	~10	2,5x plus rapide
M4 Max 48 Go	~32	~14	2,3x plus rapide

Le modèle MoE est systématiquement 2-2,5x plus rapide. Pour les cas d'usage interactifs où vous attendez les réponses, cette différence est énorme.

Comparaison VRAM

Voici le piège du MoE — même si seulement 3,8B de paramètres sont actifs, les 26B doivent tous être chargés en mémoire :

Format	26B MoE	31B Dense	Différence
FP16	~52 Go	~62 Go	MoE économise ~10 Go
Q8_0	~28 Go	~33 Go	MoE économise ~5 Go
Q5_K_M	~19 Go	~22 Go	MoE économise ~3 Go
Q4_K_M	~15 Go	~18 Go	MoE économise ~3 Go

Le MoE utilise moins de VRAM que le Dense à chaque niveau de quantification, mais les économies ne sont pas aussi spectaculaires que la différence de vitesse. Les deux modèles nécessitent du matériel sérieux en pleine précision.

Recommandations par cas d'usage

Choisissez le 26B MoE quand :

Chat interactif et assistance au codage — l'avantage de vitesse de 2,5x rend les conversations naturelles
Service API avec plusieurs utilisateurs — une inférence plus rapide signifie un meilleur débit et un coût par requête plus bas
Le matériel est le goulot d'étranglement — nécessite un peu moins de VRAM et tourne beaucoup plus vite
La qualité est "assez bonne" — pour la plupart des tâches pratiques, la différence de 1-2 points de benchmark ne compte pas
Vous exécutez sur du matériel grand public — le Q4 MoE sur un GPU 16 Go est réellement utilisable

Choisissez le 31B Dense quand :

Fine-tuning — les modèles Dense sont plus simples à fine-tuner que les MoE ; le routage expert ajoute de la complexité
Qualité maximale sur les tâches difficiles — quand vous avez besoin de chaque point en maths, raisonnement ou génération de code
Traitement par lots — si vous traitez hors ligne et que la vitesse par token n'importe pas
Recherche et évaluation — quand vous avez besoin de la meilleure référence absolue
Déploiement simple — les modèles Dense bénéficient d'un support framework plus large et de moins de cas limites

Tableau de décision rapide

Votre priorité	Choisissez
Vitesse	26B MoE
Qualité	31B Dense
Rapport coût-efficacité	26B MoE
Fine-tuning	31B Dense
Usage interactif	26B MoE
Traitement par lots hors ligne	31B Dense

Support des frameworks

Tous les frameworks ne gèrent pas les modèles MoE de la même façon :

Framework	Support MoE	Support Dense
Ollama	Oui	Oui
llama.cpp	Oui	Oui
vLLM	Oui	Oui
SGLang	Oui	Oui
LM Studio	Partiel	Oui
TensorRT-LLM	Oui	Oui
transformers	Oui	Oui

Le support MoE a considérablement mûri, mais si vous rencontrez des problèmes avec un framework spécifique, le Dense est le choix le plus sûr.

Étapes suivantes

Encore en train de décider la taille du modèle ? Lisez Quel modèle Gemma 4 choisir ? pour la gamme complète incluant les modèles plus petits
Vous voulez comprendre les options de quantification ? Consultez le guide GGUF pour les comparaisons Q4/Q5/Q8
Prêt à en exécuter un ? Suivez notre tutoriel Ollama pour démarrer en quelques minutes

Pour la plupart des gens, le 26B MoE est le meilleur choix. Il est 2,5x plus rapide avec seulement un infime compromis en qualité. Réservez le 31B Dense pour le fine-tuning ou quand vous avez véritablement besoin de la qualité maximale et pouvez vous permettre d'attendre les réponses.