Gemma 4 26B vs 31B : MoE vs Dense — lequel est meilleur ?

avr. 7, 2026

Gemma 4 vous propose deux options haut de gamme : un modèle 26B Mixture of Experts (MoE) et un modèle 31B Dense. Ils fonctionnent de manière étonnamment différente, et le bon choix dépend de ce que vous optimisez. Décortiquons tout ça.

Le MoE expliqué simplement

Le modèle 26B MoE a 26 milliards de paramètres au total, mais voici le truc — il ne les utilise pas tous en même temps. Au lieu de ça, il possède plusieurs sous-réseaux "experts", et un mécanisme de routage sélectionne les experts à activer pour chaque token. Seulement environ 3,8 milliards de paramètres sont actifs lors de chaque passe forward.

Imaginez un hôpital avec 20 spécialistes. Quand un patient arrive, il ne voit pas les 20 médecins — il est orienté vers les 2-3 spécialistes pertinents pour sa condition. L'hôpital dispose du savoir de 20 médecins, mais chaque visite n'utilise qu'une fraction de l'équipe.

Architecture MoE 26B :
┌─────────────────────────────┐
│  Routeur : "Quels experts?"  │
├──────┬──────┬──────┬───────┤
│ Exp1 │ Exp2 │ Exp3 │ ...   │  ← 26B paramètres au total
├──────┴──────┴──────┴───────┤
│  Seulement ~3,8B actifs/token│  ← Coût de calcul réel
└─────────────────────────────┘

Le Dense expliqué

Le modèle 31B Dense est simple — les 31 milliards de paramètres sont actifs pour chaque token. Pas de routage, pas d'experts, juste un grand réseau qui fait tout le travail à chaque fois.

Architecture Dense 31B :
┌─────────────────────────────┐
│  31B paramètres actifs       │  ← Chaque token utilise tout
│  pour chaque token           │
└─────────────────────────────┘

Comparaison face à face

Métrique26B MoE31B Dense
Paramètres totaux26B31B
Paramètres actifs~3,8B31B
VRAM (FP16)~52 Go~62 Go
VRAM (Q4_K_M)~15 Go~18 Go
Vitesse (tok/s, RTX 4090)~45~18
Vitesse (tok/s, M3 Max 36 Go)~25~10

Comparaison de benchmarks

Benchmark26B MoE31B DenseGagnant
MMLU79,581,3Dense (+1,8)
HumanEval75,277,1Dense (+1,9)
GSM8K87,088,9Dense (+1,9)
MATH52,154,8Dense (+2,7)
ARC-Challenge68,369,1Dense (+0,8)
Moyenne72,474,2Dense (+1,8 moy.)

Le modèle Dense gagne en qualité brute sur toute la ligne, mais les marges sont faibles — typiquement 1-3 points. La question est de savoir si ce léger avantage en qualité justifie l'énorme différence de vitesse.

Comparaison de vitesse

C'est ici que le MoE brille. Comme seulement 3,8B de paramètres sont actifs par token, l'inférence est dramatiquement plus rapide :

Matériel26B MoE Q4 (tok/s)31B Dense Q4 (tok/s)Avantage MoE
RTX 4090 24 Go~45~182,5x plus rapide
RTX 3090 24 Go~30~122,5x plus rapide
M3 Max 36 Go~25~102,5x plus rapide
M4 Max 48 Go~32~142,3x plus rapide

Le modèle MoE est systématiquement 2-2,5x plus rapide. Pour les cas d'usage interactifs où vous attendez les réponses, cette différence est énorme.

Comparaison VRAM

Voici le piège du MoE — même si seulement 3,8B de paramètres sont actifs, les 26B doivent tous être chargés en mémoire :

Format26B MoE31B DenseDifférence
FP16~52 Go~62 GoMoE économise ~10 Go
Q8_0~28 Go~33 GoMoE économise ~5 Go
Q5_K_M~19 Go~22 GoMoE économise ~3 Go
Q4_K_M~15 Go~18 GoMoE économise ~3 Go

Le MoE utilise moins de VRAM que le Dense à chaque niveau de quantification, mais les économies ne sont pas aussi spectaculaires que la différence de vitesse. Les deux modèles nécessitent du matériel sérieux en pleine précision.

Recommandations par cas d'usage

Choisissez le 26B MoE quand :

  • Chat interactif et assistance au codage — l'avantage de vitesse de 2,5x rend les conversations naturelles
  • Service API avec plusieurs utilisateurs — une inférence plus rapide signifie un meilleur débit et un coût par requête plus bas
  • Le matériel est le goulot d'étranglement — nécessite un peu moins de VRAM et tourne beaucoup plus vite
  • La qualité est "assez bonne" — pour la plupart des tâches pratiques, la différence de 1-2 points de benchmark ne compte pas
  • Vous exécutez sur du matériel grand public — le Q4 MoE sur un GPU 16 Go est réellement utilisable

Choisissez le 31B Dense quand :

  • Fine-tuning — les modèles Dense sont plus simples à fine-tuner que les MoE ; le routage expert ajoute de la complexité
  • Qualité maximale sur les tâches difficiles — quand vous avez besoin de chaque point en maths, raisonnement ou génération de code
  • Traitement par lots — si vous traitez hors ligne et que la vitesse par token n'importe pas
  • Recherche et évaluation — quand vous avez besoin de la meilleure référence absolue
  • Déploiement simple — les modèles Dense bénéficient d'un support framework plus large et de moins de cas limites

Tableau de décision rapide

Votre prioritéChoisissez
Vitesse26B MoE
Qualité31B Dense
Rapport coût-efficacité26B MoE
Fine-tuning31B Dense
Usage interactif26B MoE
Traitement par lots hors ligne31B Dense

Support des frameworks

Tous les frameworks ne gèrent pas les modèles MoE de la même façon :

FrameworkSupport MoESupport Dense
OllamaOuiOui
llama.cppOuiOui
vLLMOuiOui
SGLangOuiOui
LM StudioPartielOui
TensorRT-LLMOuiOui
transformersOuiOui

Le support MoE a considérablement mûri, mais si vous rencontrez des problèmes avec un framework spécifique, le Dense est le choix le plus sûr.

Étapes suivantes

  • Encore en train de décider la taille du modèle ? Lisez Quel modèle Gemma 4 choisir ? pour la gamme complète incluant les modèles plus petits
  • Vous voulez comprendre les options de quantification ? Consultez le guide GGUF pour les comparaisons Q4/Q5/Q8
  • Prêt à en exécuter un ? Suivez notre tutoriel Ollama pour démarrer en quelques minutes

Pour la plupart des gens, le 26B MoE est le meilleur choix. Il est 2,5x plus rapide avec seulement un infime compromis en qualité. Réservez le 31B Dense pour le fine-tuning ou quand vous avez véritablement besoin de la qualité maximale et pouvez vous permettre d'attendre les réponses.

Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 26B vs 31B : MoE vs Dense — lequel est meilleur ? | Blog