0% read

L'architecture de Gemma 4 expliquée : MoE, Dense et pourquoi c'est important

avr. 7, 2026

Pas besoin d'un doctorat pour comprendre comment Gemma 4 fonctionne. Mais connaître les bases de son architecture vous aidera à choisir le bon modèle, comprendre pourquoi il est rapide (ou lent) sur votre matériel, et en obtenir de meilleurs résultats.

Décomposons-le sans le jargon académique.

La base Transformer (version 30 secondes)

Chaque modèle de langage moderne, Gemma 4 inclus, est construit sur l'architecture Transformer. Voici tout ce que vous devez savoir :

  1. Le texte entre sous forme de tokens (morceaux de mots)
  2. Les couches d'attention déterminent quels tokens sont liés entre eux
  3. Les couches feed-forward traitent ces relations
  4. Le texte sort un token à la fois

Gemma 4 empile des dizaines de ces couches les unes sur les autres. Plus il y a de couches et plus elles sont larges, plus le modèle est intelligent — mais aussi plus volumineux et plus lent.

Dense vs MoE : les deux architectures

Gemma 4 existe en deux saveurs, et c'est la chose la plus importante à comprendre sur la gamme de modèles.

Modèles Dense (E2B, E4B)

Dans un modèle Dense, chaque paramètre est utilisé pour chaque token. Si le modèle a 4 milliards de paramètres, les 4 milliards s'activent pour chaque mot que vous générez.

Pensez-y comme une petite équipe où tout le monde travaille sur chaque tâche :

  • Performance simple et prévisible
  • Tous les paramètres contribuent à chaque réponse
  • Taille totale plus petite, simple à exécuter

Modèles MoE (26B, 31B)

MoE signifie Mixture of Experts. L'idée clé : vous n'avez pas besoin de chaque paramètre pour chaque token. Au lieu de cela, le modèle a une collection d'« experts » spécialisés, et un routeur décide lesquels activer pour chaque token.

Voici à quoi ça ressemble en pratique :

Token d'entrée → Routeur → sélectionne 2 experts sur 16 → Sortie

Paramètres totaux :   26 milliards
Actifs par token :    ~3,8 milliards (modèle 26B)

C'est comme un hôpital avec des spécialistes. Quand vous arrivez avec un bras cassé, vous n'avez pas besoin de tous les médecins — vous avez besoin d'un orthopédiste et peut-être d'un radiologue. Le bureau d'accueil (routeur) vous envoie vers les bons experts.

Pourquoi le modèle 26B n'utilise que 3,8B de paramètres actifs

C'est l'arme secrète de Gemma 4. Le modèle MoE 26B a 26 milliards de paramètres au total, mais seulement environ 3,8 milliards sont actifs pour un token donné. Cela signifie :

Métrique26B MoEDense équivalent
Paramètres totaux26B26B
Actifs par token~3,8B26B
VitesseRapide (comme un modèle 4B)Lent (7x plus de calcul)
QualitéProche du 26B DensePleine qualité 26B
VRAM nécessaireMoins que prévuBeaucoup plus

Vous obtenez les connaissances d'un modèle 26B avec la vitesse d'un modèle ~4B. C'est pourquoi le MoE est si important — il brise le compromis traditionnel entre qualité et vitesse.

Pour une comparaison pratique de quel modèle choisir, consultez notre guide de sélection de modèle.

Comment fonctionne le routeur

Le routeur est un petit réseau neuronal qui se trouve au début de chaque couche MoE. Pour chaque token entrant, il :

  1. Regarde la représentation du token
  2. Note chaque expert (à quel point cet expert est pertinent pour ce token ?)
  3. Sélectionne les top-K experts (généralement 2)
  4. Combine leurs sorties en utilisant les scores comme pondérations

Le routeur apprend pendant l'entraînement quels experts sont bons pour quoi. Au fil du temps, différents experts se spécialisent — certains deviennent bons en code, d'autres en raisonnement, d'autres en écriture créative. Le routeur détermine le bon mix à la volée.

L'équilibrage de charge est critique dans l'entraînement MoE. Si un expert obtient tous les tokens (un routeur « effondré »), vous avez gaspillé les autres experts. Gemma 4 utilise des fonctions de perte auxiliaires pour maintenir la charge équilibrée entre les experts.

Le mécanisme d'attention

Gemma 4 utilise la Grouped Query Attention (GQA), qui est un compromis entre l'attention multi-tête originale (coûteuse mais haute qualité) et l'attention multi-requête (bon marché mais de moindre qualité).

En GQA :

  • Les têtes de requête sont regroupées
  • Chaque groupe partage un ensemble de têtes clé-valeur
  • Cela réduit la mémoire pour le cache KV sans trop affecter la qualité

Pourquoi c'est important pour vous : le cache KV est ce qui grandit quand vous utilisez des contextes longs. GQA le maintient gérable, c'est ainsi que Gemma 4 peut gérer de très longues entrées sans faire exploser votre VRAM.

Fenêtre de contexte 256K

Gemma 4 supporte jusqu'à 256K tokens de contexte — environ 200 000 mots ou un livre de 400 pages. Voici comment ça fonctionne :

RoPE (Rotary Position Embeddings) : Au lieu d'identifiants de position fixes qui atteignent un maximum à une certaine longueur, RoPE encode les positions comme des rotations. Cela passe naturellement à l'échelle pour des séquences plus longues et généralise mieux aux longueurs que le modèle n'a pas beaucoup vues pendant l'entraînement.

Longueurs de contexte pratiques :

Longueur du contexteÉquivaut à peu près àImpact VRAM
8K tokensDocument de 10-15 pagesRéférence
32K tokensDocument de 50 pages~2x référence
128K tokensBase de code entière~4x référence
256K tokensLivre entier~8x référence

Mise en garde importante : Ce n'est pas parce que le modèle supporte 256K que vous devriez toujours l'utiliser. Le cache KV grandit linéairement avec la longueur du contexte, et le calcul d'attention grandit de manière quadratique. Pour la plupart des tâches, 8K-32K suffit. Gardez le long contexte pour quand vous en avez vraiment besoin — comme analyser une base de code entière ou un contrat juridique complet.

Pourquoi Gemma 4 est efficace par paramètre

Plusieurs choix architecturaux permettent à Gemma 4 de surpasser sa catégorie :

  1. Routage MoE : Seulement 15-20% des paramètres actifs par token
  2. GQA : Mémoire du cache KV réduite
  3. Activation SwiGLU : Meilleur flux d'information dans les couches feed-forward
  4. RMSNorm : Normalisation plus rapide que LayerNorm
  5. Tokenizer optimisé : Vocabulaire de 256K couvre plus de langues efficacement

Résultat : le modèle MoE 26B égale ou bat souvent des modèles Dense avec 2 à 3 fois plus de paramètres actifs sur les benchmarks standards.

Résumé de l'architecture

CaractéristiqueE2BE4B26B31B
TypeDenseDenseMoEMoE
Paramètres totaux~2B~4B~26B~31B
Paramètres actifs~2B~4B~3,8B~4,5B
ExpertsN/AN/A16 (top-2)16 (top-2)
AttentionGQAGQAGQAGQA
Contexte max256K256K256K256K
Idéal pourAppareils périphériquesLaptopsLa plupart des utilisateursQualité max

Ce que cela signifie pour vous

  • Choisir un modèle : Si vous hésitez entre le 26B MoE et un modèle Dense de taille similaire, le MoE sera plus rapide avec une qualité comparable. Voir notre comparaison d'architecture avec Llama 4.
  • Estimer la VRAM : Les modèles MoE ont besoin de VRAM pour tous les paramètres (ils sont tous en mémoire), mais le calcul évolue avec les paramètres actifs. Consultez notre guide matériel.
  • Tâches à long contexte : Commencez avec des contextes plus courts et n'augmentez que lorsque nécessaire. Votre VRAM vous remerciera.
  • Fine-tuning : Les modèles MoE peuvent être fine-tunés avec LoRA, en ciblant les couches d'attention et/ou les couches d'experts.

Prochaines étapes

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

L'architecture de Gemma 4 expliquée : MoE, Dense et pourquoi c'est important | Blog