L'architecture de Gemma 4 expliquée : MoE, Dense et pourquoi c'est important

Pas besoin d'un doctorat pour comprendre comment Gemma 4 fonctionne. Mais connaître les bases de son architecture vous aidera à choisir le bon modèle, comprendre pourquoi il est rapide (ou lent) sur votre matériel, et en obtenir de meilleurs résultats.

Décomposons-le sans le jargon académique.

La base Transformer (version 30 secondes)

Chaque modèle de langage moderne, Gemma 4 inclus, est construit sur l'architecture Transformer. Voici tout ce que vous devez savoir :

Le texte entre sous forme de tokens (morceaux de mots)
Les couches d'attention déterminent quels tokens sont liés entre eux
Les couches feed-forward traitent ces relations
Le texte sort un token à la fois

Gemma 4 empile des dizaines de ces couches les unes sur les autres. Plus il y a de couches et plus elles sont larges, plus le modèle est intelligent — mais aussi plus volumineux et plus lent.

Dense vs MoE : les deux architectures

Gemma 4 existe en deux saveurs, et c'est la chose la plus importante à comprendre sur la gamme de modèles.

Modèles Dense (E2B, E4B)

Dans un modèle Dense, chaque paramètre est utilisé pour chaque token. Si le modèle a 4 milliards de paramètres, les 4 milliards s'activent pour chaque mot que vous générez.

Pensez-y comme une petite équipe où tout le monde travaille sur chaque tâche :

Performance simple et prévisible
Tous les paramètres contribuent à chaque réponse
Taille totale plus petite, simple à exécuter

Modèles MoE (26B, 31B)

MoE signifie Mixture of Experts. L'idée clé : vous n'avez pas besoin de chaque paramètre pour chaque token. Au lieu de cela, le modèle a une collection d'« experts » spécialisés, et un routeur décide lesquels activer pour chaque token.

Voici à quoi ça ressemble en pratique :

Token d'entrée → Routeur → sélectionne 2 experts sur 16 → Sortie

Paramètres totaux :   26 milliards
Actifs par token :    ~3,8 milliards (modèle 26B)

C'est comme un hôpital avec des spécialistes. Quand vous arrivez avec un bras cassé, vous n'avez pas besoin de tous les médecins — vous avez besoin d'un orthopédiste et peut-être d'un radiologue. Le bureau d'accueil (routeur) vous envoie vers les bons experts.

Pourquoi le modèle 26B n'utilise que 3,8B de paramètres actifs

C'est l'arme secrète de Gemma 4. Le modèle MoE 26B a 26 milliards de paramètres au total, mais seulement environ 3,8 milliards sont actifs pour un token donné. Cela signifie :

Métrique	26B MoE	Dense équivalent
Paramètres totaux	26B	26B
Actifs par token	~3,8B	26B
Vitesse	Rapide (comme un modèle 4B)	Lent (7x plus de calcul)
Qualité	Proche du 26B Dense	Pleine qualité 26B
VRAM nécessaire	Moins que prévu	Beaucoup plus

Vous obtenez les connaissances d'un modèle 26B avec la vitesse d'un modèle ~4B. C'est pourquoi le MoE est si important — il brise le compromis traditionnel entre qualité et vitesse.

Pour une comparaison pratique de quel modèle choisir, consultez notre guide de sélection de modèle.

Comment fonctionne le routeur

Le routeur est un petit réseau neuronal qui se trouve au début de chaque couche MoE. Pour chaque token entrant, il :

Regarde la représentation du token
Note chaque expert (à quel point cet expert est pertinent pour ce token ?)
Sélectionne les top-K experts (généralement 2)
Combine leurs sorties en utilisant les scores comme pondérations

Le routeur apprend pendant l'entraînement quels experts sont bons pour quoi. Au fil du temps, différents experts se spécialisent — certains deviennent bons en code, d'autres en raisonnement, d'autres en écriture créative. Le routeur détermine le bon mix à la volée.

L'équilibrage de charge est critique dans l'entraînement MoE. Si un expert obtient tous les tokens (un routeur « effondré »), vous avez gaspillé les autres experts. Gemma 4 utilise des fonctions de perte auxiliaires pour maintenir la charge équilibrée entre les experts.

Le mécanisme d'attention

Gemma 4 utilise la Grouped Query Attention (GQA), qui est un compromis entre l'attention multi-tête originale (coûteuse mais haute qualité) et l'attention multi-requête (bon marché mais de moindre qualité).

En GQA :

Les têtes de requête sont regroupées
Chaque groupe partage un ensemble de têtes clé-valeur
Cela réduit la mémoire pour le cache KV sans trop affecter la qualité

Pourquoi c'est important pour vous : le cache KV est ce qui grandit quand vous utilisez des contextes longs. GQA le maintient gérable, c'est ainsi que Gemma 4 peut gérer de très longues entrées sans faire exploser votre VRAM.

Fenêtre de contexte 256K

Gemma 4 supporte jusqu'à 256K tokens de contexte — environ 200 000 mots ou un livre de 400 pages. Voici comment ça fonctionne :

RoPE (Rotary Position Embeddings) : Au lieu d'identifiants de position fixes qui atteignent un maximum à une certaine longueur, RoPE encode les positions comme des rotations. Cela passe naturellement à l'échelle pour des séquences plus longues et généralise mieux aux longueurs que le modèle n'a pas beaucoup vues pendant l'entraînement.

Longueurs de contexte pratiques :

Longueur du contexte	Équivaut à peu près à	Impact VRAM
8K tokens	Document de 10-15 pages	Référence
32K tokens	Document de 50 pages	~2x référence
128K tokens	Base de code entière	~4x référence
256K tokens	Livre entier	~8x référence

Mise en garde importante : Ce n'est pas parce que le modèle supporte 256K que vous devriez toujours l'utiliser. Le cache KV grandit linéairement avec la longueur du contexte, et le calcul d'attention grandit de manière quadratique. Pour la plupart des tâches, 8K-32K suffit. Gardez le long contexte pour quand vous en avez vraiment besoin — comme analyser une base de code entière ou un contrat juridique complet.

Pourquoi Gemma 4 est efficace par paramètre

Plusieurs choix architecturaux permettent à Gemma 4 de surpasser sa catégorie :

Routage MoE : Seulement 15-20% des paramètres actifs par token
GQA : Mémoire du cache KV réduite
Activation SwiGLU : Meilleur flux d'information dans les couches feed-forward
RMSNorm : Normalisation plus rapide que LayerNorm
Tokenizer optimisé : Vocabulaire de 256K couvre plus de langues efficacement

Résultat : le modèle MoE 26B égale ou bat souvent des modèles Dense avec 2 à 3 fois plus de paramètres actifs sur les benchmarks standards.

Résumé de l'architecture

Caractéristique	E2B	E4B	26B	31B
Type	Dense	Dense	MoE	MoE
Paramètres totaux	~2B	~4B	~26B	~31B
Paramètres actifs	~2B	~4B	~3,8B	~4,5B
Experts	N/A	N/A	16 (top-2)	16 (top-2)
Attention	GQA	GQA	GQA	GQA
Contexte max	256K	256K	256K	256K
Idéal pour	Appareils périphériques	Laptops	La plupart des utilisateurs	Qualité max

Ce que cela signifie pour vous

Choisir un modèle : Si vous hésitez entre le 26B MoE et un modèle Dense de taille similaire, le MoE sera plus rapide avec une qualité comparable. Voir notre comparaison d'architecture avec Llama 4.
Estimer la VRAM : Les modèles MoE ont besoin de VRAM pour tous les paramètres (ils sont tous en mémoire), mais le calcul évolue avec les paramètres actifs. Consultez notre guide matériel.
Tâches à long contexte : Commencez avec des contextes plus courts et n'augmentez que lorsque nécessaire. Votre VRAM vous remerciera.
Fine-tuning : Les modèles MoE peuvent être fine-tunés avec LoRA, en ciblant les couches d'attention et/ou les couches d'experts.