Pas besoin d'un doctorat pour comprendre comment Gemma 4 fonctionne. Mais connaître les bases de son architecture vous aidera à choisir le bon modèle, comprendre pourquoi il est rapide (ou lent) sur votre matériel, et en obtenir de meilleurs résultats.
Décomposons-le sans le jargon académique.
La base Transformer (version 30 secondes)
Chaque modèle de langage moderne, Gemma 4 inclus, est construit sur l'architecture Transformer. Voici tout ce que vous devez savoir :
- Le texte entre sous forme de tokens (morceaux de mots)
- Les couches d'attention déterminent quels tokens sont liés entre eux
- Les couches feed-forward traitent ces relations
- Le texte sort un token à la fois
Gemma 4 empile des dizaines de ces couches les unes sur les autres. Plus il y a de couches et plus elles sont larges, plus le modèle est intelligent — mais aussi plus volumineux et plus lent.
Dense vs MoE : les deux architectures
Gemma 4 existe en deux saveurs, et c'est la chose la plus importante à comprendre sur la gamme de modèles.
Modèles Dense (E2B, E4B)
Dans un modèle Dense, chaque paramètre est utilisé pour chaque token. Si le modèle a 4 milliards de paramètres, les 4 milliards s'activent pour chaque mot que vous générez.
Pensez-y comme une petite équipe où tout le monde travaille sur chaque tâche :
- Performance simple et prévisible
- Tous les paramètres contribuent à chaque réponse
- Taille totale plus petite, simple à exécuter
Modèles MoE (26B, 31B)
MoE signifie Mixture of Experts. L'idée clé : vous n'avez pas besoin de chaque paramètre pour chaque token. Au lieu de cela, le modèle a une collection d'« experts » spécialisés, et un routeur décide lesquels activer pour chaque token.
Voici à quoi ça ressemble en pratique :
Token d'entrée → Routeur → sélectionne 2 experts sur 16 → Sortie
Paramètres totaux : 26 milliards
Actifs par token : ~3,8 milliards (modèle 26B)C'est comme un hôpital avec des spécialistes. Quand vous arrivez avec un bras cassé, vous n'avez pas besoin de tous les médecins — vous avez besoin d'un orthopédiste et peut-être d'un radiologue. Le bureau d'accueil (routeur) vous envoie vers les bons experts.
Pourquoi le modèle 26B n'utilise que 3,8B de paramètres actifs
C'est l'arme secrète de Gemma 4. Le modèle MoE 26B a 26 milliards de paramètres au total, mais seulement environ 3,8 milliards sont actifs pour un token donné. Cela signifie :
| Métrique | 26B MoE | Dense équivalent |
|---|---|---|
| Paramètres totaux | 26B | 26B |
| Actifs par token | ~3,8B | 26B |
| Vitesse | Rapide (comme un modèle 4B) | Lent (7x plus de calcul) |
| Qualité | Proche du 26B Dense | Pleine qualité 26B |
| VRAM nécessaire | Moins que prévu | Beaucoup plus |
Vous obtenez les connaissances d'un modèle 26B avec la vitesse d'un modèle ~4B. C'est pourquoi le MoE est si important — il brise le compromis traditionnel entre qualité et vitesse.
Pour une comparaison pratique de quel modèle choisir, consultez notre guide de sélection de modèle.
Comment fonctionne le routeur
Le routeur est un petit réseau neuronal qui se trouve au début de chaque couche MoE. Pour chaque token entrant, il :
- Regarde la représentation du token
- Note chaque expert (à quel point cet expert est pertinent pour ce token ?)
- Sélectionne les top-K experts (généralement 2)
- Combine leurs sorties en utilisant les scores comme pondérations
Le routeur apprend pendant l'entraînement quels experts sont bons pour quoi. Au fil du temps, différents experts se spécialisent — certains deviennent bons en code, d'autres en raisonnement, d'autres en écriture créative. Le routeur détermine le bon mix à la volée.
L'équilibrage de charge est critique dans l'entraînement MoE. Si un expert obtient tous les tokens (un routeur « effondré »), vous avez gaspillé les autres experts. Gemma 4 utilise des fonctions de perte auxiliaires pour maintenir la charge équilibrée entre les experts.
Le mécanisme d'attention
Gemma 4 utilise la Grouped Query Attention (GQA), qui est un compromis entre l'attention multi-tête originale (coûteuse mais haute qualité) et l'attention multi-requête (bon marché mais de moindre qualité).
En GQA :
- Les têtes de requête sont regroupées
- Chaque groupe partage un ensemble de têtes clé-valeur
- Cela réduit la mémoire pour le cache KV sans trop affecter la qualité
Pourquoi c'est important pour vous : le cache KV est ce qui grandit quand vous utilisez des contextes longs. GQA le maintient gérable, c'est ainsi que Gemma 4 peut gérer de très longues entrées sans faire exploser votre VRAM.
Fenêtre de contexte 256K
Gemma 4 supporte jusqu'à 256K tokens de contexte — environ 200 000 mots ou un livre de 400 pages. Voici comment ça fonctionne :
RoPE (Rotary Position Embeddings) : Au lieu d'identifiants de position fixes qui atteignent un maximum à une certaine longueur, RoPE encode les positions comme des rotations. Cela passe naturellement à l'échelle pour des séquences plus longues et généralise mieux aux longueurs que le modèle n'a pas beaucoup vues pendant l'entraînement.
Longueurs de contexte pratiques :
| Longueur du contexte | Équivaut à peu près à | Impact VRAM |
|---|---|---|
| 8K tokens | Document de 10-15 pages | Référence |
| 32K tokens | Document de 50 pages | ~2x référence |
| 128K tokens | Base de code entière | ~4x référence |
| 256K tokens | Livre entier | ~8x référence |
Mise en garde importante : Ce n'est pas parce que le modèle supporte 256K que vous devriez toujours l'utiliser. Le cache KV grandit linéairement avec la longueur du contexte, et le calcul d'attention grandit de manière quadratique. Pour la plupart des tâches, 8K-32K suffit. Gardez le long contexte pour quand vous en avez vraiment besoin — comme analyser une base de code entière ou un contrat juridique complet.
Pourquoi Gemma 4 est efficace par paramètre
Plusieurs choix architecturaux permettent à Gemma 4 de surpasser sa catégorie :
- Routage MoE : Seulement 15-20% des paramètres actifs par token
- GQA : Mémoire du cache KV réduite
- Activation SwiGLU : Meilleur flux d'information dans les couches feed-forward
- RMSNorm : Normalisation plus rapide que LayerNorm
- Tokenizer optimisé : Vocabulaire de 256K couvre plus de langues efficacement
Résultat : le modèle MoE 26B égale ou bat souvent des modèles Dense avec 2 à 3 fois plus de paramètres actifs sur les benchmarks standards.
Résumé de l'architecture
| Caractéristique | E2B | E4B | 26B | 31B |
|---|---|---|---|---|
| Type | Dense | Dense | MoE | MoE |
| Paramètres totaux | ~2B | ~4B | ~26B | ~31B |
| Paramètres actifs | ~2B | ~4B | ~3,8B | ~4,5B |
| Experts | N/A | N/A | 16 (top-2) | 16 (top-2) |
| Attention | GQA | GQA | GQA | GQA |
| Contexte max | 256K | 256K | 256K | 256K |
| Idéal pour | Appareils périphériques | Laptops | La plupart des utilisateurs | Qualité max |
Ce que cela signifie pour vous
- Choisir un modèle : Si vous hésitez entre le 26B MoE et un modèle Dense de taille similaire, le MoE sera plus rapide avec une qualité comparable. Voir notre comparaison d'architecture avec Llama 4.
- Estimer la VRAM : Les modèles MoE ont besoin de VRAM pour tous les paramètres (ils sont tous en mémoire), mais le calcul évolue avec les paramètres actifs. Consultez notre guide matériel.
- Tâches à long contexte : Commencez avec des contextes plus courts et n'augmentez que lorsque nécessaire. Votre VRAM vous remerciera.
- Fine-tuning : Les modèles MoE peuvent être fine-tunés avec LoRA, en ciblant les couches d'attention et/ou les couches d'experts.
Prochaines étapes
- Choisissez le bon modèle avec notre guide de sélection de modèle
- Vérifiez les exigences matérielles pour votre architecture choisie
- Voyez comment l'architecture performe sur Mac Apple Silicon
- Comparez les architectures : Gemma 4 vs Llama 4
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


