Gemma 4 vs Gemma 3 : MoE 26B, Contexte 256K, Apache 2.0, +20% Performance

Gemma 4 est une mise à jour majeure par rapport à Gemma 3, mais vaut-il la peine de passer à la nouvelle version ? La réponse dépend de ce que vous faites. Cet article décompose chaque différence significative pour que vous puissiez prendre une décision éclairée.

Les grands changements en un coup d'œil

Fonctionnalité	Gemma 3	Gemma 4
Licence	Google Restricted Use	Apache 2.0
Architecture	Dense uniquement	Dense + MoE
Entrée audio	Non supportée	Modèles E2B et E4B
Contexte max	128K	256K
Tailles de modèle	1B, 4B, 12B, 27B	1B, 4B, 12B, 27B, E2B, E4B, 26B MoE, 31B Dense
Appel de fonctions	Basique	Natif avec sortie structurée
Support de quantification	GGUF disponible	GGUF + tolérance de quantification améliorée

Licence : de restreinte à ouverte

C'est sans doute le plus grand changement. Gemma 3 utilisait la licence personnalisée de Google qui restreignait l'usage commercial dans certains scénarios et avait des plafonds d'utilisation. Gemma 4 passe à Apache 2.0 — la même licence utilisée par des projets comme Kubernetes et TensorFlow.

Ce que cela signifie pour vous :

Pas de restrictions d'utilisation. Utilisez-le dans n'importe quel produit, commercial ou non.
Pas de préoccupations de propriété des sorties. Google ne revendique pas de droits sur les sorties du modèle.
Forkez et modifiez librement. Construisez des modèles dérivés sans incertitude juridique.
Adapté aux entreprises. Les équipes juridiques adorent Apache 2.0 parce qu'elle est bien comprise.

Si la licence était la raison pour laquelle vous évitiez Gemma 3 en production, ce blocage a disparu.

Architecture MoE : le modèle 26B

Gemma 4 introduit un modèle Mixture of Experts (MoE) aux côtés des modèles denses traditionnels. Le modèle MoE 26B a 26 milliards de paramètres au total, mais n'active qu'environ 3,8 milliards par token.

Pourquoi c'est important :

Vitesse : Le MoE tourne beaucoup plus vite qu'un modèle dense de qualité équivalente car moins de paramètres sont actifs
Mémoire : Le 26B complet doit être chargé, mais le calcul d'inférence est plus proche d'un modèle 4B
Qualité : Les benchmarks montrent que le 26B MoE performe de manière comparable au 27B dense sur la plupart des tâches

# Exécuter le modèle MoE avec Ollama
ollama run gemma4:26b

# Comparer la vitesse — vous remarquerez que le MoE est significativement plus rapide
ollama run gemma4:27b

Entrée audio : E2B et E4B

Gemma 4 ajoute la compréhension audio via les modèles edge E2B (2 milliards) et E4B (4 milliards). Ceux-ci peuvent traiter de l'audio parlé aux côtés de texte et d'images.

Cas d'utilisation :

Traitement de commandes vocales sur appareil
Transcription audio avec compréhension contextuelle
Applications multimodales combinant parole, texte et images

Note : Le support audio n'est disponible que dans les modèles E2B et E4B. Les plus grands modèles 12B, 27B, 26B et 31B gèrent texte et vision mais pas audio.

Fenêtre de contexte 256K

Gemma 3 plafonnait à 128K tokens. Gemma 4 double à 256K. En pratique :

Longueur du contexte	Équivaut à peu près à
8K	Un long article
32K	Un court chapitre de livre
128K (max Gemma 3)	Un roman court
256K (max Gemma 4)	Un roman complet

Gardez à l'esprit qu'un contexte plus long utilise plus de mémoire et ralentit l'inférence. Ce n'est pas parce que vous pouvez utiliser 256K que vous devriez — réglez le contexte à ce dont vous avez réellement besoin.

Améliorations des benchmarks

Gemma 4 montre des améliorations significatives sur les benchmarks standards :

Benchmark	Gemma 3 27B	Gemma 4 27B	Amélioration
MMLU	75,6	80,2	+4,6
HumanEval	68,5	76,8	+8,3
GSM8K	82,3	88,1	+5,8
MATH	45,2	53,7	+8,5

Les plus grands gains sont en génération de code (HumanEval) et en raisonnement mathématique (MATH). La connaissance générale (MMLU) s'est aussi améliorée, mais plus modestement.

Guide de migration

Depuis Gemma 3 avec Ollama

# Supprimer l'ancien modèle
ollama rm gemma3:12b

# Télécharger le nouveau modèle
ollama pull gemma4:12b

# Vos scripts existants utilisant l'API Ollama fonctionnent sans changement
# Mettez juste à jour le nom du modèle

Depuis Gemma 3 avec transformers

# Avant (Gemma 3)
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-3-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-3-12b-it")

# Après (Gemma 4) — même API, nom de modèle différent
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-12b-it")

Changements rupture

Format du template chat : Gemma 4 utilise un template chat mis à jour. Si vous construisez les prompts manuellement, vérifiez le nouveau format.
Mises à jour du tokenizer : Certains tokens spéciaux ont changé. Si vous faites de la manipulation au niveau token, vérifiez votre code.
Les modèles MoE nécessitent des configs différentes : Le modèle 26B MoE nécessite des frameworks qui supportent les architectures MoE. Tous les outils ne gèrent pas encore cela.

Quand rester sur Gemma 3

Il y a des raisons valables de rester sur Gemma 3 :

Vos outils ne supportent pas encore Gemma 4. Certains frameworks sont en retard sur les nouvelles sorties.
Vous avez fine-tuné Gemma 3. Vos poids fine-tunés ne seront pas transférables à Gemma 4. Re-fine-tuner prend du temps et du calcul.
La stabilité compte plus que les fonctionnalités. Gemma 3 a des mois de correction de bugs communautaires derrière lui.
Vous êtes sur du matériel très contraint. Les modèles Gemma 4 peuvent avoir des exigences mémoire légèrement plus élevées pour la même taille.

Prochaines étapes

Prêt à choisir un modèle ? Consultez Quel modèle Gemma 4 choisir ? pour des recommandations détaillées de taille
Envie de mieux comprendre MoE vs Dense ? Lisez Gemma 4 26B vs 31B : MoE vs Dense pour une comparaison approfondie
Curieux de savoir comment Gemma 4 se compare aux concurrents ? Voir Gemma 4 vs Llama 4 pour une comparaison entre familles

En résumé : Gemma 4 est un meilleur modèle sous tous les angles mesurables, et la licence Apache 2.0 supprime la plus grande barrière commerciale. À moins que vous n'ayez une raison spécifique de rester sur Gemma 3, la mise à jour en vaut la peine.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />