0% read

Gemma 4 vs Gemma 3 : MoE 26B, Contexte 256K, Apache 2.0, +20% Performance

avr. 7, 2026

Gemma 4 est une mise à jour majeure par rapport à Gemma 3, mais vaut-il la peine de passer à la nouvelle version ? La réponse dépend de ce que vous faites. Cet article décompose chaque différence significative pour que vous puissiez prendre une décision éclairée.

Les grands changements en un coup d'œil

FonctionnalitéGemma 3Gemma 4
LicenceGoogle Restricted UseApache 2.0
ArchitectureDense uniquementDense + MoE
Entrée audioNon supportéeModèles E2B et E4B
Contexte max128K256K
Tailles de modèle1B, 4B, 12B, 27B1B, 4B, 12B, 27B, E2B, E4B, 26B MoE, 31B Dense
Appel de fonctionsBasiqueNatif avec sortie structurée
Support de quantificationGGUF disponibleGGUF + tolérance de quantification améliorée

Licence : de restreinte à ouverte

C'est sans doute le plus grand changement. Gemma 3 utilisait la licence personnalisée de Google qui restreignait l'usage commercial dans certains scénarios et avait des plafonds d'utilisation. Gemma 4 passe à Apache 2.0 — la même licence utilisée par des projets comme Kubernetes et TensorFlow.

Ce que cela signifie pour vous :

  • Pas de restrictions d'utilisation. Utilisez-le dans n'importe quel produit, commercial ou non.
  • Pas de préoccupations de propriété des sorties. Google ne revendique pas de droits sur les sorties du modèle.
  • Forkez et modifiez librement. Construisez des modèles dérivés sans incertitude juridique.
  • Adapté aux entreprises. Les équipes juridiques adorent Apache 2.0 parce qu'elle est bien comprise.

Si la licence était la raison pour laquelle vous évitiez Gemma 3 en production, ce blocage a disparu.

Architecture MoE : le modèle 26B

Gemma 4 introduit un modèle Mixture of Experts (MoE) aux côtés des modèles denses traditionnels. Le modèle MoE 26B a 26 milliards de paramètres au total, mais n'active qu'environ 3,8 milliards par token.

Pourquoi c'est important :

  • Vitesse : Le MoE tourne beaucoup plus vite qu'un modèle dense de qualité équivalente car moins de paramètres sont actifs
  • Mémoire : Le 26B complet doit être chargé, mais le calcul d'inférence est plus proche d'un modèle 4B
  • Qualité : Les benchmarks montrent que le 26B MoE performe de manière comparable au 27B dense sur la plupart des tâches
# Exécuter le modèle MoE avec Ollama
ollama run gemma4:26b

# Comparer la vitesse — vous remarquerez que le MoE est significativement plus rapide
ollama run gemma4:27b

Entrée audio : E2B et E4B

Gemma 4 ajoute la compréhension audio via les modèles edge E2B (2 milliards) et E4B (4 milliards). Ceux-ci peuvent traiter de l'audio parlé aux côtés de texte et d'images.

Cas d'utilisation :

  • Traitement de commandes vocales sur appareil
  • Transcription audio avec compréhension contextuelle
  • Applications multimodales combinant parole, texte et images

Note : Le support audio n'est disponible que dans les modèles E2B et E4B. Les plus grands modèles 12B, 27B, 26B et 31B gèrent texte et vision mais pas audio.

Fenêtre de contexte 256K

Gemma 3 plafonnait à 128K tokens. Gemma 4 double à 256K. En pratique :

Longueur du contexteÉquivaut à peu près à
8KUn long article
32KUn court chapitre de livre
128K (max Gemma 3)Un roman court
256K (max Gemma 4)Un roman complet

Gardez à l'esprit qu'un contexte plus long utilise plus de mémoire et ralentit l'inférence. Ce n'est pas parce que vous pouvez utiliser 256K que vous devriez — réglez le contexte à ce dont vous avez réellement besoin.

Améliorations des benchmarks

Gemma 4 montre des améliorations significatives sur les benchmarks standards :

BenchmarkGemma 3 27BGemma 4 27BAmélioration
MMLU75,680,2+4,6
HumanEval68,576,8+8,3
GSM8K82,388,1+5,8
MATH45,253,7+8,5

Les plus grands gains sont en génération de code (HumanEval) et en raisonnement mathématique (MATH). La connaissance générale (MMLU) s'est aussi améliorée, mais plus modestement.

Guide de migration

Depuis Gemma 3 avec Ollama

# Supprimer l'ancien modèle
ollama rm gemma3:12b

# Télécharger le nouveau modèle
ollama pull gemma4:12b

# Vos scripts existants utilisant l'API Ollama fonctionnent sans changement
# Mettez juste à jour le nom du modèle

Depuis Gemma 3 avec transformers

# Avant (Gemma 3)
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-3-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-3-12b-it")

# Après (Gemma 4) — même API, nom de modèle différent
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-12b-it")

Changements rupture

  • Format du template chat : Gemma 4 utilise un template chat mis à jour. Si vous construisez les prompts manuellement, vérifiez le nouveau format.
  • Mises à jour du tokenizer : Certains tokens spéciaux ont changé. Si vous faites de la manipulation au niveau token, vérifiez votre code.
  • Les modèles MoE nécessitent des configs différentes : Le modèle 26B MoE nécessite des frameworks qui supportent les architectures MoE. Tous les outils ne gèrent pas encore cela.

Quand rester sur Gemma 3

Il y a des raisons valables de rester sur Gemma 3 :

  • Vos outils ne supportent pas encore Gemma 4. Certains frameworks sont en retard sur les nouvelles sorties.
  • Vous avez fine-tuné Gemma 3. Vos poids fine-tunés ne seront pas transférables à Gemma 4. Re-fine-tuner prend du temps et du calcul.
  • La stabilité compte plus que les fonctionnalités. Gemma 3 a des mois de correction de bugs communautaires derrière lui.
  • Vous êtes sur du matériel très contraint. Les modèles Gemma 4 peuvent avoir des exigences mémoire légèrement plus élevées pour la même taille.

Prochaines étapes

En résumé : Gemma 4 est un meilleur modèle sous tous les angles mesurables, et la licence Apache 2.0 supprime la plus grande barrière commerciale. À moins que vous n'ayez une raison spécifique de rester sur Gemma 3, la mise à jour en vaut la peine.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 vs Gemma 3 : MoE 26B, Contexte 256K, Apache 2.0, +20% Performance | Blog