Gemma 4 est une mise à jour majeure par rapport à Gemma 3, mais vaut-il la peine de passer à la nouvelle version ? La réponse dépend de ce que vous faites. Cet article décompose chaque différence significative pour que vous puissiez prendre une décision éclairée.
Les grands changements en un coup d'œil
| Fonctionnalité | Gemma 3 | Gemma 4 |
|---|---|---|
| Licence | Google Restricted Use | Apache 2.0 |
| Architecture | Dense uniquement | Dense + MoE |
| Entrée audio | Non supportée | Modèles E2B et E4B |
| Contexte max | 128K | 256K |
| Tailles de modèle | 1B, 4B, 12B, 27B | 1B, 4B, 12B, 27B, E2B, E4B, 26B MoE, 31B Dense |
| Appel de fonctions | Basique | Natif avec sortie structurée |
| Support de quantification | GGUF disponible | GGUF + tolérance de quantification améliorée |
Licence : de restreinte à ouverte
C'est sans doute le plus grand changement. Gemma 3 utilisait la licence personnalisée de Google qui restreignait l'usage commercial dans certains scénarios et avait des plafonds d'utilisation. Gemma 4 passe à Apache 2.0 — la même licence utilisée par des projets comme Kubernetes et TensorFlow.
Ce que cela signifie pour vous :
- Pas de restrictions d'utilisation. Utilisez-le dans n'importe quel produit, commercial ou non.
- Pas de préoccupations de propriété des sorties. Google ne revendique pas de droits sur les sorties du modèle.
- Forkez et modifiez librement. Construisez des modèles dérivés sans incertitude juridique.
- Adapté aux entreprises. Les équipes juridiques adorent Apache 2.0 parce qu'elle est bien comprise.
Si la licence était la raison pour laquelle vous évitiez Gemma 3 en production, ce blocage a disparu.
Architecture MoE : le modèle 26B
Gemma 4 introduit un modèle Mixture of Experts (MoE) aux côtés des modèles denses traditionnels. Le modèle MoE 26B a 26 milliards de paramètres au total, mais n'active qu'environ 3,8 milliards par token.
Pourquoi c'est important :
- Vitesse : Le MoE tourne beaucoup plus vite qu'un modèle dense de qualité équivalente car moins de paramètres sont actifs
- Mémoire : Le 26B complet doit être chargé, mais le calcul d'inférence est plus proche d'un modèle 4B
- Qualité : Les benchmarks montrent que le 26B MoE performe de manière comparable au 27B dense sur la plupart des tâches
# Exécuter le modèle MoE avec Ollama
ollama run gemma4:26b
# Comparer la vitesse — vous remarquerez que le MoE est significativement plus rapide
ollama run gemma4:27bEntrée audio : E2B et E4B
Gemma 4 ajoute la compréhension audio via les modèles edge E2B (2 milliards) et E4B (4 milliards). Ceux-ci peuvent traiter de l'audio parlé aux côtés de texte et d'images.
Cas d'utilisation :
- Traitement de commandes vocales sur appareil
- Transcription audio avec compréhension contextuelle
- Applications multimodales combinant parole, texte et images
Note : Le support audio n'est disponible que dans les modèles E2B et E4B. Les plus grands modèles 12B, 27B, 26B et 31B gèrent texte et vision mais pas audio.
Fenêtre de contexte 256K
Gemma 3 plafonnait à 128K tokens. Gemma 4 double à 256K. En pratique :
| Longueur du contexte | Équivaut à peu près à |
|---|---|
| 8K | Un long article |
| 32K | Un court chapitre de livre |
| 128K (max Gemma 3) | Un roman court |
| 256K (max Gemma 4) | Un roman complet |
Gardez à l'esprit qu'un contexte plus long utilise plus de mémoire et ralentit l'inférence. Ce n'est pas parce que vous pouvez utiliser 256K que vous devriez — réglez le contexte à ce dont vous avez réellement besoin.
Améliorations des benchmarks
Gemma 4 montre des améliorations significatives sur les benchmarks standards :
| Benchmark | Gemma 3 27B | Gemma 4 27B | Amélioration |
|---|---|---|---|
| MMLU | 75,6 | 80,2 | +4,6 |
| HumanEval | 68,5 | 76,8 | +8,3 |
| GSM8K | 82,3 | 88,1 | +5,8 |
| MATH | 45,2 | 53,7 | +8,5 |
Les plus grands gains sont en génération de code (HumanEval) et en raisonnement mathématique (MATH). La connaissance générale (MMLU) s'est aussi améliorée, mais plus modestement.
Guide de migration
Depuis Gemma 3 avec Ollama
# Supprimer l'ancien modèle
ollama rm gemma3:12b
# Télécharger le nouveau modèle
ollama pull gemma4:12b
# Vos scripts existants utilisant l'API Ollama fonctionnent sans changement
# Mettez juste à jour le nom du modèleDepuis Gemma 3 avec transformers
# Avant (Gemma 3)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-3-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-3-12b-it")
# Après (Gemma 4) — même API, nom de modèle différent
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-12b-it")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-12b-it")Changements rupture
- Format du template chat : Gemma 4 utilise un template chat mis à jour. Si vous construisez les prompts manuellement, vérifiez le nouveau format.
- Mises à jour du tokenizer : Certains tokens spéciaux ont changé. Si vous faites de la manipulation au niveau token, vérifiez votre code.
- Les modèles MoE nécessitent des configs différentes : Le modèle 26B MoE nécessite des frameworks qui supportent les architectures MoE. Tous les outils ne gèrent pas encore cela.
Quand rester sur Gemma 3
Il y a des raisons valables de rester sur Gemma 3 :
- Vos outils ne supportent pas encore Gemma 4. Certains frameworks sont en retard sur les nouvelles sorties.
- Vous avez fine-tuné Gemma 3. Vos poids fine-tunés ne seront pas transférables à Gemma 4. Re-fine-tuner prend du temps et du calcul.
- La stabilité compte plus que les fonctionnalités. Gemma 3 a des mois de correction de bugs communautaires derrière lui.
- Vous êtes sur du matériel très contraint. Les modèles Gemma 4 peuvent avoir des exigences mémoire légèrement plus élevées pour la même taille.
Prochaines étapes
- Prêt à choisir un modèle ? Consultez Quel modèle Gemma 4 choisir ? pour des recommandations détaillées de taille
- Envie de mieux comprendre MoE vs Dense ? Lisez Gemma 4 26B vs 31B : MoE vs Dense pour une comparaison approfondie
- Curieux de savoir comment Gemma 4 se compare aux concurrents ? Voir Gemma 4 vs Llama 4 pour une comparaison entre familles
En résumé : Gemma 4 est un meilleur modèle sous tous les angles mesurables, et la licence Apache 2.0 supprime la plus grande barrière commerciale. À moins que vous n'ayez une raison spécifique de rester sur Gemma 3, la mise à jour en vaut la peine.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


