Exécuter Gemma 4 localement signifie que vos données ne quittent jamais votre machine. Aucun coût d'API, aucune limite de requêtes, une confidentialité totale. Ce guide vous montre comment faire tourner Gemma 4 en moins de 5 minutes avec Ollama.
Ce dont vous avez besoin
- Un ordinateur avec au moins 8 Go de RAM (16 Go recommandés pour les modèles plus grands)
- macOS, Windows ou Linux
- Environ 2-5 Go d'espace disque libre (selon la taille du modèle)
Étape 1 : Installer Ollama
Rendez-vous sur ollama.com et téléchargez l'installateur pour votre système d'exploitation.
macOS :
# Ou installer via Homebrew
brew install ollamaLinux :
curl -fsSL https://ollama.com/install.sh | shWindows : Téléchargez l'installateur depuis ollama.com/download.
Étape 2 : Lancer Gemma 4
Une fois Ollama installé, exécuter Gemma 4 se résume à une seule commande :
ollama run gemma4C'est tout. Ollama téléchargera automatiquement le modèle et démarrera une session de chat interactive. Pour d'autres méthodes de téléchargement (Hugging Face, LM Studio, Kaggle), consultez notre guide de téléchargement complet.
Choisir la bonne taille de modèle
Gemma 4 existe en quatre tailles. Voici comment choisir :
| Modèle | Paramètres | RAM requise | Idéal pour | Commande |
|---|---|---|---|---|
| E2B | 2B | ~4 Go | Mobile, tâches rapides | ollama run gemma4:e2b |
| E4B | 4B | ~6 Go | Portables, usage quotidien | ollama run gemma4:e4b |
| 26B MoE | 26B | ~16 Go | Meilleure efficacité | ollama run gemma4:26b |
| 31B Dense | 31B | ~20 Go | Qualité maximale | ollama run gemma4:31b |
Recommandation : Commencez par E4B si vous avez un portable récent. Il offre le meilleur équilibre entre vitesse et qualité. Pas sûr de la taille adaptée à votre cas d'usage ? Lisez notre guide détaillé de comparaison des modèles.
Étape 3 : Utiliser Gemma 4 pour différentes tâches
Chat texte
ollama run gemma4
>>> Tell me about quantum computing in simple termsGénération de code
ollama run gemma4
>>> Write a Python function to sort a list of dictionaries by a keyCompréhension d'images (multimodal)
Gemma 4 peut analyser les images :
ollama run gemma4
>>> Describe this image: /path/to/image.jpgUtilisation de l'API
Ollama fournit aussi une API locale sur http://localhost:11434 :
curl http://localhost:11434/api/generate -d '{
"model": "gemma4",
"prompt": "What is machine learning?"
}'Conseils de performance
- Fermez les autres applications — libérez de la RAM pour le modèle
- Utilisez les modèles quantifiés — Ollama sert des versions quantifiées par défaut, qui sont beaucoup plus rapides
- Accélération GPU — si vous avez un GPU NVIDIA, Ollama l'utilisera automatiquement
- Ajustez la longueur de contexte — pour des conversations plus longues, définissez
/set parameter num_ctx 8192
Gemma 4 vs les API cloud
| Fonctionnalité | Gemma 4 local (Ollama) | API cloud (ChatGPT, Gemini) |
|---|---|---|
| Coût | Gratuit pour toujours | Paiement par token |
| Confidentialité | 100 % local | Données envoyées au serveur |
| Vitesse | Dépend du matériel | Généralement plus rapide |
| Internet | Pas nécessaire | Requis |
| Limites | Aucune | Oui |
| Personnalisation | Contrôle total | Limitée |
Dépannage
"Not enough memory" — Essayez un modèle plus petit : ollama run gemma4:e2b
Réponse lente — Assurez-vous qu'aucune autre application lourde ne tourne. Vérifiez si le GPU est utilisé : ollama ps
Modèle introuvable — Mettez à jour Ollama : ollama update, puis réessayez.
Pour des solutions plus détaillées à ces problèmes et d'autres, consultez notre guide de dépannage Gemma 4.
Étapes suivantes
- Comparez les modèles Gemma 4 en détail sur notre page Modèles
- Essayez LM Studio pour une interface graphique
- Explorez Google AI Studio pour un accès cloud
Gemma 4 est développé par Google DeepMind et publié sous licence Apache 2.0. Ce guide est fourni par la communauté Gemma 4 AI.



