Comment exécuter Gemma 4 localement avec Ollama : guide complet (2026)

Exécuter Gemma 4 localement signifie que vos données ne quittent jamais votre machine. Aucun coût d'API, aucune limite de requêtes, une confidentialité totale. Ce guide vous montre comment faire tourner Gemma 4 en moins de 5 minutes avec Ollama.

Ce dont vous avez besoin

Un ordinateur avec au moins 8 Go de RAM (16 Go recommandés pour les modèles plus grands)
macOS, Windows ou Linux
Environ 2-5 Go d'espace disque libre (selon la taille du modèle)

Étape 1 : Installer Ollama

Rendez-vous sur ollama.com et téléchargez l'installateur pour votre système d'exploitation.

macOS :

# Ou installer via Homebrew
brew install ollama

Linux :

curl -fsSL https://ollama.com/install.sh | sh

Windows : Téléchargez l'installateur depuis ollama.com/download.

Étape 2 : Lancer Gemma 4

Une fois Ollama installé, exécuter Gemma 4 se résume à une seule commande :

ollama run gemma4

C'est tout. Ollama téléchargera automatiquement le modèle et démarrera une session de chat interactive. Pour d'autres méthodes de téléchargement (Hugging Face, LM Studio, Kaggle), consultez notre guide de téléchargement complet.

Choisir la bonne taille de modèle

Gemma 4 existe en quatre tailles. Voici comment choisir :

Modèle	Paramètres	RAM requise	Idéal pour	Commande
E2B	2B	~4 Go	Mobile, tâches rapides	`ollama run gemma4:e2b`
E4B	4B	~6 Go	Portables, usage quotidien	`ollama run gemma4:e4b`
26B MoE	26B	~16 Go	Meilleure efficacité	`ollama run gemma4:26b`
31B Dense	31B	~20 Go	Qualité maximale	`ollama run gemma4:31b`

Recommandation : Commencez par E4B si vous avez un portable récent. Il offre le meilleur équilibre entre vitesse et qualité. Pas sûr de la taille adaptée à votre cas d'usage ? Lisez notre guide détaillé de comparaison des modèles.

Étape 3 : Utiliser Gemma 4 pour différentes tâches

Chat texte

ollama run gemma4
>>> Tell me about quantum computing in simple terms

Génération de code

ollama run gemma4
>>> Write a Python function to sort a list of dictionaries by a key

Compréhension d'images (multimodal)

Gemma 4 peut analyser les images :

ollama run gemma4
>>> Describe this image: /path/to/image.jpg

Utilisation de l'API

Ollama fournit aussi une API locale sur http://localhost:11434 :

curl http://localhost:11434/api/generate -d '{
  "model": "gemma4",
  "prompt": "What is machine learning?"
}'

Conseils de performance

Fermez les autres applications — libérez de la RAM pour le modèle
Utilisez les modèles quantifiés — Ollama sert des versions quantifiées par défaut, qui sont beaucoup plus rapides
Accélération GPU — si vous avez un GPU NVIDIA, Ollama l'utilisera automatiquement
Ajustez la longueur de contexte — pour des conversations plus longues, définissez /set parameter num_ctx 8192

Gemma 4 vs les API cloud

Fonctionnalité	Gemma 4 local (Ollama)	API cloud (ChatGPT, Gemini)
Coût	Gratuit pour toujours	Paiement par token
Confidentialité	100 % local	Données envoyées au serveur
Vitesse	Dépend du matériel	Généralement plus rapide
Internet	Pas nécessaire	Requis
Limites	Aucune	Oui
Personnalisation	Contrôle total	Limitée

Dépannage

"Not enough memory" — Essayez un modèle plus petit : ollama run gemma4:e2b

Réponse lente — Assurez-vous qu'aucune autre application lourde ne tourne. Vérifiez si le GPU est utilisé : ollama ps

Modèle introuvable — Mettez à jour Ollama : ollama update, puis réessayez.

Pour des solutions plus détaillées à ces problèmes et d'autres, consultez notre guide de dépannage Gemma 4.

Étapes suivantes

Comparez les modèles Gemma 4 en détail sur notre page Modèles
Essayez LM Studio pour une interface graphique
Explorez Google AI Studio pour un accès cloud

Gemma 4 est développé par Google DeepMind et publié sous licence Apache 2.0. Ce guide est fourni par la communauté Gemma 4 AI.