Comment exécuter Gemma 4 localement avec Ollama : guide complet (2026)

avr. 6, 2026
|Updated: avr. 7, 2026

Exécuter Gemma 4 localement signifie que vos données ne quittent jamais votre machine. Aucun coût d'API, aucune limite de requêtes, une confidentialité totale. Ce guide vous montre comment faire tourner Gemma 4 en moins de 5 minutes avec Ollama.

Ce dont vous avez besoin

  • Un ordinateur avec au moins 8 Go de RAM (16 Go recommandés pour les modèles plus grands)
  • macOS, Windows ou Linux
  • Environ 2-5 Go d'espace disque libre (selon la taille du modèle)

Étape 1 : Installer Ollama

Rendez-vous sur ollama.com et téléchargez l'installateur pour votre système d'exploitation.

macOS :

# Ou installer via Homebrew
brew install ollama

Linux :

curl -fsSL https://ollama.com/install.sh | sh

Windows : Téléchargez l'installateur depuis ollama.com/download.

Étape 2 : Lancer Gemma 4

Une fois Ollama installé, exécuter Gemma 4 se résume à une seule commande :

ollama run gemma4

C'est tout. Ollama téléchargera automatiquement le modèle et démarrera une session de chat interactive. Pour d'autres méthodes de téléchargement (Hugging Face, LM Studio, Kaggle), consultez notre guide de téléchargement complet.

Choisir la bonne taille de modèle

Gemma 4 existe en quatre tailles. Voici comment choisir :

ModèleParamètresRAM requiseIdéal pourCommande
E2B2B~4 GoMobile, tâches rapidesollama run gemma4:e2b
E4B4B~6 GoPortables, usage quotidienollama run gemma4:e4b
26B MoE26B~16 GoMeilleure efficacitéollama run gemma4:26b
31B Dense31B~20 GoQualité maximaleollama run gemma4:31b

Recommandation : Commencez par E4B si vous avez un portable récent. Il offre le meilleur équilibre entre vitesse et qualité. Pas sûr de la taille adaptée à votre cas d'usage ? Lisez notre guide détaillé de comparaison des modèles.

Étape 3 : Utiliser Gemma 4 pour différentes tâches

Chat texte

ollama run gemma4
>>> Tell me about quantum computing in simple terms

Génération de code

ollama run gemma4
>>> Write a Python function to sort a list of dictionaries by a key

Compréhension d'images (multimodal)

Gemma 4 peut analyser les images :

ollama run gemma4
>>> Describe this image: /path/to/image.jpg

Utilisation de l'API

Ollama fournit aussi une API locale sur http://localhost:11434 :

curl http://localhost:11434/api/generate -d '{
  "model": "gemma4",
  "prompt": "What is machine learning?"
}'

Conseils de performance

  1. Fermez les autres applications — libérez de la RAM pour le modèle
  2. Utilisez les modèles quantifiés — Ollama sert des versions quantifiées par défaut, qui sont beaucoup plus rapides
  3. Accélération GPU — si vous avez un GPU NVIDIA, Ollama l'utilisera automatiquement
  4. Ajustez la longueur de contexte — pour des conversations plus longues, définissez /set parameter num_ctx 8192

Gemma 4 vs les API cloud

FonctionnalitéGemma 4 local (Ollama)API cloud (ChatGPT, Gemini)
CoûtGratuit pour toujoursPaiement par token
Confidentialité100 % localDonnées envoyées au serveur
VitesseDépend du matérielGénéralement plus rapide
InternetPas nécessaireRequis
LimitesAucuneOui
PersonnalisationContrôle totalLimitée

Dépannage

"Not enough memory" — Essayez un modèle plus petit : ollama run gemma4:e2b

Réponse lente — Assurez-vous qu'aucune autre application lourde ne tourne. Vérifiez si le GPU est utilisé : ollama ps

Modèle introuvable — Mettez à jour Ollama : ollama update, puis réessayez.

Pour des solutions plus détaillées à ces problèmes et d'autres, consultez notre guide de dépannage Gemma 4.

Étapes suivantes


Gemma 4 est développé par Google DeepMind et publié sous licence Apache 2.0. Ce guide est fourni par la communauté Gemma 4 AI.

Gemma 4 AI

Gemma 4 AI

Related Guides

Comment exécuter Gemma 4 localement avec Ollama : guide complet (2026) | Blog