Gemma 4 ne marche pas ? Solutions pour OOM, lenteur et problèmes GPU

Gemma 4 ne fonctionne pas comme prévu ? Pas de panique — la plupart des problèmes ont des solutions simples. Ce guide couvre les vrais problèmes que les gens rencontrent, issus des fils Reddit, des issues GitHub et des forums communautaires.

Allons dépanner.

Problème 1 : Mémoire insuffisante (OOM)

Symptômes : Votre système se fige, le processus est tué, ou vous voyez des erreurs comme CUDA out of memory, mmap failed, ou le système commence à faire du swap de manière intensive.

Pourquoi ça arrive : Les poids du modèle + le cache KV dépassent votre RAM ou VRAM disponible.

Solution 1 : Utiliser un modèle plus petit

La solution la plus fiable. Si vous essayez d'exécuter le 31B sur 16 Go de RAM, ça ne marchera tout simplement pas.

# Au lieu de ça (nécessite ~20 Go)
ollama run gemma4:31b

# Essayez ça (nécessite ~6 Go)
ollama run gemma4:e4b

Consultez notre guide de comparaison des modèles pour trouver la bonne taille pour votre matériel.

Solution 2 : Utiliser une quantification plus agressive

Si vous chargez des fichiers GGUF, prenez une quantification plus petite. Notre guide GGUF explique toutes les options de quantification en détail.

# Q4_K_M est beaucoup plus petit que Q8 ou FP16
huggingface-cli download google/gemma-4-26b-GGUF \
  --include "gemma-4-26b-Q4_K_M.gguf"

Quantification	Économie mémoire	Impact qualité
Q4_K_M	~75 % plus petit	Minimal
Q5_K_M	~65 % plus petit	Très faible
Q8_0	~50 % plus petit	Négligeable

Solution 3 : Réduire la longueur de contexte

Le cache KV croît avec la longueur de contexte. Gemma 4 supporte jusqu'à 262K tokens, mais ce cache est énorme — les retours de la communauté montrent que le cache KV du modèle 31B seul peut consommer ~22 Go à plein contexte.

# Limiter le contexte à 4K ou 8K
ollama run gemma4:31b --ctx-size 4096

Dans LM Studio, allez dans les paramètres et réduisez le curseur "Context Length".

Solution 4 : Activer la quantification du cache KV

Certains backends supportent la quantification du cache KV lui-même, ce qui réduit drastiquement la mémoire :

# Dans llama.cpp
./llama-server -m gemma4-31b-Q4_K_M.gguf \
  --ctx-size 8192 \
  --cache-type-k q8_0 \
  --cache-type-v q8_0

Solution 5 : Fermer les autres applications

Ça semble évident, mais Chrome seul peut consommer 4-8 Go de RAM. Fermez les navigateurs, les IDE et les autres applications lourdes avant d'exécuter de grands modèles.

Problème 2 : Inférence lente

Symptômes : Les tokens sortent douloureusement lentement — genre 1-2 tokens par seconde quand vous en attendiez 20+. Pour un guide complet de toutes les optimisations de vitesse disponibles, consultez notre guide d'optimisation de la vitesse.

Solution 1 : Vérifier si le GPU est réellement utilisé

C'est la cause numéro un d'inférence lente. Le modèle tourne peut-être entièrement sur CPU.

# Vérifier si Ollama utilise le GPU
ollama ps

Regardez la colonne "PROCESSOR". Si elle affiche "CPU" au lieu de votre GPU, c'est votre problème.

Solution 2 : S'assurer que le déchargement GPU est activé

Avec Ollama, le déchargement GPU devrait être automatique, mais parfois il ne détecte pas votre GPU :

# Vérifier les GPU disponibles
ollama show --system

# Forcer les couches GPU (toutes les couches)
OLLAMA_NUM_GPU=999 ollama run gemma4:e4b

Avec llama.cpp, utilisez le drapeau -ngl :

# Décharger toutes les couches sur le GPU
./llama-cli -m gemma4-e4b-Q4_K_M.gguf -ngl 999

Solution 3 : Vous êtes peut-être limité par le CPU

Si le modèle ne tient pas entièrement dans la VRAM, certaines couches tournent sur CPU, créant un goulot d'étranglement. Options :

Utilisez un modèle plus petit qui tient entièrement dans la VRAM
Utilisez une quantification plus petite (Q4 au lieu de Q8)
Réduisez la longueur de contexte pour libérer de la VRAM pour les couches du modèle

Solution 4 : Vérifier vos paramètres d'alimentation

Sur les portables, le mode économie d'énergie bride à la fois le CPU et le GPU. Assurez-vous d'être en "Haute performance" ou branché.

Sur Mac :

# Vérifier si le mode basse consommation est actif
pmset -g | grep lowpowermode

Problème 3 : GPU non détecté

Utilisateurs NVIDIA

Vérifier les pilotes CUDA :

# Vérifier que CUDA est installé et fonctionne
nvidia-smi

Si nvidia-smi ne fonctionne pas ou affiche une erreur :

Installez ou mettez à jour les pilotes NVIDIA depuis nvidia.com/drivers
Installez CUDA Toolkit depuis developer.nvidia.com/cuda-downloads
Redémarrez votre machine

Vérifier qu'Ollama voit le GPU :

# Devrait afficher votre GPU
ollama show --system

Utilisateurs AMD

Le support GPU AMD nécessite ROCm, et c'est plus capricieux :

Installez ROCm : suivez le guide d'installation ROCm
Assurez-vous d'avoir un GPU supporté (la série RX 7000 fonctionne le mieux)
Utilisez la version compatible ROCm de votre moteur d'inférence

# Vérifier l'installation ROCm
rocminfo | head -20

Problème connu : Certains GPU AMD (surtout les anciens) ne sont pas supportés. Vérifiez la liste de compatibilité ROCm.

Utilisateurs Mac (Apple Silicon)

Bonne nouvelle — l'accélération Metal est activée par défaut dans Ollama et llama.cpp sur Apple Silicon. Si ça ne marche pas :

# Vérifier que Metal est disponible
system_profiler SPDisplaysDataType | grep Metal

Si ça affiche "Metal: Supported", c'est bon. Ollama devrait automatiquement utiliser l'accélération Metal sur les Mac M1/M2/M3/M4.

Problème 4 : Le téléchargement du modèle est bloqué

Téléchargement Ollama bloqué

# Annuler et réessayer
# Ctrl+C pour arrêter, puis :
ollama pull gemma4:e4b

Si ça continue de bloquer :

Vérifiez votre connexion internet
Essayez un réseau différent (un VPN peut aider ou empirer les choses)
Vérifiez l'espace disque : df -h

Téléchargement Hugging Face bloqué

# Activer les téléchargements plus rapides
pip install hf-transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download google/gemma-4-e4b

Si vous êtes dans une région avec un accès lent à Hugging Face, essayez un miroir ou téléchargez pendant les heures creuses.

Pas assez d'espace disque

# Vérifier l'espace disponible
df -h

# Nettoyer les anciens modèles Ollama
ollama list          # Voir ce qui est installé
ollama rm modelname  # Supprimer ceux dont vous n'avez plus besoin

Pour référence, voici l'espace nécessaire :

Modèle	Espace disque (Q4_K_M)
E2B	~1,5 Go
E4B	~3 Go
26B	~8 Go
31B	~18 Go

Problème 5 : Erreurs spécifiques à Ollama

"Error: model not found"

Assurez-vous d'utiliser le bon nom de modèle :

# Correct
ollama run gemma4
ollama run gemma4:e4b

# Faux (erreurs courantes)
ollama run gemma-4     # Le tiret ne marche pas
ollama run google/gemma4  # N'incluez pas le nom de l'organisation

Problèmes de tokenizer

Des rapports signalent des bugs liés au tokenizer avec Gemma 4 dans les premières versions de llama.cpp. Si vous obtenez des sorties illisibles :

# Mettre à jour Ollama vers la dernière version
# macOS
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

Le correctif a été intégré dans llama.cpp et Ollama l'a repris dans les versions récentes. Assurez-vous d'être sur la dernière version.

"Unexpected token" ou erreurs de parsing

Cela signifie généralement que le fichier GGUF est corrompu ou incompatible :

# Supprimer et re-télécharger le modèle
ollama rm gemma4:e4b
ollama pull gemma4:e4b

Problème 6 : Exécution sur CPU au lieu du GPU

C'est un problème connu (référencé dans l'issue GitHub #15237 pour Ollama). Le modèle se charge mais tourne sur CPU même si vous avez un GPU.

Diagnostic

# Vérifier ce qu'Ollama utilise
ollama ps
# Regardez la colonne PROCESSOR

Solutions

Étape 1 : Mettez à jour Ollama vers la dernière version (beaucoup de bugs de détection GPU ont été corrigés) :

brew upgrade ollama  # macOS
# Ou relancez le script d'installation sur Linux

Étape 2 : Définissez les variables d'environnement GPU explicitement :

# NVIDIA
export CUDA_VISIBLE_DEVICES=0
ollama run gemma4:e4b

# Forcer l'utilisation du GPU
OLLAMA_NUM_GPU=999 ollama run gemma4:e4b

Étape 3 : Vérifiez si le modèle est trop gros pour votre GPU :

Si le modèle ne tient pas dans la VRAM, Ollama peut basculer entièrement sur CPU au lieu de faire du déchargement partiel. Essayez un modèle plus petit ou une quantification plus agressive.

Étape 4 : Redémarrez le service Ollama :

# macOS
brew services restart ollama

# Linux (systemd)
sudo systemctl restart ollama

Arbre de décision de dépannage

Pas sûr par où commencer ? Suivez ceci :

Le modèle se télécharge-t-il ?
- Non → Vérifiez internet, espace disque, orthographe du nom du modèle
- Oui → Continuez
Est-ce qu'il se lance ?
- Non, erreur OOM → Utilisez un modèle plus petit ou une quantification, réduisez la longueur de contexte
- Non, autre erreur → Mettez à jour Ollama, vérifiez le nom du modèle, re-téléchargez
- Oui → Continuez
Le GPU est-il utilisé ?
- Non → Vérifiez les pilotes (NVIDIA : nvidia-smi, AMD : rocminfo), mettez à jour Ollama, définissez les variables d'environnement
- Oui → Continuez
C'est assez rapide ?
- Non → Vérifiez les paramètres d'alimentation, fermez les autres apps, essayez une quantification plus petite
- Oui → Tout est bon !
La qualité des réponses est-elle mauvaise ?
- Texte illisible → Mettez à jour Ollama (correctif tokenizer), re-téléchargez le modèle
- Qualité basse → Essayez un modèle plus gros ou une quantification moins agressive

Toujours bloqué ?

Si rien de ce qui précède n'a résolu votre problème :

Problèmes Ollama : Consultez github.com/ollama/ollama/issues et cherchez votre erreur spécifique
Problèmes llama.cpp : Consultez github.com/ggml-org/llama.cpp/issues
Reddit : Cherchez sur r/LocalLLaMA — la communauté est incroyablement serviable et quelqu'un a probablement rencontré le même problème

Étapes suivantes

Choisir le bon modèle pour votre matériel → Quel modèle Gemma 4 choisir ?
Vérifier la configuration matérielle → Guide matériel Gemma 4
Télécharger ou re-télécharger → Guide de téléchargement Gemma 4
Essayer la version navigateur (aucune installation) → Guide Google AI Studio