Gemma 4 ne fonctionne pas comme prévu ? Pas de panique — la plupart des problèmes ont des solutions simples. Ce guide couvre les vrais problèmes que les gens rencontrent, issus des fils Reddit, des issues GitHub et des forums communautaires.
Allons dépanner.
Problème 1 : Mémoire insuffisante (OOM)
Symptômes : Votre système se fige, le processus est tué, ou vous voyez des erreurs comme CUDA out of memory, mmap failed, ou le système commence à faire du swap de manière intensive.
Pourquoi ça arrive : Les poids du modèle + le cache KV dépassent votre RAM ou VRAM disponible.
Solution 1 : Utiliser un modèle plus petit
La solution la plus fiable. Si vous essayez d'exécuter le 31B sur 16 Go de RAM, ça ne marchera tout simplement pas.
# Au lieu de ça (nécessite ~20 Go)
ollama run gemma4:31b
# Essayez ça (nécessite ~6 Go)
ollama run gemma4:e4bConsultez notre guide de comparaison des modèles pour trouver la bonne taille pour votre matériel.
Solution 2 : Utiliser une quantification plus agressive
Si vous chargez des fichiers GGUF, prenez une quantification plus petite. Notre guide GGUF explique toutes les options de quantification en détail.
# Q4_K_M est beaucoup plus petit que Q8 ou FP16
huggingface-cli download google/gemma-4-26b-GGUF \
--include "gemma-4-26b-Q4_K_M.gguf"| Quantification | Économie mémoire | Impact qualité |
|---|---|---|
| Q4_K_M | ~75 % plus petit | Minimal |
| Q5_K_M | ~65 % plus petit | Très faible |
| Q8_0 | ~50 % plus petit | Négligeable |
Solution 3 : Réduire la longueur de contexte
Le cache KV croît avec la longueur de contexte. Gemma 4 supporte jusqu'à 262K tokens, mais ce cache est énorme — les retours de la communauté montrent que le cache KV du modèle 31B seul peut consommer ~22 Go à plein contexte.
# Limiter le contexte à 4K ou 8K
ollama run gemma4:31b --ctx-size 4096Dans LM Studio, allez dans les paramètres et réduisez le curseur "Context Length".
Solution 4 : Activer la quantification du cache KV
Certains backends supportent la quantification du cache KV lui-même, ce qui réduit drastiquement la mémoire :
# Dans llama.cpp
./llama-server -m gemma4-31b-Q4_K_M.gguf \
--ctx-size 8192 \
--cache-type-k q8_0 \
--cache-type-v q8_0Solution 5 : Fermer les autres applications
Ça semble évident, mais Chrome seul peut consommer 4-8 Go de RAM. Fermez les navigateurs, les IDE et les autres applications lourdes avant d'exécuter de grands modèles.
Problème 2 : Inférence lente
Symptômes : Les tokens sortent douloureusement lentement — genre 1-2 tokens par seconde quand vous en attendiez 20+. Pour un guide complet de toutes les optimisations de vitesse disponibles, consultez notre guide d'optimisation de la vitesse.
Solution 1 : Vérifier si le GPU est réellement utilisé
C'est la cause numéro un d'inférence lente. Le modèle tourne peut-être entièrement sur CPU.
# Vérifier si Ollama utilise le GPU
ollama psRegardez la colonne "PROCESSOR". Si elle affiche "CPU" au lieu de votre GPU, c'est votre problème.
Solution 2 : S'assurer que le déchargement GPU est activé
Avec Ollama, le déchargement GPU devrait être automatique, mais parfois il ne détecte pas votre GPU :
# Vérifier les GPU disponibles
ollama show --system
# Forcer les couches GPU (toutes les couches)
OLLAMA_NUM_GPU=999 ollama run gemma4:e4bAvec llama.cpp, utilisez le drapeau -ngl :
# Décharger toutes les couches sur le GPU
./llama-cli -m gemma4-e4b-Q4_K_M.gguf -ngl 999Solution 3 : Vous êtes peut-être limité par le CPU
Si le modèle ne tient pas entièrement dans la VRAM, certaines couches tournent sur CPU, créant un goulot d'étranglement. Options :
- Utilisez un modèle plus petit qui tient entièrement dans la VRAM
- Utilisez une quantification plus petite (Q4 au lieu de Q8)
- Réduisez la longueur de contexte pour libérer de la VRAM pour les couches du modèle
Solution 4 : Vérifier vos paramètres d'alimentation
Sur les portables, le mode économie d'énergie bride à la fois le CPU et le GPU. Assurez-vous d'être en "Haute performance" ou branché.
Sur Mac :
# Vérifier si le mode basse consommation est actif
pmset -g | grep lowpowermodeProblème 3 : GPU non détecté
Utilisateurs NVIDIA
Vérifier les pilotes CUDA :
# Vérifier que CUDA est installé et fonctionne
nvidia-smiSi nvidia-smi ne fonctionne pas ou affiche une erreur :
- Installez ou mettez à jour les pilotes NVIDIA depuis nvidia.com/drivers
- Installez CUDA Toolkit depuis developer.nvidia.com/cuda-downloads
- Redémarrez votre machine
Vérifier qu'Ollama voit le GPU :
# Devrait afficher votre GPU
ollama show --systemUtilisateurs AMD
Le support GPU AMD nécessite ROCm, et c'est plus capricieux :
- Installez ROCm : suivez le guide d'installation ROCm
- Assurez-vous d'avoir un GPU supporté (la série RX 7000 fonctionne le mieux)
- Utilisez la version compatible ROCm de votre moteur d'inférence
# Vérifier l'installation ROCm
rocminfo | head -20Problème connu : Certains GPU AMD (surtout les anciens) ne sont pas supportés. Vérifiez la liste de compatibilité ROCm.
Utilisateurs Mac (Apple Silicon)
Bonne nouvelle — l'accélération Metal est activée par défaut dans Ollama et llama.cpp sur Apple Silicon. Si ça ne marche pas :
# Vérifier que Metal est disponible
system_profiler SPDisplaysDataType | grep MetalSi ça affiche "Metal: Supported", c'est bon. Ollama devrait automatiquement utiliser l'accélération Metal sur les Mac M1/M2/M3/M4.
Problème 4 : Le téléchargement du modèle est bloqué
Téléchargement Ollama bloqué
# Annuler et réessayer
# Ctrl+C pour arrêter, puis :
ollama pull gemma4:e4bSi ça continue de bloquer :
- Vérifiez votre connexion internet
- Essayez un réseau différent (un VPN peut aider ou empirer les choses)
- Vérifiez l'espace disque :
df -h
Téléchargement Hugging Face bloqué
# Activer les téléchargements plus rapides
pip install hf-transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download google/gemma-4-e4bSi vous êtes dans une région avec un accès lent à Hugging Face, essayez un miroir ou téléchargez pendant les heures creuses.
Pas assez d'espace disque
# Vérifier l'espace disponible
df -h
# Nettoyer les anciens modèles Ollama
ollama list # Voir ce qui est installé
ollama rm modelname # Supprimer ceux dont vous n'avez plus besoinPour référence, voici l'espace nécessaire :
| Modèle | Espace disque (Q4_K_M) |
|---|---|
| E2B | ~1,5 Go |
| E4B | ~3 Go |
| 26B | ~8 Go |
| 31B | ~18 Go |
Problème 5 : Erreurs spécifiques à Ollama
"Error: model not found"
Assurez-vous d'utiliser le bon nom de modèle :
# Correct
ollama run gemma4
ollama run gemma4:e4b
# Faux (erreurs courantes)
ollama run gemma-4 # Le tiret ne marche pas
ollama run google/gemma4 # N'incluez pas le nom de l'organisationProblèmes de tokenizer
Des rapports signalent des bugs liés au tokenizer avec Gemma 4 dans les premières versions de llama.cpp. Si vous obtenez des sorties illisibles :
# Mettre à jour Ollama vers la dernière version
# macOS
brew upgrade ollama
# Linux
curl -fsSL https://ollama.com/install.sh | shLe correctif a été intégré dans llama.cpp et Ollama l'a repris dans les versions récentes. Assurez-vous d'être sur la dernière version.
"Unexpected token" ou erreurs de parsing
Cela signifie généralement que le fichier GGUF est corrompu ou incompatible :
# Supprimer et re-télécharger le modèle
ollama rm gemma4:e4b
ollama pull gemma4:e4bProblème 6 : Exécution sur CPU au lieu du GPU
C'est un problème connu (référencé dans l'issue GitHub #15237 pour Ollama). Le modèle se charge mais tourne sur CPU même si vous avez un GPU.
Diagnostic
# Vérifier ce qu'Ollama utilise
ollama ps
# Regardez la colonne PROCESSORSolutions
Étape 1 : Mettez à jour Ollama vers la dernière version (beaucoup de bugs de détection GPU ont été corrigés) :
brew upgrade ollama # macOS
# Ou relancez le script d'installation sur LinuxÉtape 2 : Définissez les variables d'environnement GPU explicitement :
# NVIDIA
export CUDA_VISIBLE_DEVICES=0
ollama run gemma4:e4b
# Forcer l'utilisation du GPU
OLLAMA_NUM_GPU=999 ollama run gemma4:e4bÉtape 3 : Vérifiez si le modèle est trop gros pour votre GPU :
Si le modèle ne tient pas dans la VRAM, Ollama peut basculer entièrement sur CPU au lieu de faire du déchargement partiel. Essayez un modèle plus petit ou une quantification plus agressive.
Étape 4 : Redémarrez le service Ollama :
# macOS
brew services restart ollama
# Linux (systemd)
sudo systemctl restart ollamaArbre de décision de dépannage
Pas sûr par où commencer ? Suivez ceci :
-
Le modèle se télécharge-t-il ?
- Non → Vérifiez internet, espace disque, orthographe du nom du modèle
- Oui → Continuez
-
Est-ce qu'il se lance ?
- Non, erreur OOM → Utilisez un modèle plus petit ou une quantification, réduisez la longueur de contexte
- Non, autre erreur → Mettez à jour Ollama, vérifiez le nom du modèle, re-téléchargez
- Oui → Continuez
-
Le GPU est-il utilisé ?
- Non → Vérifiez les pilotes (NVIDIA :
nvidia-smi, AMD :rocminfo), mettez à jour Ollama, définissez les variables d'environnement - Oui → Continuez
- Non → Vérifiez les pilotes (NVIDIA :
-
C'est assez rapide ?
- Non → Vérifiez les paramètres d'alimentation, fermez les autres apps, essayez une quantification plus petite
- Oui → Tout est bon !
-
La qualité des réponses est-elle mauvaise ?
- Texte illisible → Mettez à jour Ollama (correctif tokenizer), re-téléchargez le modèle
- Qualité basse → Essayez un modèle plus gros ou une quantification moins agressive
Toujours bloqué ?
Si rien de ce qui précède n'a résolu votre problème :
- Problèmes Ollama : Consultez github.com/ollama/ollama/issues et cherchez votre erreur spécifique
- Problèmes llama.cpp : Consultez github.com/ggml-org/llama.cpp/issues
- Reddit : Cherchez sur r/LocalLLaMA — la communauté est incroyablement serviable et quelqu'un a probablement rencontré le même problème
Étapes suivantes
- Choisir le bon modèle pour votre matériel → Quel modèle Gemma 4 choisir ?
- Vérifier la configuration matérielle → Guide matériel Gemma 4
- Télécharger ou re-télécharger → Guide de téléchargement Gemma 4
- Essayer la version navigateur (aucune installation) → Guide Google AI Studio



