Gemma 4 GGUF : Quelle quantification choisir ?

La quantification GGUF est la façon de réduire Gemma 4 d'un colosse de 24 Go à quelque chose qui tient réellement sur votre matériel. Mais avec une douzaine de niveaux de quantification différents à choisir, choisir le bon est déroutant. Ce guide coupe à travers le bruit et vous dit exactement quel format utiliser.

Qu'est-ce que GGUF ?

GGUF (GGML Universal Format) est un format de fichier conçu spécifiquement pour exécuter de grands modèles de langage sur du matériel grand public. Il stocke les poids du modèle dans des formats compressés qui échangent une petite quantité de qualité contre des tailles de fichier dramatiquement plus petites et une inférence plus rapide.

Le concept clé est la quantification — réduire la précision des poids du modèle de flottants 16 bits (FP16) à 8 bits, 4 bits, voire moins. Précision plus basse = fichier plus petit = inférence plus rapide = légèrement moins précis.

Niveaux de quantification comparés

Voici la comparaison complète pour Gemma 4 12B :

Quantification	Taille fichier	VRAM nécessaire	Vitesse (tok/s)*	Perte qualité	Idéal pour
FP16	~24 Go	~26 Go	Référence	Aucune	Recherche, fine-tuning
Q8_0	~13 Go	~15 Go	1,2x plus rapide	Négligeable	Tâches critiques en qualité
Q6_K	~10 Go	~12 Go	1,4x plus rapide	Très faible	Équilibre qualité-taille
Q5_K_M	~8,5 Go	~10 Go	1,6x plus rapide	Faible	Usage quotidien axé qualité
Q5_K_S	~8 Go	~10 Go	1,6x plus rapide	Faible	Q5 légèrement plus petit
Q4_K_M	~7 Go	~9 Go	1,8x plus rapide	Modérée	Meilleur choix pour la plupart
Q4_K_S	~6,5 Go	~8,5 Go	1,8x plus rapide	Modérée	Budget VRAM serré
IQ4_XS	~6 Go	~8 Go	1,9x plus rapide	Notable	Qualité viable minimale
Q3_K_M	~5,5 Go	~7,5 Go	2,0x plus rapide	Significative	Non recommandé
Q2_K	~4,5 Go	~6,5 Go	2,1x plus rapide	Sévère	Expérimentation seulement

Vitesse relative à FP16 sur le même matériel. Les tok/s réels varient selon le GPU.

Les recommandations

Q4_K_M — Meilleur équilibre pour la plupart des gens. La qualité est étonnamment proche du FP16 pour les tâches quotidiennes comme le code, la rédaction et les Q&R. C'est le défaut dans la plupart des modèles Ollama.
Q5_K_M — Choisissez-le si vous avez la VRAM supplémentaire et voulez une qualité notablement meilleure sur les tâches de raisonnement complexe.
Q8_0 — Qualité proche de l'original. À n'utiliser que si votre matériel peut le gérer — l'amélioration de qualité par rapport à Q5 est marginale pour la plupart des tâches.
IQ4_XS — Le format le plus petit encore utilisable. Parfait pour les tests ou quand il vous manque 1-2 Go de VRAM.

Évitez Q3 et Q2 — la baisse de qualité est trop forte pour être utile à quoi que ce soit de sérieux.

Où télécharger les fichiers GGUF

Unsloth sur Hugging Face (recommandé)

Unsloth fournit des conversions GGUF de haute qualité pour tous les modèles Gemma 4 :

# Parcourir les fichiers disponibles
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF

# Télécharger avec huggingface-cli
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# Ou télécharger avec wget
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf

Dépôts disponibles :

Modèle	Dépôt Hugging Face
Gemma 4 1B	unsloth/gemma-4-1b-it-GGUF
Gemma 4 4B	unsloth/gemma-4-4b-it-GGUF
Gemma 4 12B	unsloth/gemma-4-12b-it-GGUF
Gemma 4 27B	unsloth/gemma-4-27b-it-GGUF

Exécuter des fichiers GGUF

Avec llama.cpp

La façon la plus directe d'exécuter des fichiers GGUF :

# Cloner et compiler llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON  # ou DGGML_METAL=ON pour Mac
cmake --build build

# Exécuter l'inférence
./build/bin/llama-server \
  -m ./models/gemma-4-12b-it-Q4_K_M.gguf \
  -ngl 999 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

# Vous avez maintenant une API compatible OpenAI à http://localhost:8080

Avec Ollama

Ollama utilise GGUF en interne. Vous pouvez créer des modèles personnalisés à partir de fichiers GGUF :

# Méthode 1 : Utiliser les modèles Ollama préconstruits (le plus simple)
ollama run gemma4:12b

# Méthode 2 : Importer votre propre fichier GGUF
# Créer un Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF

# Créer le modèle
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4

Avec LM Studio

LM Studio fournit une interface graphique pour télécharger et exécuter des fichiers GGUF :

Ouvrez LM Studio
Cherchez « gemma 4 » dans le navigateur de modèles
Sélectionnez le niveau de quantification que vous voulez
Cliquez sur Télécharger
Allez dans l'onglet Chat et sélectionnez votre modèle
Commencez à discuter

LM Studio expose également une API locale compatible avec le format OpenAI, donc vous pouvez l'utiliser comme backend de remplacement pour les applications attendant un endpoint de style OpenAI.

Qualité vs vitesse : tests en conditions réelles

Voici comment les différentes quantifications performent sur des tâches réelles avec Gemma 4 12B :

Tâche	Q4_K_M	Q5_K_M	Q8_0	FP16
Génération de code	92% de correspondance	95% de correspondance	98% de correspondance	100% (référence)
Écriture créative	Différences mineures	Quasi identique	Identique	Référence
Raisonnement mathématique	~85% précision	~90% précision	~95% précision	~96% précision
Résumé	Très proche	Très proche	Identique	Référence
Traduction	Légère baisse de qualité	Quasi identique	Identique	Référence

Pour la plupart des utilisateurs, Q4_K_M est le point optimal. Vous perdez quelques points de pourcentage sur les maths difficiles et le raisonnement complexe, mais pour le code, la rédaction, le résumé et les Q&R générales, la différence est à peine notable.

Choisir selon le matériel

Votre matériel	Quantification recommandée	Taille du modèle
GPU 8 Go VRAM	Q4_K_M ou IQ4_XS	12B
GPU 12 Go VRAM	Q5_K_M ou Q6_K	12B
GPU 16 Go VRAM	Q8_0	12B
GPU 24 Go VRAM	Q8_0 (12B) ou Q4_K_M (27B)	12B ou 27B
Mac 16 Go	Q4_K_M	12B
Mac 32 Go	Q5_K_M (12B) ou Q4_K_M (27B)	12B ou 27B
Mac 64 Go+	Q8_0 pour toute taille	27B

Prochaines étapes

Besoin de télécharger des modèles ? Consultez notre Guide de téléchargement pour toutes les façons d'obtenir Gemma 4
Envie de plus de détails sur les exigences matérielles ? Voir le Guide matériel pour les calculs de VRAM par modèle et quantification
Télécharger depuis Hugging Face ? Lisez Comment télécharger depuis Hugging Face pour des instructions détaillées

L'essentiel : commencez avec Q4_K_M. Si vous remarquez des problèmes de qualité sur vos tâches spécifiques, passez à Q5_K_M. N'allez plus haut que si vous avez la VRAM à perdre et avez véritablement besoin de la précision supplémentaire.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />