La quantification GGUF est la façon de réduire Gemma 4 d'un colosse de 24 Go à quelque chose qui tient réellement sur votre matériel. Mais avec une douzaine de niveaux de quantification différents à choisir, choisir le bon est déroutant. Ce guide coupe à travers le bruit et vous dit exactement quel format utiliser.
Qu'est-ce que GGUF ?
GGUF (GGML Universal Format) est un format de fichier conçu spécifiquement pour exécuter de grands modèles de langage sur du matériel grand public. Il stocke les poids du modèle dans des formats compressés qui échangent une petite quantité de qualité contre des tailles de fichier dramatiquement plus petites et une inférence plus rapide.
Le concept clé est la quantification — réduire la précision des poids du modèle de flottants 16 bits (FP16) à 8 bits, 4 bits, voire moins. Précision plus basse = fichier plus petit = inférence plus rapide = légèrement moins précis.
Niveaux de quantification comparés
Voici la comparaison complète pour Gemma 4 12B :
| Quantification | Taille fichier | VRAM nécessaire | Vitesse (tok/s)* | Perte qualité | Idéal pour |
|---|---|---|---|---|---|
| FP16 | ~24 Go | ~26 Go | Référence | Aucune | Recherche, fine-tuning |
| Q8_0 | ~13 Go | ~15 Go | 1,2x plus rapide | Négligeable | Tâches critiques en qualité |
| Q6_K | ~10 Go | ~12 Go | 1,4x plus rapide | Très faible | Équilibre qualité-taille |
| Q5_K_M | ~8,5 Go | ~10 Go | 1,6x plus rapide | Faible | Usage quotidien axé qualité |
| Q5_K_S | ~8 Go | ~10 Go | 1,6x plus rapide | Faible | Q5 légèrement plus petit |
| Q4_K_M | ~7 Go | ~9 Go | 1,8x plus rapide | Modérée | Meilleur choix pour la plupart |
| Q4_K_S | ~6,5 Go | ~8,5 Go | 1,8x plus rapide | Modérée | Budget VRAM serré |
| IQ4_XS | ~6 Go | ~8 Go | 1,9x plus rapide | Notable | Qualité viable minimale |
| Q3_K_M | ~5,5 Go | ~7,5 Go | 2,0x plus rapide | Significative | Non recommandé |
| Q2_K | ~4,5 Go | ~6,5 Go | 2,1x plus rapide | Sévère | Expérimentation seulement |
Vitesse relative à FP16 sur le même matériel. Les tok/s réels varient selon le GPU.
Les recommandations
- Q4_K_M — Meilleur équilibre pour la plupart des gens. La qualité est étonnamment proche du FP16 pour les tâches quotidiennes comme le code, la rédaction et les Q&R. C'est le défaut dans la plupart des modèles Ollama.
- Q5_K_M — Choisissez-le si vous avez la VRAM supplémentaire et voulez une qualité notablement meilleure sur les tâches de raisonnement complexe.
- Q8_0 — Qualité proche de l'original. À n'utiliser que si votre matériel peut le gérer — l'amélioration de qualité par rapport à Q5 est marginale pour la plupart des tâches.
- IQ4_XS — Le format le plus petit encore utilisable. Parfait pour les tests ou quand il vous manque 1-2 Go de VRAM.
Évitez Q3 et Q2 — la baisse de qualité est trop forte pour être utile à quoi que ce soit de sérieux.
Où télécharger les fichiers GGUF
Unsloth sur Hugging Face (recommandé)
Unsloth fournit des conversions GGUF de haute qualité pour tous les modèles Gemma 4 :
# Parcourir les fichiers disponibles
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF
# Télécharger avec huggingface-cli
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
gemma-4-12b-it-Q4_K_M.gguf \
--local-dir ./models
# Ou télécharger avec wget
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.ggufDépôts disponibles :
| Modèle | Dépôt Hugging Face |
|---|---|
| Gemma 4 1B | unsloth/gemma-4-1b-it-GGUF |
| Gemma 4 4B | unsloth/gemma-4-4b-it-GGUF |
| Gemma 4 12B | unsloth/gemma-4-12b-it-GGUF |
| Gemma 4 27B | unsloth/gemma-4-27b-it-GGUF |
Exécuter des fichiers GGUF
Avec llama.cpp
La façon la plus directe d'exécuter des fichiers GGUF :
# Cloner et compiler llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON # ou DGGML_METAL=ON pour Mac
cmake --build build
# Exécuter l'inférence
./build/bin/llama-server \
-m ./models/gemma-4-12b-it-Q4_K_M.gguf \
-ngl 999 \
-c 8192 \
--host 0.0.0.0 \
--port 8080
# Vous avez maintenant une API compatible OpenAI à http://localhost:8080Avec Ollama
Ollama utilise GGUF en interne. Vous pouvez créer des modèles personnalisés à partir de fichiers GGUF :
# Méthode 1 : Utiliser les modèles Ollama préconstruits (le plus simple)
ollama run gemma4:12b
# Méthode 2 : Importer votre propre fichier GGUF
# Créer un Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF
# Créer le modèle
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4Avec LM Studio
LM Studio fournit une interface graphique pour télécharger et exécuter des fichiers GGUF :
- Ouvrez LM Studio
- Cherchez « gemma 4 » dans le navigateur de modèles
- Sélectionnez le niveau de quantification que vous voulez
- Cliquez sur Télécharger
- Allez dans l'onglet Chat et sélectionnez votre modèle
- Commencez à discuter
LM Studio expose également une API locale compatible avec le format OpenAI, donc vous pouvez l'utiliser comme backend de remplacement pour les applications attendant un endpoint de style OpenAI.
Qualité vs vitesse : tests en conditions réelles
Voici comment les différentes quantifications performent sur des tâches réelles avec Gemma 4 12B :
| Tâche | Q4_K_M | Q5_K_M | Q8_0 | FP16 |
|---|---|---|---|---|
| Génération de code | 92% de correspondance | 95% de correspondance | 98% de correspondance | 100% (référence) |
| Écriture créative | Différences mineures | Quasi identique | Identique | Référence |
| Raisonnement mathématique | ~85% précision | ~90% précision | ~95% précision | ~96% précision |
| Résumé | Très proche | Très proche | Identique | Référence |
| Traduction | Légère baisse de qualité | Quasi identique | Identique | Référence |
Pour la plupart des utilisateurs, Q4_K_M est le point optimal. Vous perdez quelques points de pourcentage sur les maths difficiles et le raisonnement complexe, mais pour le code, la rédaction, le résumé et les Q&R générales, la différence est à peine notable.
Choisir selon le matériel
| Votre matériel | Quantification recommandée | Taille du modèle |
|---|---|---|
| GPU 8 Go VRAM | Q4_K_M ou IQ4_XS | 12B |
| GPU 12 Go VRAM | Q5_K_M ou Q6_K | 12B |
| GPU 16 Go VRAM | Q8_0 | 12B |
| GPU 24 Go VRAM | Q8_0 (12B) ou Q4_K_M (27B) | 12B ou 27B |
| Mac 16 Go | Q4_K_M | 12B |
| Mac 32 Go | Q5_K_M (12B) ou Q4_K_M (27B) | 12B ou 27B |
| Mac 64 Go+ | Q8_0 pour toute taille | 27B |
Prochaines étapes
- Besoin de télécharger des modèles ? Consultez notre Guide de téléchargement pour toutes les façons d'obtenir Gemma 4
- Envie de plus de détails sur les exigences matérielles ? Voir le Guide matériel pour les calculs de VRAM par modèle et quantification
- Télécharger depuis Hugging Face ? Lisez Comment télécharger depuis Hugging Face pour des instructions détaillées
L'essentiel : commencez avec Q4_K_M. Si vous remarquez des problèmes de qualité sur vos tâches spécifiques, passez à Q5_K_M. N'allez plus haut que si vous avez la VRAM à perdre et avez véritablement besoin de la précision supplémentaire.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


