0% read

Gemma 4 GGUF : Quelle quantification choisir ?

avr. 7, 2026

La quantification GGUF est la façon de réduire Gemma 4 d'un colosse de 24 Go à quelque chose qui tient réellement sur votre matériel. Mais avec une douzaine de niveaux de quantification différents à choisir, choisir le bon est déroutant. Ce guide coupe à travers le bruit et vous dit exactement quel format utiliser.

Qu'est-ce que GGUF ?

GGUF (GGML Universal Format) est un format de fichier conçu spécifiquement pour exécuter de grands modèles de langage sur du matériel grand public. Il stocke les poids du modèle dans des formats compressés qui échangent une petite quantité de qualité contre des tailles de fichier dramatiquement plus petites et une inférence plus rapide.

Le concept clé est la quantification — réduire la précision des poids du modèle de flottants 16 bits (FP16) à 8 bits, 4 bits, voire moins. Précision plus basse = fichier plus petit = inférence plus rapide = légèrement moins précis.

Niveaux de quantification comparés

Voici la comparaison complète pour Gemma 4 12B :

QuantificationTaille fichierVRAM nécessaireVitesse (tok/s)*Perte qualitéIdéal pour
FP16~24 Go~26 GoRéférenceAucuneRecherche, fine-tuning
Q8_0~13 Go~15 Go1,2x plus rapideNégligeableTâches critiques en qualité
Q6_K~10 Go~12 Go1,4x plus rapideTrès faibleÉquilibre qualité-taille
Q5_K_M~8,5 Go~10 Go1,6x plus rapideFaibleUsage quotidien axé qualité
Q5_K_S~8 Go~10 Go1,6x plus rapideFaibleQ5 légèrement plus petit
Q4_K_M~7 Go~9 Go1,8x plus rapideModéréeMeilleur choix pour la plupart
Q4_K_S~6,5 Go~8,5 Go1,8x plus rapideModéréeBudget VRAM serré
IQ4_XS~6 Go~8 Go1,9x plus rapideNotableQualité viable minimale
Q3_K_M~5,5 Go~7,5 Go2,0x plus rapideSignificativeNon recommandé
Q2_K~4,5 Go~6,5 Go2,1x plus rapideSévèreExpérimentation seulement

Vitesse relative à FP16 sur le même matériel. Les tok/s réels varient selon le GPU.

Les recommandations

  • Q4_K_M — Meilleur équilibre pour la plupart des gens. La qualité est étonnamment proche du FP16 pour les tâches quotidiennes comme le code, la rédaction et les Q&R. C'est le défaut dans la plupart des modèles Ollama.
  • Q5_K_M — Choisissez-le si vous avez la VRAM supplémentaire et voulez une qualité notablement meilleure sur les tâches de raisonnement complexe.
  • Q8_0 — Qualité proche de l'original. À n'utiliser que si votre matériel peut le gérer — l'amélioration de qualité par rapport à Q5 est marginale pour la plupart des tâches.
  • IQ4_XS — Le format le plus petit encore utilisable. Parfait pour les tests ou quand il vous manque 1-2 Go de VRAM.

Évitez Q3 et Q2 — la baisse de qualité est trop forte pour être utile à quoi que ce soit de sérieux.

Où télécharger les fichiers GGUF

Unsloth sur Hugging Face (recommandé)

Unsloth fournit des conversions GGUF de haute qualité pour tous les modèles Gemma 4 :

# Parcourir les fichiers disponibles
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF

# Télécharger avec huggingface-cli
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# Ou télécharger avec wget
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf

Dépôts disponibles :

ModèleDépôt Hugging Face
Gemma 4 1Bunsloth/gemma-4-1b-it-GGUF
Gemma 4 4Bunsloth/gemma-4-4b-it-GGUF
Gemma 4 12Bunsloth/gemma-4-12b-it-GGUF
Gemma 4 27Bunsloth/gemma-4-27b-it-GGUF

Exécuter des fichiers GGUF

Avec llama.cpp

La façon la plus directe d'exécuter des fichiers GGUF :

# Cloner et compiler llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON  # ou DGGML_METAL=ON pour Mac
cmake --build build

# Exécuter l'inférence
./build/bin/llama-server \
  -m ./models/gemma-4-12b-it-Q4_K_M.gguf \
  -ngl 999 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

# Vous avez maintenant une API compatible OpenAI à http://localhost:8080

Avec Ollama

Ollama utilise GGUF en interne. Vous pouvez créer des modèles personnalisés à partir de fichiers GGUF :

# Méthode 1 : Utiliser les modèles Ollama préconstruits (le plus simple)
ollama run gemma4:12b

# Méthode 2 : Importer votre propre fichier GGUF
# Créer un Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF

# Créer le modèle
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4

Avec LM Studio

LM Studio fournit une interface graphique pour télécharger et exécuter des fichiers GGUF :

  1. Ouvrez LM Studio
  2. Cherchez « gemma 4 » dans le navigateur de modèles
  3. Sélectionnez le niveau de quantification que vous voulez
  4. Cliquez sur Télécharger
  5. Allez dans l'onglet Chat et sélectionnez votre modèle
  6. Commencez à discuter

LM Studio expose également une API locale compatible avec le format OpenAI, donc vous pouvez l'utiliser comme backend de remplacement pour les applications attendant un endpoint de style OpenAI.

Qualité vs vitesse : tests en conditions réelles

Voici comment les différentes quantifications performent sur des tâches réelles avec Gemma 4 12B :

TâcheQ4_K_MQ5_K_MQ8_0FP16
Génération de code92% de correspondance95% de correspondance98% de correspondance100% (référence)
Écriture créativeDifférences mineuresQuasi identiqueIdentiqueRéférence
Raisonnement mathématique~85% précision~90% précision~95% précision~96% précision
RésuméTrès procheTrès procheIdentiqueRéférence
TraductionLégère baisse de qualitéQuasi identiqueIdentiqueRéférence

Pour la plupart des utilisateurs, Q4_K_M est le point optimal. Vous perdez quelques points de pourcentage sur les maths difficiles et le raisonnement complexe, mais pour le code, la rédaction, le résumé et les Q&R générales, la différence est à peine notable.

Choisir selon le matériel

Votre matérielQuantification recommandéeTaille du modèle
GPU 8 Go VRAMQ4_K_M ou IQ4_XS12B
GPU 12 Go VRAMQ5_K_M ou Q6_K12B
GPU 16 Go VRAMQ8_012B
GPU 24 Go VRAMQ8_0 (12B) ou Q4_K_M (27B)12B ou 27B
Mac 16 GoQ4_K_M12B
Mac 32 GoQ5_K_M (12B) ou Q4_K_M (27B)12B ou 27B
Mac 64 Go+Q8_0 pour toute taille27B

Prochaines étapes

L'essentiel : commencez avec Q4_K_M. Si vous remarquez des problèmes de qualité sur vos tâches spécifiques, passez à Q5_K_M. N'allez plus haut que si vous avez la VRAM à perdre et avez véritablement besoin de la précision supplémentaire.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 GGUF : Quelle quantification choisir ? | Blog