Hugging Face est la plateforme principale pour télécharger les poids des modèles Gemma 4. Que vous vouliez les poids FP16 originaux pour le fine-tuning ou les fichiers GGUF quantifiés pour l'inférence locale, tout se trouve sur HF. Ce guide parcourt chaque méthode de téléchargement et vous montre comment commencer à utiliser les modèles tout de suite.
Dépôts officiels
Google publie les poids originaux de Gemma 4 sur Hugging Face :
| Modèle | Dépôt Hugging Face | Taille | Format |
|---|---|---|---|
| Gemma 4 1B IT | google/gemma-4-1b-it | ~2 Go | SafeTensors |
| Gemma 4 4B IT | google/gemma-4-4b-it | ~8 Go | SafeTensors |
| Gemma 4 12B IT | google/gemma-4-12b-it | ~24 Go | SafeTensors |
| Gemma 4 27B IT | google/gemma-4-27b-it | ~54 Go | SafeTensors |
| Gemma 4 E2B IT | google/gemma-4-e2b-it | ~4 Go | SafeTensors |
| Gemma 4 E4B IT | google/gemma-4-e4b-it | ~8 Go | SafeTensors |
Les modèles de base (pré-entraînés, non instruits) sont également disponibles avec le suffixe -pt au lieu de -it.
Dépôts GGUF
Pour exécuter avec llama.cpp, Ollama ou LM Studio, récupérez les versions GGUF depuis Unsloth :
| Modèle | Dépôt Hugging Face | Quantifications disponibles |
|---|---|---|
| Gemma 4 1B | unsloth/gemma-4-1b-it-GGUF | Q4_K_M, Q5_K_M, Q8_0, IQ4_XS |
| Gemma 4 4B | unsloth/gemma-4-4b-it-GGUF | Q4_K_M, Q5_K_M, Q8_0, IQ4_XS |
| Gemma 4 12B | unsloth/gemma-4-12b-it-GGUF | Q4_K_M, Q5_K_M, Q6_K, Q8_0, IQ4_XS |
| Gemma 4 27B | unsloth/gemma-4-27b-it-GGUF | Q4_K_M, Q5_K_M, Q6_K, Q8_0, IQ4_XS |
Méthodes de téléchargement
Méthode 1 : huggingface-cli (recommandé)
Le CLI Hugging Face est la façon la plus fiable de télécharger de gros fichiers de modèle :
# Installer le CLI
pip install huggingface_hub
# Se connecter (requis pour les modèles protégés)
huggingface-cli login
# Télécharger un fichier GGUF spécifique
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
gemma-4-12b-it-Q4_K_M.gguf \
--local-dir ./models
# Télécharger le modèle officiel complet
huggingface-cli download google/gemma-4-12b-it \
--local-dir ./models/gemma-4-12b-it
# Reprendre automatiquement les téléchargements interrompus
# Exécutez simplement la même commande — elle reprend là où elle s'était arrêtéeMéthode 2 : Git LFS
Pour télécharger des dépôts entiers incluant tous les fichiers :
# Installer git-lfs
# macOS
brew install git-lfs
# Ubuntu
sudo apt install git-lfs
# Initialiser git-lfs
git lfs install
# Cloner le dépôt du modèle
git clone https://huggingface.co/google/gemma-4-12b-it
# Pour GGUF — cloner uniquement le fichier dont vous avez besoin
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/unsloth/gemma-4-12b-it-GGUF
cd gemma-4-12b-it-GGUF
git lfs pull --include="gemma-4-12b-it-Q4_K_M.gguf"L'astuce GIT_LFS_SKIP_SMUDGE=1 clone les métadonnées du dépôt sans télécharger les gros fichiers, puis vous récupérez sélectivement uniquement la quantification que vous voulez. Cela économise de la bande passante quand un dépôt contient plusieurs gros fichiers.
Méthode 3 : API Python
Téléchargez de manière programmatique dans vos scripts :
from huggingface_hub import hf_hub_download, snapshot_download
# Télécharger un fichier unique
path = hf_hub_download(
repo_id="unsloth/gemma-4-12b-it-GGUF",
filename="gemma-4-12b-it-Q4_K_M.gguf",
local_dir="./models"
)
print(f"Téléchargé vers : {path}")
# Télécharger le modèle entier
snapshot_download(
repo_id="google/gemma-4-12b-it",
local_dir="./models/gemma-4-12b-it"
)Utiliser avec la bibliothèque Transformers
Une fois que vous avez téléchargé les poids officiels, chargez-les directement avec la bibliothèque transformers :
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
# Charger le modèle et le tokenizer
model_id = "google/gemma-4-12b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto" # Distribuer automatiquement sur les GPU disponibles
)
# Générer du texte
messages = [
{"role": "user", "content": "Explique l'informatique quantique en termes simples."}
]
input_ids = tokenizer.apply_chat_template(
messages,
return_tensors="pt",
add_generation_prompt=True
).to(model.device)
outputs = model.generate(
input_ids,
max_new_tokens=512,
temperature=0.7,
do_sample=True
)
response = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
print(response)Avec quantification 4 bits (BitsAndBytes)
Exécutez le modèle complet sur moins de VRAM en utilisant la quantification à la volée :
from transformers import AutoModelForCausalLM, BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_quant_type="nf4"
)
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-4-12b-it",
quantization_config=quantization_config,
device_map="auto"
)
# Tourne maintenant sur ~8 Go de VRAM au lieu de ~26 GoUtiliser avec Text Generation Inference (TGI)
Pour le service en production, le TGI de Hugging Face fournit une inférence optimisée :
# Exécuter avec Docker
docker run --gpus all \
-p 8080:80 \
-v ./models:/data \
ghcr.io/huggingface/text-generation-inference:latest \
--model-id google/gemma-4-12b-it \
--max-input-tokens 4096 \
--max-total-tokens 8192 \
--dtype bfloat16
# Interroger l'API
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "google/gemma-4-12b-it",
"messages": [{"role": "user", "content": "Bonjour !"}],
"max_tokens": 256
}'Miroir HF pour les utilisateurs chinois
Si vous êtes en Chine et que Hugging Face est lent ou bloqué, utilisez le miroir officiel :
# Définir le endpoint du miroir
export HF_ENDPOINT=https://hf-mirror.com
# Maintenant toutes les commandes huggingface-cli utilisent le miroir
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
gemma-4-12b-it-Q4_K_M.gguf \
--local-dir ./models
# Ou en Python
import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
from huggingface_hub import hf_hub_download
path = hf_hub_download(
repo_id="unsloth/gemma-4-12b-it-GGUF",
filename="gemma-4-12b-it-Q4_K_M.gguf"
)Le miroir se synchronise avec le hub HF principal, donc tous les modèles et fichiers sont disponibles.
Conseils de téléchargement
| Conseil | Détails |
|---|---|
Utilisez huggingface-cli plutôt que git clone | Meilleur support de reprise, barres de progression et gestion d'erreurs |
| Téléchargez des fichiers spécifiques quand c'est possible | Ne clonez pas des dépôts entiers avec plus de 10 fichiers de quantification |
| Vérifiez l'espace disque d'abord | Le modèle 27B FP16 nécessite plus de 54 Go d'espace libre |
Utilisez --cache-dir pour un emplacement de cache personnalisé | Par défaut ~/.cache/huggingface/ qui peut être sur un petit disque |
| Vérifiez l'intégrité des fichiers | huggingface-cli vérifie automatiquement le SHA256 |
Prochaines étapes
- Pas sûr de quelle GGUF choisir ? Lisez notre Guide de quantification GGUF pour des comparaisons détaillées des formats
- Envie de toutes les options de téléchargement en un seul endroit ? Consultez le Guide de téléchargement complet couvrant Ollama, LM Studio et les téléchargements directs
- Prêt à exécuter le modèle ? Suivez notre tutoriel Ollama pour la configuration la plus rapide
Hugging Face rend la distribution de modèles indolore. Que vous récupériez un GGUF rapide pour Ollama ou les poids complets pour un projet de recherche, le processus de téléchargement est simple et reprise.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


