Comment télécharger Gemma 4 depuis Hugging Face (poids et GGUF)

Hugging Face est la plateforme principale pour télécharger les poids des modèles Gemma 4. Que vous vouliez les poids FP16 originaux pour le fine-tuning ou les fichiers GGUF quantifiés pour l'inférence locale, tout se trouve sur HF. Ce guide parcourt chaque méthode de téléchargement et vous montre comment commencer à utiliser les modèles tout de suite.

Dépôts officiels

Google publie les poids originaux de Gemma 4 sur Hugging Face :

Modèle	Dépôt Hugging Face	Taille	Format
Gemma 4 1B IT	google/gemma-4-1b-it	~2 Go	SafeTensors
Gemma 4 4B IT	google/gemma-4-4b-it	~8 Go	SafeTensors
Gemma 4 12B IT	google/gemma-4-12b-it	~24 Go	SafeTensors
Gemma 4 27B IT	google/gemma-4-27b-it	~54 Go	SafeTensors
Gemma 4 E2B IT	google/gemma-4-e2b-it	~4 Go	SafeTensors
Gemma 4 E4B IT	google/gemma-4-e4b-it	~8 Go	SafeTensors

Les modèles de base (pré-entraînés, non instruits) sont également disponibles avec le suffixe -pt au lieu de -it.

Dépôts GGUF

Pour exécuter avec llama.cpp, Ollama ou LM Studio, récupérez les versions GGUF depuis Unsloth :

Modèle	Dépôt Hugging Face	Quantifications disponibles
Gemma 4 1B	unsloth/gemma-4-1b-it-GGUF	Q4_K_M, Q5_K_M, Q8_0, IQ4_XS
Gemma 4 4B	unsloth/gemma-4-4b-it-GGUF	Q4_K_M, Q5_K_M, Q8_0, IQ4_XS
Gemma 4 12B	unsloth/gemma-4-12b-it-GGUF	Q4_K_M, Q5_K_M, Q6_K, Q8_0, IQ4_XS
Gemma 4 27B	unsloth/gemma-4-27b-it-GGUF	Q4_K_M, Q5_K_M, Q6_K, Q8_0, IQ4_XS

Méthodes de téléchargement

Méthode 1 : huggingface-cli (recommandé)

Le CLI Hugging Face est la façon la plus fiable de télécharger de gros fichiers de modèle :

# Installer le CLI
pip install huggingface_hub

# Se connecter (requis pour les modèles protégés)
huggingface-cli login

# Télécharger un fichier GGUF spécifique
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# Télécharger le modèle officiel complet
huggingface-cli download google/gemma-4-12b-it \
  --local-dir ./models/gemma-4-12b-it

# Reprendre automatiquement les téléchargements interrompus
# Exécutez simplement la même commande — elle reprend là où elle s'était arrêtée

Méthode 2 : Git LFS

Pour télécharger des dépôts entiers incluant tous les fichiers :

# Installer git-lfs
# macOS
brew install git-lfs

# Ubuntu
sudo apt install git-lfs

# Initialiser git-lfs
git lfs install

# Cloner le dépôt du modèle
git clone https://huggingface.co/google/gemma-4-12b-it

# Pour GGUF — cloner uniquement le fichier dont vous avez besoin
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/unsloth/gemma-4-12b-it-GGUF
cd gemma-4-12b-it-GGUF
git lfs pull --include="gemma-4-12b-it-Q4_K_M.gguf"

L'astuce GIT_LFS_SKIP_SMUDGE=1 clone les métadonnées du dépôt sans télécharger les gros fichiers, puis vous récupérez sélectivement uniquement la quantification que vous voulez. Cela économise de la bande passante quand un dépôt contient plusieurs gros fichiers.

Méthode 3 : API Python

Téléchargez de manière programmatique dans vos scripts :

from huggingface_hub import hf_hub_download, snapshot_download

# Télécharger un fichier unique
path = hf_hub_download(
    repo_id="unsloth/gemma-4-12b-it-GGUF",
    filename="gemma-4-12b-it-Q4_K_M.gguf",
    local_dir="./models"
)
print(f"Téléchargé vers : {path}")

# Télécharger le modèle entier
snapshot_download(
    repo_id="google/gemma-4-12b-it",
    local_dir="./models/gemma-4-12b-it"
)

Utiliser avec la bibliothèque Transformers

Une fois que vous avez téléchargé les poids officiels, chargez-les directement avec la bibliothèque transformers :

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Charger le modèle et le tokenizer
model_id = "google/gemma-4-12b-it"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"  # Distribuer automatiquement sur les GPU disponibles
)

# Générer du texte
messages = [
    {"role": "user", "content": "Explique l'informatique quantique en termes simples."}
]

input_ids = tokenizer.apply_chat_template(
    messages,
    return_tensors="pt",
    add_generation_prompt=True
).to(model.device)

outputs = model.generate(
    input_ids,
    max_new_tokens=512,
    temperature=0.7,
    do_sample=True
)

response = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
print(response)

Avec quantification 4 bits (BitsAndBytes)

Exécutez le modèle complet sur moins de VRAM en utilisant la quantification à la volée :

from transformers import AutoModelForCausalLM, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_quant_type="nf4"
)

model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-4-12b-it",
    quantization_config=quantization_config,
    device_map="auto"
)
# Tourne maintenant sur ~8 Go de VRAM au lieu de ~26 Go

Utiliser avec Text Generation Inference (TGI)

Pour le service en production, le TGI de Hugging Face fournit une inférence optimisée :

# Exécuter avec Docker
docker run --gpus all \
  -p 8080:80 \
  -v ./models:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id google/gemma-4-12b-it \
  --max-input-tokens 4096 \
  --max-total-tokens 8192 \
  --dtype bfloat16

# Interroger l'API
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemma-4-12b-it",
    "messages": [{"role": "user", "content": "Bonjour !"}],
    "max_tokens": 256
  }'

Miroir HF pour les utilisateurs chinois

Si vous êtes en Chine et que Hugging Face est lent ou bloqué, utilisez le miroir officiel :

# Définir le endpoint du miroir
export HF_ENDPOINT=https://hf-mirror.com

# Maintenant toutes les commandes huggingface-cli utilisent le miroir
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# Ou en Python
import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"

from huggingface_hub import hf_hub_download
path = hf_hub_download(
    repo_id="unsloth/gemma-4-12b-it-GGUF",
    filename="gemma-4-12b-it-Q4_K_M.gguf"
)

Le miroir se synchronise avec le hub HF principal, donc tous les modèles et fichiers sont disponibles.

Conseils de téléchargement

Conseil	Détails
Utilisez `huggingface-cli` plutôt que `git clone`	Meilleur support de reprise, barres de progression et gestion d'erreurs
Téléchargez des fichiers spécifiques quand c'est possible	Ne clonez pas des dépôts entiers avec plus de 10 fichiers de quantification
Vérifiez l'espace disque d'abord	Le modèle 27B FP16 nécessite plus de 54 Go d'espace libre
Utilisez `--cache-dir` pour un emplacement de cache personnalisé	Par défaut `~/.cache/huggingface/` qui peut être sur un petit disque
Vérifiez l'intégrité des fichiers	`huggingface-cli` vérifie automatiquement le SHA256

Prochaines étapes

Pas sûr de quelle GGUF choisir ? Lisez notre Guide de quantification GGUF pour des comparaisons détaillées des formats
Envie de toutes les options de téléchargement en un seul endroit ? Consultez le Guide de téléchargement complet couvrant Ollama, LM Studio et les téléchargements directs
Prêt à exécuter le modèle ? Suivez notre tutoriel Ollama pour la configuration la plus rapide

Hugging Face rend la distribution de modèles indolore. Que vous récupériez un GGUF rapide pour Ollama ou les poids complets pour un projet de recherche, le processus de téléchargement est simple et reprise.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />