0% read

Comment télécharger Gemma 4 depuis Hugging Face (poids et GGUF)

avr. 7, 2026

Hugging Face est la plateforme principale pour télécharger les poids des modèles Gemma 4. Que vous vouliez les poids FP16 originaux pour le fine-tuning ou les fichiers GGUF quantifiés pour l'inférence locale, tout se trouve sur HF. Ce guide parcourt chaque méthode de téléchargement et vous montre comment commencer à utiliser les modèles tout de suite.

Dépôts officiels

Google publie les poids originaux de Gemma 4 sur Hugging Face :

ModèleDépôt Hugging FaceTailleFormat
Gemma 4 1B ITgoogle/gemma-4-1b-it~2 GoSafeTensors
Gemma 4 4B ITgoogle/gemma-4-4b-it~8 GoSafeTensors
Gemma 4 12B ITgoogle/gemma-4-12b-it~24 GoSafeTensors
Gemma 4 27B ITgoogle/gemma-4-27b-it~54 GoSafeTensors
Gemma 4 E2B ITgoogle/gemma-4-e2b-it~4 GoSafeTensors
Gemma 4 E4B ITgoogle/gemma-4-e4b-it~8 GoSafeTensors

Les modèles de base (pré-entraînés, non instruits) sont également disponibles avec le suffixe -pt au lieu de -it.

Dépôts GGUF

Pour exécuter avec llama.cpp, Ollama ou LM Studio, récupérez les versions GGUF depuis Unsloth :

ModèleDépôt Hugging FaceQuantifications disponibles
Gemma 4 1Bunsloth/gemma-4-1b-it-GGUFQ4_K_M, Q5_K_M, Q8_0, IQ4_XS
Gemma 4 4Bunsloth/gemma-4-4b-it-GGUFQ4_K_M, Q5_K_M, Q8_0, IQ4_XS
Gemma 4 12Bunsloth/gemma-4-12b-it-GGUFQ4_K_M, Q5_K_M, Q6_K, Q8_0, IQ4_XS
Gemma 4 27Bunsloth/gemma-4-27b-it-GGUFQ4_K_M, Q5_K_M, Q6_K, Q8_0, IQ4_XS

Méthodes de téléchargement

Méthode 1 : huggingface-cli (recommandé)

Le CLI Hugging Face est la façon la plus fiable de télécharger de gros fichiers de modèle :

# Installer le CLI
pip install huggingface_hub

# Se connecter (requis pour les modèles protégés)
huggingface-cli login

# Télécharger un fichier GGUF spécifique
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# Télécharger le modèle officiel complet
huggingface-cli download google/gemma-4-12b-it \
  --local-dir ./models/gemma-4-12b-it

# Reprendre automatiquement les téléchargements interrompus
# Exécutez simplement la même commande — elle reprend là où elle s'était arrêtée

Méthode 2 : Git LFS

Pour télécharger des dépôts entiers incluant tous les fichiers :

# Installer git-lfs
# macOS
brew install git-lfs

# Ubuntu
sudo apt install git-lfs

# Initialiser git-lfs
git lfs install

# Cloner le dépôt du modèle
git clone https://huggingface.co/google/gemma-4-12b-it

# Pour GGUF — cloner uniquement le fichier dont vous avez besoin
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/unsloth/gemma-4-12b-it-GGUF
cd gemma-4-12b-it-GGUF
git lfs pull --include="gemma-4-12b-it-Q4_K_M.gguf"

L'astuce GIT_LFS_SKIP_SMUDGE=1 clone les métadonnées du dépôt sans télécharger les gros fichiers, puis vous récupérez sélectivement uniquement la quantification que vous voulez. Cela économise de la bande passante quand un dépôt contient plusieurs gros fichiers.

Méthode 3 : API Python

Téléchargez de manière programmatique dans vos scripts :

from huggingface_hub import hf_hub_download, snapshot_download

# Télécharger un fichier unique
path = hf_hub_download(
    repo_id="unsloth/gemma-4-12b-it-GGUF",
    filename="gemma-4-12b-it-Q4_K_M.gguf",
    local_dir="./models"
)
print(f"Téléchargé vers : {path}")

# Télécharger le modèle entier
snapshot_download(
    repo_id="google/gemma-4-12b-it",
    local_dir="./models/gemma-4-12b-it"
)

Utiliser avec la bibliothèque Transformers

Une fois que vous avez téléchargé les poids officiels, chargez-les directement avec la bibliothèque transformers :

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Charger le modèle et le tokenizer
model_id = "google/gemma-4-12b-it"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"  # Distribuer automatiquement sur les GPU disponibles
)

# Générer du texte
messages = [
    {"role": "user", "content": "Explique l'informatique quantique en termes simples."}
]

input_ids = tokenizer.apply_chat_template(
    messages,
    return_tensors="pt",
    add_generation_prompt=True
).to(model.device)

outputs = model.generate(
    input_ids,
    max_new_tokens=512,
    temperature=0.7,
    do_sample=True
)

response = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
print(response)

Avec quantification 4 bits (BitsAndBytes)

Exécutez le modèle complet sur moins de VRAM en utilisant la quantification à la volée :

from transformers import AutoModelForCausalLM, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_quant_type="nf4"
)

model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-4-12b-it",
    quantization_config=quantization_config,
    device_map="auto"
)
# Tourne maintenant sur ~8 Go de VRAM au lieu de ~26 Go

Utiliser avec Text Generation Inference (TGI)

Pour le service en production, le TGI de Hugging Face fournit une inférence optimisée :

# Exécuter avec Docker
docker run --gpus all \
  -p 8080:80 \
  -v ./models:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id google/gemma-4-12b-it \
  --max-input-tokens 4096 \
  --max-total-tokens 8192 \
  --dtype bfloat16

# Interroger l'API
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemma-4-12b-it",
    "messages": [{"role": "user", "content": "Bonjour !"}],
    "max_tokens": 256
  }'

Miroir HF pour les utilisateurs chinois

Si vous êtes en Chine et que Hugging Face est lent ou bloqué, utilisez le miroir officiel :

# Définir le endpoint du miroir
export HF_ENDPOINT=https://hf-mirror.com

# Maintenant toutes les commandes huggingface-cli utilisent le miroir
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# Ou en Python
import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"

from huggingface_hub import hf_hub_download
path = hf_hub_download(
    repo_id="unsloth/gemma-4-12b-it-GGUF",
    filename="gemma-4-12b-it-Q4_K_M.gguf"
)

Le miroir se synchronise avec le hub HF principal, donc tous les modèles et fichiers sont disponibles.

Conseils de téléchargement

ConseilDétails
Utilisez huggingface-cli plutôt que git cloneMeilleur support de reprise, barres de progression et gestion d'erreurs
Téléchargez des fichiers spécifiques quand c'est possibleNe clonez pas des dépôts entiers avec plus de 10 fichiers de quantification
Vérifiez l'espace disque d'abordLe modèle 27B FP16 nécessite plus de 54 Go d'espace libre
Utilisez --cache-dir pour un emplacement de cache personnaliséPar défaut ~/.cache/huggingface/ qui peut être sur un petit disque
Vérifiez l'intégrité des fichiershuggingface-cli vérifie automatiquement le SHA256

Prochaines étapes

  • Pas sûr de quelle GGUF choisir ? Lisez notre Guide de quantification GGUF pour des comparaisons détaillées des formats
  • Envie de toutes les options de téléchargement en un seul endroit ? Consultez le Guide de téléchargement complet couvrant Ollama, LM Studio et les téléchargements directs
  • Prêt à exécuter le modèle ? Suivez notre tutoriel Ollama pour la configuration la plus rapide

Hugging Face rend la distribution de modèles indolore. Que vous récupériez un GGUF rapide pour Ollama ou les poids complets pour un projet de recherche, le processus de téléchargement est simple et reprise.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Comment télécharger Gemma 4 depuis Hugging Face (poids et GGUF) | Blog