Como Descargar Gemma 4 desde Hugging Face (Pesos y GGUF)

Hugging Face es el hub principal para descargar los pesos del modelo Gemma 4. Ya sea que quieras los pesos originales FP16 para fine-tuning o archivos cuantizados GGUF para inferencia local, todo vive en HF. Esta guia recorre cada metodo de descarga y te muestra como comenzar a usar los modelos de inmediato.

Repositorios Oficiales

Google publica los pesos originales de Gemma 4 en Hugging Face:

Modelo	Hugging Face Repo	Tamano	Formato
Gemma 4 1B IT	google/gemma-4-1b-it	~2 GB	SafeTensors
Gemma 4 4B IT	google/gemma-4-4b-it	~8 GB	SafeTensors
Gemma 4 12B IT	google/gemma-4-12b-it	~24 GB	SafeTensors
Gemma 4 27B IT	google/gemma-4-27b-it	~54 GB	SafeTensors
Gemma 4 E2B IT	google/gemma-4-e2b-it	~4 GB	SafeTensors
Gemma 4 E4B IT	google/gemma-4-e4b-it	~8 GB	SafeTensors

Los modelos base (pre-entrenados, no ajustados a instrucciones) tambien estan disponibles con el sufijo -pt en lugar de -it.

Repositorios GGUF

Para ejecutar con llama.cpp, Ollama o LM Studio, toma las versiones GGUF de Unsloth:

Modelo	Hugging Face Repo	Cuantizaciones Disponibles
Gemma 4 1B	unsloth/gemma-4-1b-it-GGUF	Q4_K_M, Q5_K_M, Q8_0, IQ4_XS
Gemma 4 4B	unsloth/gemma-4-4b-it-GGUF	Q4_K_M, Q5_K_M, Q8_0, IQ4_XS
Gemma 4 12B	unsloth/gemma-4-12b-it-GGUF	Q4_K_M, Q5_K_M, Q6_K, Q8_0, IQ4_XS
Gemma 4 27B	unsloth/gemma-4-27b-it-GGUF	Q4_K_M, Q5_K_M, Q6_K, Q8_0, IQ4_XS

Metodos de Descarga

Metodo 1: huggingface-cli (Recomendado)

El CLI de Hugging Face es la forma mas confiable de descargar grandes archivos de modelo:

# Instalar el CLI
pip install huggingface_hub

# Login (requerido para modelos con acceso restringido)
huggingface-cli login

# Descargar un archivo GGUF especifico
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# Descargar el modelo oficial completo
huggingface-cli download google/gemma-4-12b-it \
  --local-dir ./models/gemma-4-12b-it

# Reanudar descargas interrumpidas automaticamente
# Solo ejecuta el mismo comando de nuevo — retoma donde se quedo

Metodo 2: Git LFS

Para descargar repositorios completos incluyendo todos los archivos:

# Instalar git-lfs
# macOS
brew install git-lfs

# Ubuntu
sudo apt install git-lfs

# Inicializar git-lfs
git lfs install

# Clonar el repo del modelo
git clone https://huggingface.co/google/gemma-4-12b-it

# Para GGUF — clonar solo el archivo que necesitas
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/unsloth/gemma-4-12b-it-GGUF
cd gemma-4-12b-it-GGUF
git lfs pull --include="gemma-4-12b-it-Q4_K_M.gguf"

El truco GIT_LFS_SKIP_SMUDGE=1 clona los metadatos del repo sin descargar los archivos grandes, luego extraes selectivamente solo la cuantizacion que quieres. Esto ahorra ancho de banda cuando un repo tiene multiples archivos grandes.

Metodo 3: API de Python

Descarga programaticamente en tus scripts:

from huggingface_hub import hf_hub_download, snapshot_download

# Download a single file
path = hf_hub_download(
    repo_id="unsloth/gemma-4-12b-it-GGUF",
    filename="gemma-4-12b-it-Q4_K_M.gguf",
    local_dir="./models"
)
print(f"Downloaded to: {path}")

# Download entire model
snapshot_download(
    repo_id="google/gemma-4-12b-it",
    local_dir="./models/gemma-4-12b-it"
)

Usando con la Biblioteca Transformers

Una vez que has descargado los pesos oficiales, cargalos directamente con la biblioteca transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load model and tokenizer
model_id = "google/gemma-4-12b-it"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"  # Automatically distribute across available GPUs
)

# Generate text
messages = [
    {"role": "user", "content": "Explain quantum computing in simple terms."}
]

input_ids = tokenizer.apply_chat_template(
    messages,
    return_tensors="pt",
    add_generation_prompt=True
).to(model.device)

outputs = model.generate(
    input_ids,
    max_new_tokens=512,
    temperature=0.7,
    do_sample=True
)

response = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
print(response)

Con Cuantizacion de 4 bits (BitsAndBytes)

Ejecuta el modelo completo en menos VRAM usando cuantizacion sobre la marcha:

from transformers import AutoModelForCausalLM, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_quant_type="nf4"
)

model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-4-12b-it",
    quantization_config=quantization_config,
    device_map="auto"
)
# Now runs on ~8GB VRAM instead of ~26GB

Usando con Text Generation Inference (TGI)

Para servicio en produccion, TGI de Hugging Face proporciona inferencia optimizada:

# Run with Docker
docker run --gpus all \
  -p 8080:80 \
  -v ./models:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id google/gemma-4-12b-it \
  --max-input-tokens 4096 \
  --max-total-tokens 8192 \
  --dtype bfloat16

# Query the API
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemma-4-12b-it",
    "messages": [{"role": "user", "content": "Hello!"}],
    "max_tokens": 256
  }'

Mirror HF para Usuarios en China

Si estas en China y Hugging Face es lento o esta bloqueado, usa el mirror oficial:

# Set the mirror endpoint
export HF_ENDPOINT=https://hf-mirror.com

# Now all huggingface-cli commands use the mirror
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# Or in Python
import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"

from huggingface_hub import hf_hub_download
path = hf_hub_download(
    repo_id="unsloth/gemma-4-12b-it-GGUF",
    filename="gemma-4-12b-it-Q4_K_M.gguf"
)

El mirror se sincroniza con el hub principal de HF, por lo que todos los modelos y archivos estan disponibles.

Consejos de Descarga

Consejo	Detalles
Usa `huggingface-cli` sobre `git clone`	Mejor soporte de reanudacion, barras de progreso y manejo de errores
Descarga archivos especificos cuando sea posible	No clones repos enteros con mas de 10 archivos de cuantizacion
Verifica el espacio en disco primero	El modelo FP16 27B necesita mas de 54GB de espacio libre
Usa `--cache-dir` para ubicacion de cache personalizada	Por defecto es `~/.cache/huggingface/` que puede estar en una unidad pequena
Verifica la integridad del archivo	`huggingface-cli` verifica SHA256 automaticamente

Siguientes Pasos

¿No estas seguro que GGUF elegir? Lee nuestra Guia de Cuantizacion GGUF para comparaciones detalladas de formato
¿Quieres todas las opciones de descarga en un solo lugar? Consulta la Guia de Descarga Completa que cubre Ollama, LM Studio y descargas directas
¿Listo para ejecutar el modelo? Sigue nuestro tutorial de Ollama para la configuracion mas rapida

Hugging Face hace que la distribucion de modelos sea indolora. Ya sea que estes obteniendo un GGUF rapido para Ollama o los pesos completos para un proyecto de investigacion, el proceso de descarga es directo y reanudable.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />