Cara Mengunduh Gemma 4 dari Hugging Face (Weights & GGUF)

Hugging Face adalah hub utama untuk mengunduh bobot model Gemma 4. Entah kamu ingin bobot FP16 asli untuk fine-tuning atau file kuantisasi GGUF untuk inferensi lokal, semuanya ada di HF. Panduan ini membahas setiap metode unduh dan menunjukkan cara mulai menggunakan model langsung.

Repositori Resmi

Google mempublikasikan bobot asli Gemma 4 di Hugging Face:

Model	Repo Hugging Face	Ukuran	Format
Gemma 4 1B IT	google/gemma-4-1b-it	~2 GB	SafeTensors
Gemma 4 4B IT	google/gemma-4-4b-it	~8 GB	SafeTensors
Gemma 4 12B IT	google/gemma-4-12b-it	~24 GB	SafeTensors
Gemma 4 27B IT	google/gemma-4-27b-it	~54 GB	SafeTensors
Gemma 4 E2B IT	google/gemma-4-e2b-it	~4 GB	SafeTensors
Gemma 4 E4B IT	google/gemma-4-e4b-it	~8 GB	SafeTensors

Model dasar (pre-trained, non-instruction-tuned) juga tersedia dengan sufiks -pt alih-alih -it.

Repositori GGUF

Untuk dijalankan dengan llama.cpp, Ollama, atau LM Studio, ambil versi GGUF dari Unsloth:

Model	Repo Hugging Face	Kuantisasi Tersedia
Gemma 4 1B	unsloth/gemma-4-1b-it-GGUF	Q4_K_M, Q5_K_M, Q8_0, IQ4_XS
Gemma 4 4B	unsloth/gemma-4-4b-it-GGUF	Q4_K_M, Q5_K_M, Q8_0, IQ4_XS
Gemma 4 12B	unsloth/gemma-4-12b-it-GGUF	Q4_K_M, Q5_K_M, Q6_K, Q8_0, IQ4_XS
Gemma 4 27B	unsloth/gemma-4-27b-it-GGUF	Q4_K_M, Q5_K_M, Q6_K, Q8_0, IQ4_XS

Metode Unduh

Metode 1: huggingface-cli (Direkomendasikan)

Hugging Face CLI adalah cara paling andal untuk mengunduh file model besar:

# Instal CLI
pip install huggingface_hub

# Login (diperlukan untuk model yang di-gate)
huggingface-cli login

# Unduh file GGUF spesifik
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# Unduh model resmi penuh
huggingface-cli download google/gemma-4-12b-it \
  --local-dir ./models/gemma-4-12b-it

# Resume unduhan yang terputus secara otomatis
# Cukup jalankan perintah yang sama lagi — akan melanjutkan dari tempat ia berhenti

Metode 2: Git LFS

Untuk mengunduh seluruh repositori termasuk semua file:

# Instal git-lfs
# macOS
brew install git-lfs

# Ubuntu
sudo apt install git-lfs

# Inisialisasi git-lfs
git lfs install

# Clone repo model
git clone https://huggingface.co/google/gemma-4-12b-it

# Untuk GGUF — clone hanya file yang kamu butuhkan
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/unsloth/gemma-4-12b-it-GGUF
cd gemma-4-12b-it-GGUF
git lfs pull --include="gemma-4-12b-it-Q4_K_M.gguf"

Trik GIT_LFS_SKIP_SMUDGE=1 meng-clone metadata repo tanpa mengunduh file besar, lalu kamu secara selektif pull hanya kuantisasi yang kamu inginkan. Ini menghemat bandwidth saat repo punya banyak file besar.

Metode 3: Python API

Unduh secara programatik di skripmu:

from huggingface_hub import hf_hub_download, snapshot_download

# Unduh satu file
path = hf_hub_download(
    repo_id="unsloth/gemma-4-12b-it-GGUF",
    filename="gemma-4-12b-it-Q4_K_M.gguf",
    local_dir="./models"
)
print(f"Downloaded to: {path}")

# Unduh seluruh model
snapshot_download(
    repo_id="google/gemma-4-12b-it",
    local_dir="./models/gemma-4-12b-it"
)

Menggunakan dengan Library Transformers

Setelah kamu mengunduh bobot resmi, muat langsung dengan library transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load model dan tokenizer
model_id = "google/gemma-4-12b-it"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"  # Otomatis distribusikan ke GPU yang tersedia
)

# Generate teks
messages = [
    {"role": "user", "content": "Jelaskan quantum computing dengan istilah sederhana."}
]

input_ids = tokenizer.apply_chat_template(
    messages,
    return_tensors="pt",
    add_generation_prompt=True
).to(model.device)

outputs = model.generate(
    input_ids,
    max_new_tokens=512,
    temperature=0.7,
    do_sample=True
)

response = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
print(response)

Dengan Kuantisasi 4-bit (BitsAndBytes)

Jalankan model penuh di VRAM lebih kecil menggunakan kuantisasi on-the-fly:

from transformers import AutoModelForCausalLM, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_quant_type="nf4"
)

model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-4-12b-it",
    quantization_config=quantization_config,
    device_map="auto"
)
# Sekarang berjalan di ~8GB VRAM alih-alih ~26GB

Menggunakan dengan Text Generation Inference (TGI)

Untuk serving produksi, TGI Hugging Face menyediakan inferensi teroptimasi:

# Jalankan dengan Docker
docker run --gpus all \
  -p 8080:80 \
  -v ./models:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id google/gemma-4-12b-it \
  --max-input-tokens 4096 \
  --max-total-tokens 8192 \
  --dtype bfloat16

# Query API
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemma-4-12b-it",
    "messages": [{"role": "user", "content": "Halo!"}],
    "max_tokens": 256
  }'

Mirror HF untuk Pengguna China

Jika kamu di China dan Hugging Face lambat atau diblokir, gunakan mirror resmi:

# Set endpoint mirror
export HF_ENDPOINT=https://hf-mirror.com

# Sekarang semua perintah huggingface-cli menggunakan mirror
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# Atau di Python
import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"

from huggingface_hub import hf_hub_download
path = hf_hub_download(
    repo_id="unsloth/gemma-4-12b-it-GGUF",
    filename="gemma-4-12b-it-Q4_K_M.gguf"
)

Mirror sinkron dengan hub HF utama, jadi semua model dan file tersedia.

Tips Unduh

Tips	Detail
Gunakan `huggingface-cli` daripada `git clone`	Dukungan resume lebih baik, progress bar, dan penanganan error
Unduh file spesifik saat memungkinkan	Jangan clone seluruh repo dengan 10+ file kuantisasi
Cek ruang disk dulu	Model 27B FP16 butuh 54GB+ ruang kosong
Gunakan `--cache-dir` untuk lokasi cache kustom	Default ke `~/.cache/huggingface/` yang mungkin di drive kecil
Verifikasi integritas file	`huggingface-cli` cek SHA256 otomatis

Langkah Selanjutnya

Tidak yakin GGUF mana yang dipilih? Baca Panduan Kuantisasi GGUF kami untuk perbandingan format detail
Ingin semua opsi unduh di satu tempat? Cek Panduan Unduh Lengkap yang mencakup Ollama, LM Studio, dan unduhan langsung
Siap menjalankan model? Ikuti tutorial Ollama kami untuk setup tercepat

Hugging Face membuat distribusi model tanpa rasa sakit. Entah kamu mengambil GGUF cepat untuk Ollama atau bobot penuh untuk proyek riset, proses unduhnya langsung dan bisa dilanjutkan.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />