Gemma 4 GGUF: Kuantisasi Mana yang Harus Saya Pilih?

Kuantisasi GGUF adalah cara kamu menyusutkan Gemma 4 dari raksasa 24GB menjadi sesuatu yang benar-benar muat di hardware-mu. Tapi dengan lusinan level kuantisasi berbeda untuk dipilih, memilih yang tepat itu membingungkan. Panduan ini menembus kebisingan dan memberitahu kamu format mana yang harus digunakan.

Apa Itu GGUF?

GGUF (GGML Universal Format) adalah format file yang dirancang khusus untuk menjalankan model bahasa besar di hardware konsumer. Ia menyimpan bobot model dalam format terkompresi yang mempertukarkan sedikit kualitas untuk ukuran file yang jauh lebih kecil dan inferensi lebih cepat.

Konsep kuncinya adalah kuantisasi — mengurangi presisi bobot model dari floating point 16-bit (FP16) ke 8-bit, 4-bit, atau bahkan lebih rendah. Presisi lebih rendah = file lebih kecil = inferensi lebih cepat = sedikit kurang akurat.

Perbandingan Level Kuantisasi

Berikut perbandingan lengkap untuk Gemma 4 12B:

Kuantisasi	Ukuran File	VRAM Dibutuhkan	Kecepatan (tok/dtk)*	Kehilangan Kualitas	Terbaik Untuk
FP16	~24 GB	~26 GB	Baseline	Tidak ada	Riset, fine-tuning
Q8_0	~13 GB	~15 GB	1.2x lebih cepat	Dapat diabaikan	Tugas kritis kualitas
Q6_K	~10 GB	~12 GB	1.4x lebih cepat	Sangat kecil	Keseimbangan kualitas dan ukuran
Q5_K_M	~8.5 GB	~10 GB	1.6x lebih cepat	Kecil	Driver harian kualitas lebih baik
Q5_K_S	~8 GB	~10 GB	1.6x lebih cepat	Kecil	Q5 sedikit lebih kecil
Q4_K_M	~7 GB	~9 GB	1.8x lebih cepat	Moderat	Pilihan terbaik kebanyakan user
Q4_K_S	~6.5 GB	~8.5 GB	1.8x lebih cepat	Moderat	Budget VRAM ketat
IQ4_XS	~6 GB	~8 GB	1.9x lebih cepat	Terlihat	Kualitas minimum viable
Q3_K_M	~5.5 GB	~7.5 GB	2.0x lebih cepat	Signifikan	Tidak direkomendasikan
Q2_K	~4.5 GB	~6.5 GB	2.1x lebih cepat	Parah	Hanya eksperimen

Kecepatan relatif terhadap FP16 di hardware yang sama. Tok/dtk aktual bervariasi berdasarkan GPU.

Rekomendasi

Q4_K_M — Keseimbangan terbaik untuk kebanyakan orang. Kualitas sangat dekat dengan FP16 untuk tugas harian seperti coding, menulis, dan Q&A. Ini default di sebagian besar model Ollama.
Q5_K_M — Pilih ini jika kamu punya VRAM ekstra dan ingin kualitas yang terlihat lebih baik pada tugas penalaran kompleks.
Q8_0 — Kualitas mendekati asli. Hanya gunakan jika hardware-mu bisa menanganinya — peningkatan kualitas atas Q5 marjinal untuk kebanyakan tugas.
IQ4_XS — Format terkecil yang masih berguna. Bagus untuk testing atau saat kamu 1-2 GB kurang VRAM.

Hindari Q3 dan Q2 — penurunan kualitas terlalu curam untuk berguna untuk apa pun yang serius.

Di Mana Mengunduh File GGUF

Unsloth di Hugging Face (Direkomendasikan)

Unsloth menyediakan konversi GGUF berkualitas tinggi untuk semua model Gemma 4:

# Telusuri file yang tersedia
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF

# Unduh dengan huggingface-cli
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# Atau unduh dengan wget
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf

Repo tersedia:

Model	Repo Hugging Face
Gemma 4 1B	unsloth/gemma-4-1b-it-GGUF
Gemma 4 4B	unsloth/gemma-4-4b-it-GGUF
Gemma 4 12B	unsloth/gemma-4-12b-it-GGUF
Gemma 4 27B	unsloth/gemma-4-27b-it-GGUF

Menjalankan File GGUF

Dengan llama.cpp

Cara paling langsung untuk menjalankan file GGUF:

# Clone dan build llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON  # atau DGGML_METAL=ON untuk Mac
cmake --build build

# Jalankan inferensi
./build/bin/llama-server \
  -m ./models/gemma-4-12b-it-Q4_K_M.gguf \
  -ngl 999 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

# Sekarang kamu punya API yang kompatibel OpenAI di http://localhost:8080

Dengan Ollama

Ollama menggunakan GGUF di baliknya. Kamu bisa membuat model kustom dari file GGUF:

# Metode 1: Gunakan model Ollama pre-built (termudah)
ollama run gemma4:12b

# Metode 2: Import file GGUF-mu sendiri
# Buat Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF

# Buat model
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4

Dengan LM Studio

LM Studio menyediakan GUI untuk mengunduh dan menjalankan file GGUF:

Buka LM Studio
Cari "gemma 4" di model browser
Pilih level kuantisasi yang kamu inginkan
Klik Download
Buka tab Chat dan pilih modelmu
Mulai chatting

LM Studio juga mengekspos API lokal yang kompatibel dengan format OpenAI, jadi kamu bisa menggunakannya sebagai backend drop-in untuk aplikasi yang mengharapkan endpoint gaya OpenAI.

Kualitas vs Kecepatan: Testing Dunia Nyata

Berikut bagaimana kuantisasi yang berbeda berkinerja pada tugas aktual dengan Gemma 4 12B:

Tugas	Q4_K_M	Q5_K_M	Q8_0	FP16
Pembuatan kode	92% match	95% match	98% match	100% (baseline)
Penulisan kreatif	Perbedaan kecil	Hampir identik	Identik	Baseline
Penalaran matematika	~85% akurat	~90% akurat	~95% akurat	~96% akurat
Ringkasan	Sangat dekat	Sangat dekat	Identik	Baseline
Terjemahan	Penurunan kualitas kecil	Hampir identik	Identik	Baseline

Untuk kebanyakan user, Q4_K_M adalah sweet spot. Kamu kehilangan beberapa poin persentase pada matematika sulit dan penalaran kompleks, tapi untuk coding, menulis, ringkasan, dan Q&A umum, perbedaannya hampir tidak terlihat.

Memilih Berdasarkan Hardware

Hardware-mu	Kuant Direkomendasikan	Ukuran Model
GPU 8GB VRAM	Q4_K_M atau IQ4_XS	12B
GPU 12GB VRAM	Q5_K_M atau Q6_K	12B
GPU 16GB VRAM	Q8_0	12B
GPU 24GB VRAM	Q8_0 (12B) atau Q4_K_M (27B)	12B atau 27B
Mac 16GB	Q4_K_M	12B
Mac 32GB	Q5_K_M (12B) atau Q4_K_M (27B)	12B atau 27B
Mac 64GB+	Q8_0 untuk ukuran apa pun	27B

Langkah Selanjutnya

Perlu mengunduh model? Cek Panduan Unduh kami untuk semua cara mendapatkan Gemma 4
Ingin detail lebih tentang kebutuhan hardware? Lihat Panduan Hardware untuk kalkulasi VRAM berdasarkan model dan kuantisasi
Mengunduh dari Hugging Face? Baca Cara Mengunduh dari Hugging Face untuk instruksi detail

Intinya: mulai dengan Q4_K_M. Jika kamu melihat masalah kualitas pada tugas spesifikmu, naik ke Q5_K_M. Hanya naik lebih tinggi jika kamu punya VRAM cadangan dan benar-benar membutuhkan presisi ekstra.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />