Kuantisasi GGUF adalah cara kamu menyusutkan Gemma 4 dari raksasa 24GB menjadi sesuatu yang benar-benar muat di hardware-mu. Tapi dengan lusinan level kuantisasi berbeda untuk dipilih, memilih yang tepat itu membingungkan. Panduan ini menembus kebisingan dan memberitahu kamu format mana yang harus digunakan.
Apa Itu GGUF?
GGUF (GGML Universal Format) adalah format file yang dirancang khusus untuk menjalankan model bahasa besar di hardware konsumer. Ia menyimpan bobot model dalam format terkompresi yang mempertukarkan sedikit kualitas untuk ukuran file yang jauh lebih kecil dan inferensi lebih cepat.
Konsep kuncinya adalah kuantisasi — mengurangi presisi bobot model dari floating point 16-bit (FP16) ke 8-bit, 4-bit, atau bahkan lebih rendah. Presisi lebih rendah = file lebih kecil = inferensi lebih cepat = sedikit kurang akurat.
Perbandingan Level Kuantisasi
Berikut perbandingan lengkap untuk Gemma 4 12B:
| Kuantisasi | Ukuran File | VRAM Dibutuhkan | Kecepatan (tok/dtk)* | Kehilangan Kualitas | Terbaik Untuk |
|---|---|---|---|---|---|
| FP16 | ~24 GB | ~26 GB | Baseline | Tidak ada | Riset, fine-tuning |
| Q8_0 | ~13 GB | ~15 GB | 1.2x lebih cepat | Dapat diabaikan | Tugas kritis kualitas |
| Q6_K | ~10 GB | ~12 GB | 1.4x lebih cepat | Sangat kecil | Keseimbangan kualitas dan ukuran |
| Q5_K_M | ~8.5 GB | ~10 GB | 1.6x lebih cepat | Kecil | Driver harian kualitas lebih baik |
| Q5_K_S | ~8 GB | ~10 GB | 1.6x lebih cepat | Kecil | Q5 sedikit lebih kecil |
| Q4_K_M | ~7 GB | ~9 GB | 1.8x lebih cepat | Moderat | Pilihan terbaik kebanyakan user |
| Q4_K_S | ~6.5 GB | ~8.5 GB | 1.8x lebih cepat | Moderat | Budget VRAM ketat |
| IQ4_XS | ~6 GB | ~8 GB | 1.9x lebih cepat | Terlihat | Kualitas minimum viable |
| Q3_K_M | ~5.5 GB | ~7.5 GB | 2.0x lebih cepat | Signifikan | Tidak direkomendasikan |
| Q2_K | ~4.5 GB | ~6.5 GB | 2.1x lebih cepat | Parah | Hanya eksperimen |
Kecepatan relatif terhadap FP16 di hardware yang sama. Tok/dtk aktual bervariasi berdasarkan GPU.
Rekomendasi
- Q4_K_M — Keseimbangan terbaik untuk kebanyakan orang. Kualitas sangat dekat dengan FP16 untuk tugas harian seperti coding, menulis, dan Q&A. Ini default di sebagian besar model Ollama.
- Q5_K_M — Pilih ini jika kamu punya VRAM ekstra dan ingin kualitas yang terlihat lebih baik pada tugas penalaran kompleks.
- Q8_0 — Kualitas mendekati asli. Hanya gunakan jika hardware-mu bisa menanganinya — peningkatan kualitas atas Q5 marjinal untuk kebanyakan tugas.
- IQ4_XS — Format terkecil yang masih berguna. Bagus untuk testing atau saat kamu 1-2 GB kurang VRAM.
Hindari Q3 dan Q2 — penurunan kualitas terlalu curam untuk berguna untuk apa pun yang serius.
Di Mana Mengunduh File GGUF
Unsloth di Hugging Face (Direkomendasikan)
Unsloth menyediakan konversi GGUF berkualitas tinggi untuk semua model Gemma 4:
# Telusuri file yang tersedia
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF
# Unduh dengan huggingface-cli
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
gemma-4-12b-it-Q4_K_M.gguf \
--local-dir ./models
# Atau unduh dengan wget
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.ggufRepo tersedia:
| Model | Repo Hugging Face |
|---|---|
| Gemma 4 1B | unsloth/gemma-4-1b-it-GGUF |
| Gemma 4 4B | unsloth/gemma-4-4b-it-GGUF |
| Gemma 4 12B | unsloth/gemma-4-12b-it-GGUF |
| Gemma 4 27B | unsloth/gemma-4-27b-it-GGUF |
Menjalankan File GGUF
Dengan llama.cpp
Cara paling langsung untuk menjalankan file GGUF:
# Clone dan build llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON # atau DGGML_METAL=ON untuk Mac
cmake --build build
# Jalankan inferensi
./build/bin/llama-server \
-m ./models/gemma-4-12b-it-Q4_K_M.gguf \
-ngl 999 \
-c 8192 \
--host 0.0.0.0 \
--port 8080
# Sekarang kamu punya API yang kompatibel OpenAI di http://localhost:8080Dengan Ollama
Ollama menggunakan GGUF di baliknya. Kamu bisa membuat model kustom dari file GGUF:
# Metode 1: Gunakan model Ollama pre-built (termudah)
ollama run gemma4:12b
# Metode 2: Import file GGUF-mu sendiri
# Buat Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF
# Buat model
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4Dengan LM Studio
LM Studio menyediakan GUI untuk mengunduh dan menjalankan file GGUF:
- Buka LM Studio
- Cari "gemma 4" di model browser
- Pilih level kuantisasi yang kamu inginkan
- Klik Download
- Buka tab Chat dan pilih modelmu
- Mulai chatting
LM Studio juga mengekspos API lokal yang kompatibel dengan format OpenAI, jadi kamu bisa menggunakannya sebagai backend drop-in untuk aplikasi yang mengharapkan endpoint gaya OpenAI.
Kualitas vs Kecepatan: Testing Dunia Nyata
Berikut bagaimana kuantisasi yang berbeda berkinerja pada tugas aktual dengan Gemma 4 12B:
| Tugas | Q4_K_M | Q5_K_M | Q8_0 | FP16 |
|---|---|---|---|---|
| Pembuatan kode | 92% match | 95% match | 98% match | 100% (baseline) |
| Penulisan kreatif | Perbedaan kecil | Hampir identik | Identik | Baseline |
| Penalaran matematika | ~85% akurat | ~90% akurat | ~95% akurat | ~96% akurat |
| Ringkasan | Sangat dekat | Sangat dekat | Identik | Baseline |
| Terjemahan | Penurunan kualitas kecil | Hampir identik | Identik | Baseline |
Untuk kebanyakan user, Q4_K_M adalah sweet spot. Kamu kehilangan beberapa poin persentase pada matematika sulit dan penalaran kompleks, tapi untuk coding, menulis, ringkasan, dan Q&A umum, perbedaannya hampir tidak terlihat.
Memilih Berdasarkan Hardware
| Hardware-mu | Kuant Direkomendasikan | Ukuran Model |
|---|---|---|
| GPU 8GB VRAM | Q4_K_M atau IQ4_XS | 12B |
| GPU 12GB VRAM | Q5_K_M atau Q6_K | 12B |
| GPU 16GB VRAM | Q8_0 | 12B |
| GPU 24GB VRAM | Q8_0 (12B) atau Q4_K_M (27B) | 12B atau 27B |
| Mac 16GB | Q4_K_M | 12B |
| Mac 32GB | Q5_K_M (12B) atau Q4_K_M (27B) | 12B atau 27B |
| Mac 64GB+ | Q8_0 untuk ukuran apa pun | 27B |
Langkah Selanjutnya
- Perlu mengunduh model? Cek Panduan Unduh kami untuk semua cara mendapatkan Gemma 4
- Ingin detail lebih tentang kebutuhan hardware? Lihat Panduan Hardware untuk kalkulasi VRAM berdasarkan model dan kuantisasi
- Mengunduh dari Hugging Face? Baca Cara Mengunduh dari Hugging Face untuk instruksi detail
Intinya: mulai dengan Q4_K_M. Jika kamu melihat masalah kualitas pada tugas spesifikmu, naik ke Q5_K_M. Hanya naik lebih tinggi jika kamu punya VRAM cadangan dan benar-benar membutuhkan presisi ekstra.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


