0% read

Gemma 4 GGUF: Kuantisasi Mana yang Harus Saya Pilih?

Apr 7, 2026

Kuantisasi GGUF adalah cara kamu menyusutkan Gemma 4 dari raksasa 24GB menjadi sesuatu yang benar-benar muat di hardware-mu. Tapi dengan lusinan level kuantisasi berbeda untuk dipilih, memilih yang tepat itu membingungkan. Panduan ini menembus kebisingan dan memberitahu kamu format mana yang harus digunakan.

Apa Itu GGUF?

GGUF (GGML Universal Format) adalah format file yang dirancang khusus untuk menjalankan model bahasa besar di hardware konsumer. Ia menyimpan bobot model dalam format terkompresi yang mempertukarkan sedikit kualitas untuk ukuran file yang jauh lebih kecil dan inferensi lebih cepat.

Konsep kuncinya adalah kuantisasi — mengurangi presisi bobot model dari floating point 16-bit (FP16) ke 8-bit, 4-bit, atau bahkan lebih rendah. Presisi lebih rendah = file lebih kecil = inferensi lebih cepat = sedikit kurang akurat.

Perbandingan Level Kuantisasi

Berikut perbandingan lengkap untuk Gemma 4 12B:

KuantisasiUkuran FileVRAM DibutuhkanKecepatan (tok/dtk)*Kehilangan KualitasTerbaik Untuk
FP16~24 GB~26 GBBaselineTidak adaRiset, fine-tuning
Q8_0~13 GB~15 GB1.2x lebih cepatDapat diabaikanTugas kritis kualitas
Q6_K~10 GB~12 GB1.4x lebih cepatSangat kecilKeseimbangan kualitas dan ukuran
Q5_K_M~8.5 GB~10 GB1.6x lebih cepatKecilDriver harian kualitas lebih baik
Q5_K_S~8 GB~10 GB1.6x lebih cepatKecilQ5 sedikit lebih kecil
Q4_K_M~7 GB~9 GB1.8x lebih cepatModeratPilihan terbaik kebanyakan user
Q4_K_S~6.5 GB~8.5 GB1.8x lebih cepatModeratBudget VRAM ketat
IQ4_XS~6 GB~8 GB1.9x lebih cepatTerlihatKualitas minimum viable
Q3_K_M~5.5 GB~7.5 GB2.0x lebih cepatSignifikanTidak direkomendasikan
Q2_K~4.5 GB~6.5 GB2.1x lebih cepatParahHanya eksperimen

Kecepatan relatif terhadap FP16 di hardware yang sama. Tok/dtk aktual bervariasi berdasarkan GPU.

Rekomendasi

  • Q4_K_M — Keseimbangan terbaik untuk kebanyakan orang. Kualitas sangat dekat dengan FP16 untuk tugas harian seperti coding, menulis, dan Q&A. Ini default di sebagian besar model Ollama.
  • Q5_K_M — Pilih ini jika kamu punya VRAM ekstra dan ingin kualitas yang terlihat lebih baik pada tugas penalaran kompleks.
  • Q8_0 — Kualitas mendekati asli. Hanya gunakan jika hardware-mu bisa menanganinya — peningkatan kualitas atas Q5 marjinal untuk kebanyakan tugas.
  • IQ4_XS — Format terkecil yang masih berguna. Bagus untuk testing atau saat kamu 1-2 GB kurang VRAM.

Hindari Q3 dan Q2 — penurunan kualitas terlalu curam untuk berguna untuk apa pun yang serius.

Di Mana Mengunduh File GGUF

Unsloth di Hugging Face (Direkomendasikan)

Unsloth menyediakan konversi GGUF berkualitas tinggi untuk semua model Gemma 4:

# Telusuri file yang tersedia
# https://huggingface.co/unsloth/gemma-4-12b-it-GGUF

# Unduh dengan huggingface-cli
pip install huggingface_hub
huggingface-cli download unsloth/gemma-4-12b-it-GGUF \
  gemma-4-12b-it-Q4_K_M.gguf \
  --local-dir ./models

# Atau unduh dengan wget
wget https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-Q4_K_M.gguf

Repo tersedia:

ModelRepo Hugging Face
Gemma 4 1Bunsloth/gemma-4-1b-it-GGUF
Gemma 4 4Bunsloth/gemma-4-4b-it-GGUF
Gemma 4 12Bunsloth/gemma-4-12b-it-GGUF
Gemma 4 27Bunsloth/gemma-4-27b-it-GGUF

Menjalankan File GGUF

Dengan llama.cpp

Cara paling langsung untuk menjalankan file GGUF:

# Clone dan build llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON  # atau DGGML_METAL=ON untuk Mac
cmake --build build

# Jalankan inferensi
./build/bin/llama-server \
  -m ./models/gemma-4-12b-it-Q4_K_M.gguf \
  -ngl 999 \
  -c 8192 \
  --host 0.0.0.0 \
  --port 8080

# Sekarang kamu punya API yang kompatibel OpenAI di http://localhost:8080

Dengan Ollama

Ollama menggunakan GGUF di baliknya. Kamu bisa membuat model kustom dari file GGUF:

# Metode 1: Gunakan model Ollama pre-built (termudah)
ollama run gemma4:12b

# Metode 2: Import file GGUF-mu sendiri
# Buat Modelfile
cat > Modelfile << 'EOF'
FROM ./gemma-4-12b-it-Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
TEMPLATE """{{ .System }}
{{ .Prompt }}"""
EOF

# Buat model
ollama create my-gemma4 -f Modelfile
ollama run my-gemma4

Dengan LM Studio

LM Studio menyediakan GUI untuk mengunduh dan menjalankan file GGUF:

  1. Buka LM Studio
  2. Cari "gemma 4" di model browser
  3. Pilih level kuantisasi yang kamu inginkan
  4. Klik Download
  5. Buka tab Chat dan pilih modelmu
  6. Mulai chatting

LM Studio juga mengekspos API lokal yang kompatibel dengan format OpenAI, jadi kamu bisa menggunakannya sebagai backend drop-in untuk aplikasi yang mengharapkan endpoint gaya OpenAI.

Kualitas vs Kecepatan: Testing Dunia Nyata

Berikut bagaimana kuantisasi yang berbeda berkinerja pada tugas aktual dengan Gemma 4 12B:

TugasQ4_K_MQ5_K_MQ8_0FP16
Pembuatan kode92% match95% match98% match100% (baseline)
Penulisan kreatifPerbedaan kecilHampir identikIdentikBaseline
Penalaran matematika~85% akurat~90% akurat~95% akurat~96% akurat
RingkasanSangat dekatSangat dekatIdentikBaseline
TerjemahanPenurunan kualitas kecilHampir identikIdentikBaseline

Untuk kebanyakan user, Q4_K_M adalah sweet spot. Kamu kehilangan beberapa poin persentase pada matematika sulit dan penalaran kompleks, tapi untuk coding, menulis, ringkasan, dan Q&A umum, perbedaannya hampir tidak terlihat.

Memilih Berdasarkan Hardware

Hardware-muKuant DirekomendasikanUkuran Model
GPU 8GB VRAMQ4_K_M atau IQ4_XS12B
GPU 12GB VRAMQ5_K_M atau Q6_K12B
GPU 16GB VRAMQ8_012B
GPU 24GB VRAMQ8_0 (12B) atau Q4_K_M (27B)12B atau 27B
Mac 16GBQ4_K_M12B
Mac 32GBQ5_K_M (12B) atau Q4_K_M (27B)12B atau 27B
Mac 64GB+Q8_0 untuk ukuran apa pun27B

Langkah Selanjutnya

Intinya: mulai dengan Q4_K_M. Jika kamu melihat masalah kualitas pada tugas spesifikmu, naik ke Q5_K_M. Hanya naik lebih tinggi jika kamu punya VRAM cadangan dan benar-benar membutuhkan presisi ekstra.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 GGUF: Kuantisasi Mana yang Harus Saya Pilih? | Blog