Kamu download Gemma 4, jalankan, dan... sangat lambat. Mungkin 2 token per detik. Mungkin lebih buruk. Sebelum menyalahkan modelnya, mari cari tahu apa yang sebenarnya salah — karena dalam kebanyakan kasus, beberapa tweak konfigurasi bisa meningkatkan kecepatan 5-10x.
Langkah 1: Diagnosa Kenapa Lambat
Ada lima alasan umum Gemma 4 berjalan lebih lambat dari harapan. Mari cek satu per satu.
Alasan 1: CPU Fallback
Ini pembunuh kecepatan nomor satu. Model berjalan di CPU bukan GPU, dan kamu mungkin tidak sadar.
Cara mengecek:
# Mac: Activity Monitor → GPU History (menu Window)
# Atau cek apakah Metal digunakan:
sudo powermetrics --samplers gpu_power -n 1
# NVIDIA: Utilisasi GPU harus > 0%
nvidia-smi
# AMD: Cek yang sama
rocm-smiKalau utilisasi GPU tetap di 0% saat inferensi, kamu di CPU. Perbaiki ini dulu — yang lain tidak penting sampai akselerasi GPU berfungsi.
Alasan 2: Kuantisasi Salah
Tidak semua kuantisasi sama dari segi kecepatan:
| Kuantisasi | Ukuran File (12B) | Kecepatan | Kualitas | Cocok Untuk |
|---|---|---|---|---|
| Q4_K_M | ~7 GB | Tercepat | Bagus | Penggunaan harian |
| Q5_K_M | ~8.5 GB | Cepat | Lebih baik | Saat kualitas penting |
| Q6_K | ~10 GB | Sedang | Sangat bagus | Seimbang |
| Q8_0 | ~13 GB | Lambat | Hampir asli | Tugas kritis kualitas |
| FP16 | ~24 GB | Paling lambat | Asli | Hanya kalau VRAM cukup |
| IQ4_XS | ~6 GB | Tercepat | Acceptable | Budget VRAM ketat |
Kalau kamu menjalankan Q8 atau FP16 dan heran kenapa lambat, ganti ke Q4_K_M. Perbedaan kualitasnya marginal untuk kebanyakan tugas, tapi perbedaan kecepatannya dramatis.
Alasan 3: Panjang Konteks Terlalu Panjang
Gemma 4 mendukung sampai 256K konteks, tapi konteks lebih panjang = inferensi lebih lambat:
| Panjang Konteks | Kecepatan Relatif | Penggunaan VRAM (12B Q4) |
|---|---|---|
| 2K | 1.0x (baseline) | ~7 GB |
| 8K | ~0.9x | ~8 GB |
| 32K | ~0.7x | ~12 GB |
| 128K | ~0.4x | ~20 GB |
| 256K | ~0.25x | ~30 GB+ |
Solusi: Set panjang konteks yang wajar untuk tugasmu:
# Ollama: batasi konteks
ollama run gemma4:12b --ctx-size 8192
# llama.cpp
./llama-server -m model.gguf -c 8192
# Jangan pakai 256K kecuali benar-benar butuhAlasan 4: KV Cache Membengkak
KV (key-value) cache menyimpan informasi attention dan tumbuh seiring panjang percakapan. Percakapan panjang memakan VRAM dan memperlambat.
Solusi: Mulai percakapan baru secara berkala, atau set batas cache:
# llama.cpp: batasi KV cache
./llama-server -m model.gguf -c 8192 --cache-type-k q8_0 --cache-type-v q8_0
# KV cache terkuantisasi menggunakan VRAM lebih sedikit dengan penurunan kualitas minimalAlasan 5: Masalah Batch Size
Kalau kamu melayani banyak permintaan, batch size yang salah mengurangi throughput:
# vLLM: tune batch size
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-12b-it \
--max-num-batched-tokens 4096 \
--max-num-seqs 8Perbaikan Spesifik Platform
Mac (Apple Silicon)
Performa Mac sepenuhnya tergantung akselerasi Metal GPU berfungsi:
# Cek dukungan Metal
system_profiler SPDisplaysDataType | grep Metal
# Ollama otomatis menggunakan Metal di Apple Silicon
# Kalau masih lambat, cek tekanan unified memory:
memory_pressure
# Untuk llama.cpp, pastikan Metal aktif
cmake -B build -DGGML_METAL=ON
cmake --build build
# Pengaturan yang direkomendasikan M1/M2/M3
./llama-server -m model.gguf -ngl 999 -c 8192| Model Mac | Unified Memory | Kecepatan 12B Q4 | Catatan |
|---|---|---|---|
| M1 8GB | 8GB | ~12 tok/s | Bisa dipakai tapi ketat |
| M1 Pro 16GB | 16GB | ~18 tok/s | Nyaman |
| M2 Pro 16GB | 16GB | ~22 tok/s | Daily driver bagus |
| M3 Pro 18GB | 18GB | ~25 tok/s | Sweet spot |
| M3 Max 36GB | 36GB | ~30 tok/s | Bisa jalankan 27B Q4 |
| M4 Max 48GB | 48GB | ~35 tok/s | Jalankan semua |
Tips khusus Mac: Tutup aplikasi yang banyak makan memori (Chrome, Docker) sebelum menjalankan model besar. Apple Silicon berbagi memori antara CPU dan GPU, jadi tidak ada pool VRAM terpisah.
Windows (NVIDIA CUDA)
# Pastikan CUDA benar-benar digunakan
# Di Ollama, cek dengan:
ollama ps
# Masalah umum Windows: pengaturan daya
# Set ke "High Performance" di opsi daya WindowsTips khusus Windows: Nonaktifkan real-time scanning Windows Defender untuk direktori model:
# PowerShell (admin)
Add-MpPreference -ExclusionPath "C:\Users\kamu\models"Linux (NVIDIA atau AMD)
# NVIDIA: Pastikan persistence mode aktif
sudo nvidia-smi -pm 1
# Set GPU ke performa maksimum
sudo nvidia-smi -ac 1215,1410 # Nilai bervariasi per GPU
# AMD: Cek ROCm aktif
rocm-smiChecklist Kecepatan
Jalankan checklist ini untuk memaksimalkan kecepatan:
1. [ ] Akselerasi GPU berfungsi (bukan CPU fallback)
2. [ ] Menggunakan kuantisasi Q4_K_M (kecuali kualitas kritis)
3. [ ] Panjang konteks sesuai kebutuhan (bukan default 256K)
4. [ ] KV cache terkuantisasi (--cache-type-k q8_0)
5. [ ] Flash Attention aktif (kalau tersedia)
6. [ ] Tidak ada app background yang makan memori
7. [ ] Pengaturan daya di "High Performance" (laptop)
8. [ ] Driver terbaru terinstalKapan Lambat Itu Normal
Kadang Gemma 4 memang lambat dan itu wajar:
- Latensi token pertama: Token pertama selalu lebih lama (pemrosesan prompt). Ini normal.
- Prompt sangat panjang: Memproses input 100K token butuh waktu apapun yang terjadi.
- Model 27B di 16GB: Muat, tapi pas-pasan.
- Inferensi CPU-only: Tanpa GPU, harapkan 1-5 tok/s.
Kalau kamu mengalami masalah selain kecepatan, seperti crash atau error, cek panduan troubleshooting kami.
Langkah Selanjutnya
- Tidak yakin hardware cukup? Cek Panduan Kebutuhan Hardware
- Bingung pilih ukuran model? Baca Model Gemma 4 Mana yang Harus Dipilih?
- Mau pahami kuantisasi lebih dalam? Lihat Panduan Kuantisasi GGUF
Optimasi kecepatan sebagian besar tentang memperbaiki dasarnya. Perbaiki CPU fallback, pilih kuantisasi yang tepat, dan set panjang konteks yang wajar — tiga perubahan itu saja akan menyelesaikan 90% keluhan performa.



