Kenapa Gemma 4 Lambat? Panduan Mempercepat untuk Mac, Windows & Linux

Kamu download Gemma 4, jalankan, dan... sangat lambat. Mungkin 2 token per detik. Mungkin lebih buruk. Sebelum menyalahkan modelnya, mari cari tahu apa yang sebenarnya salah — karena dalam kebanyakan kasus, beberapa tweak konfigurasi bisa meningkatkan kecepatan 5-10x.

Langkah 1: Diagnosa Kenapa Lambat

Ada lima alasan umum Gemma 4 berjalan lebih lambat dari harapan. Mari cek satu per satu.

Alasan 1: CPU Fallback

Ini pembunuh kecepatan nomor satu. Model berjalan di CPU bukan GPU, dan kamu mungkin tidak sadar.

Cara mengecek:

# Mac: Activity Monitor → GPU History (menu Window)
# Atau cek apakah Metal digunakan:
sudo powermetrics --samplers gpu_power -n 1

# NVIDIA: Utilisasi GPU harus > 0%
nvidia-smi

# AMD: Cek yang sama
rocm-smi

Kalau utilisasi GPU tetap di 0% saat inferensi, kamu di CPU. Perbaiki ini dulu — yang lain tidak penting sampai akselerasi GPU berfungsi.

Alasan 2: Kuantisasi Salah

Tidak semua kuantisasi sama dari segi kecepatan:

Kuantisasi	Ukuran File (12B)	Kecepatan	Kualitas	Cocok Untuk
Q4_K_M	~7 GB	Tercepat	Bagus	Penggunaan harian
Q5_K_M	~8.5 GB	Cepat	Lebih baik	Saat kualitas penting
Q6_K	~10 GB	Sedang	Sangat bagus	Seimbang
Q8_0	~13 GB	Lambat	Hampir asli	Tugas kritis kualitas
FP16	~24 GB	Paling lambat	Asli	Hanya kalau VRAM cukup
IQ4_XS	~6 GB	Tercepat	Acceptable	Budget VRAM ketat

Kalau kamu menjalankan Q8 atau FP16 dan heran kenapa lambat, ganti ke Q4_K_M. Perbedaan kualitasnya marginal untuk kebanyakan tugas, tapi perbedaan kecepatannya dramatis.

Alasan 3: Panjang Konteks Terlalu Panjang

Gemma 4 mendukung sampai 256K konteks, tapi konteks lebih panjang = inferensi lebih lambat:

Panjang Konteks	Kecepatan Relatif	Penggunaan VRAM (12B Q4)
2K	1.0x (baseline)	~7 GB
8K	~0.9x	~8 GB
32K	~0.7x	~12 GB
128K	~0.4x	~20 GB
256K	~0.25x	~30 GB+

Solusi: Set panjang konteks yang wajar untuk tugasmu:

# Ollama: batasi konteks
ollama run gemma4:12b --ctx-size 8192

# llama.cpp
./llama-server -m model.gguf -c 8192

# Jangan pakai 256K kecuali benar-benar butuh

Alasan 4: KV Cache Membengkak

KV (key-value) cache menyimpan informasi attention dan tumbuh seiring panjang percakapan. Percakapan panjang memakan VRAM dan memperlambat.

Solusi: Mulai percakapan baru secara berkala, atau set batas cache:

# llama.cpp: batasi KV cache
./llama-server -m model.gguf -c 8192 --cache-type-k q8_0 --cache-type-v q8_0

# KV cache terkuantisasi menggunakan VRAM lebih sedikit dengan penurunan kualitas minimal

Alasan 5: Masalah Batch Size

Kalau kamu melayani banyak permintaan, batch size yang salah mengurangi throughput:

# vLLM: tune batch size
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-12b-it \
  --max-num-batched-tokens 4096 \
  --max-num-seqs 8

Perbaikan Spesifik Platform

Mac (Apple Silicon)

Performa Mac sepenuhnya tergantung akselerasi Metal GPU berfungsi:

# Cek dukungan Metal
system_profiler SPDisplaysDataType | grep Metal

# Ollama otomatis menggunakan Metal di Apple Silicon
# Kalau masih lambat, cek tekanan unified memory:
memory_pressure

# Untuk llama.cpp, pastikan Metal aktif
cmake -B build -DGGML_METAL=ON
cmake --build build

# Pengaturan yang direkomendasikan M1/M2/M3
./llama-server -m model.gguf -ngl 999 -c 8192

Model Mac	Unified Memory	Kecepatan 12B Q4	Catatan
M1 8GB	8GB	~12 tok/s	Bisa dipakai tapi ketat
M1 Pro 16GB	16GB	~18 tok/s	Nyaman
M2 Pro 16GB	16GB	~22 tok/s	Daily driver bagus
M3 Pro 18GB	18GB	~25 tok/s	Sweet spot
M3 Max 36GB	36GB	~30 tok/s	Bisa jalankan 27B Q4
M4 Max 48GB	48GB	~35 tok/s	Jalankan semua

Tips khusus Mac: Tutup aplikasi yang banyak makan memori (Chrome, Docker) sebelum menjalankan model besar. Apple Silicon berbagi memori antara CPU dan GPU, jadi tidak ada pool VRAM terpisah.

Windows (NVIDIA CUDA)

# Pastikan CUDA benar-benar digunakan
# Di Ollama, cek dengan:
ollama ps

# Masalah umum Windows: pengaturan daya
# Set ke "High Performance" di opsi daya Windows

Tips khusus Windows: Nonaktifkan real-time scanning Windows Defender untuk direktori model:

# PowerShell (admin)
Add-MpPreference -ExclusionPath "C:\Users\kamu\models"

Linux (NVIDIA atau AMD)

# NVIDIA: Pastikan persistence mode aktif
sudo nvidia-smi -pm 1

# Set GPU ke performa maksimum
sudo nvidia-smi -ac 1215,1410  # Nilai bervariasi per GPU

# AMD: Cek ROCm aktif
rocm-smi

Checklist Kecepatan

Jalankan checklist ini untuk memaksimalkan kecepatan:

1. [ ] Akselerasi GPU berfungsi (bukan CPU fallback)
2. [ ] Menggunakan kuantisasi Q4_K_M (kecuali kualitas kritis)
3. [ ] Panjang konteks sesuai kebutuhan (bukan default 256K)
4. [ ] KV cache terkuantisasi (--cache-type-k q8_0)
5. [ ] Flash Attention aktif (kalau tersedia)
6. [ ] Tidak ada app background yang makan memori
7. [ ] Pengaturan daya di "High Performance" (laptop)
8. [ ] Driver terbaru terinstal

Kapan Lambat Itu Normal

Kadang Gemma 4 memang lambat dan itu wajar:

Latensi token pertama: Token pertama selalu lebih lama (pemrosesan prompt). Ini normal.
Prompt sangat panjang: Memproses input 100K token butuh waktu apapun yang terjadi.
Model 27B di 16GB: Muat, tapi pas-pasan.
Inferensi CPU-only: Tanpa GPU, harapkan 1-5 tok/s.

Kalau kamu mengalami masalah selain kecepatan, seperti crash atau error, cek panduan troubleshooting kami.

Langkah Selanjutnya

Tidak yakin hardware cukup? Cek Panduan Kebutuhan Hardware
Bingung pilih ukuran model? Baca Model Gemma 4 Mana yang Harus Dipilih?
Mau pahami kuantisasi lebih dalam? Lihat Panduan Kuantisasi GGUF

Optimasi kecepatan sebagian besar tentang memperbaiki dasarnya. Perbaiki CPU fallback, pilih kuantisasi yang tepat, dan set panjang konteks yang wajar — tiga perubahan itu saja akan menyelesaikan 90% keluhan performa.