Kenapa Gemma 4 Lambat? Panduan Mempercepat untuk Mac, Windows & Linux

Apr 7, 2026

Kamu download Gemma 4, jalankan, dan... sangat lambat. Mungkin 2 token per detik. Mungkin lebih buruk. Sebelum menyalahkan modelnya, mari cari tahu apa yang sebenarnya salah — karena dalam kebanyakan kasus, beberapa tweak konfigurasi bisa meningkatkan kecepatan 5-10x.

Langkah 1: Diagnosa Kenapa Lambat

Ada lima alasan umum Gemma 4 berjalan lebih lambat dari harapan. Mari cek satu per satu.

Alasan 1: CPU Fallback

Ini pembunuh kecepatan nomor satu. Model berjalan di CPU bukan GPU, dan kamu mungkin tidak sadar.

Cara mengecek:

# Mac: Activity Monitor → GPU History (menu Window)
# Atau cek apakah Metal digunakan:
sudo powermetrics --samplers gpu_power -n 1

# NVIDIA: Utilisasi GPU harus > 0%
nvidia-smi

# AMD: Cek yang sama
rocm-smi

Kalau utilisasi GPU tetap di 0% saat inferensi, kamu di CPU. Perbaiki ini dulu — yang lain tidak penting sampai akselerasi GPU berfungsi.

Alasan 2: Kuantisasi Salah

Tidak semua kuantisasi sama dari segi kecepatan:

KuantisasiUkuran File (12B)KecepatanKualitasCocok Untuk
Q4_K_M~7 GBTercepatBagusPenggunaan harian
Q5_K_M~8.5 GBCepatLebih baikSaat kualitas penting
Q6_K~10 GBSedangSangat bagusSeimbang
Q8_0~13 GBLambatHampir asliTugas kritis kualitas
FP16~24 GBPaling lambatAsliHanya kalau VRAM cukup
IQ4_XS~6 GBTercepatAcceptableBudget VRAM ketat

Kalau kamu menjalankan Q8 atau FP16 dan heran kenapa lambat, ganti ke Q4_K_M. Perbedaan kualitasnya marginal untuk kebanyakan tugas, tapi perbedaan kecepatannya dramatis.

Alasan 3: Panjang Konteks Terlalu Panjang

Gemma 4 mendukung sampai 256K konteks, tapi konteks lebih panjang = inferensi lebih lambat:

Panjang KonteksKecepatan RelatifPenggunaan VRAM (12B Q4)
2K1.0x (baseline)~7 GB
8K~0.9x~8 GB
32K~0.7x~12 GB
128K~0.4x~20 GB
256K~0.25x~30 GB+

Solusi: Set panjang konteks yang wajar untuk tugasmu:

# Ollama: batasi konteks
ollama run gemma4:12b --ctx-size 8192

# llama.cpp
./llama-server -m model.gguf -c 8192

# Jangan pakai 256K kecuali benar-benar butuh

Alasan 4: KV Cache Membengkak

KV (key-value) cache menyimpan informasi attention dan tumbuh seiring panjang percakapan. Percakapan panjang memakan VRAM dan memperlambat.

Solusi: Mulai percakapan baru secara berkala, atau set batas cache:

# llama.cpp: batasi KV cache
./llama-server -m model.gguf -c 8192 --cache-type-k q8_0 --cache-type-v q8_0

# KV cache terkuantisasi menggunakan VRAM lebih sedikit dengan penurunan kualitas minimal

Alasan 5: Masalah Batch Size

Kalau kamu melayani banyak permintaan, batch size yang salah mengurangi throughput:

# vLLM: tune batch size
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-12b-it \
  --max-num-batched-tokens 4096 \
  --max-num-seqs 8

Perbaikan Spesifik Platform

Mac (Apple Silicon)

Performa Mac sepenuhnya tergantung akselerasi Metal GPU berfungsi:

# Cek dukungan Metal
system_profiler SPDisplaysDataType | grep Metal

# Ollama otomatis menggunakan Metal di Apple Silicon
# Kalau masih lambat, cek tekanan unified memory:
memory_pressure

# Untuk llama.cpp, pastikan Metal aktif
cmake -B build -DGGML_METAL=ON
cmake --build build

# Pengaturan yang direkomendasikan M1/M2/M3
./llama-server -m model.gguf -ngl 999 -c 8192
Model MacUnified MemoryKecepatan 12B Q4Catatan
M1 8GB8GB~12 tok/sBisa dipakai tapi ketat
M1 Pro 16GB16GB~18 tok/sNyaman
M2 Pro 16GB16GB~22 tok/sDaily driver bagus
M3 Pro 18GB18GB~25 tok/sSweet spot
M3 Max 36GB36GB~30 tok/sBisa jalankan 27B Q4
M4 Max 48GB48GB~35 tok/sJalankan semua

Tips khusus Mac: Tutup aplikasi yang banyak makan memori (Chrome, Docker) sebelum menjalankan model besar. Apple Silicon berbagi memori antara CPU dan GPU, jadi tidak ada pool VRAM terpisah.

Windows (NVIDIA CUDA)

# Pastikan CUDA benar-benar digunakan
# Di Ollama, cek dengan:
ollama ps

# Masalah umum Windows: pengaturan daya
# Set ke "High Performance" di opsi daya Windows

Tips khusus Windows: Nonaktifkan real-time scanning Windows Defender untuk direktori model:

# PowerShell (admin)
Add-MpPreference -ExclusionPath "C:\Users\kamu\models"

Linux (NVIDIA atau AMD)

# NVIDIA: Pastikan persistence mode aktif
sudo nvidia-smi -pm 1

# Set GPU ke performa maksimum
sudo nvidia-smi -ac 1215,1410  # Nilai bervariasi per GPU

# AMD: Cek ROCm aktif
rocm-smi

Checklist Kecepatan

Jalankan checklist ini untuk memaksimalkan kecepatan:

1. [ ] Akselerasi GPU berfungsi (bukan CPU fallback)
2. [ ] Menggunakan kuantisasi Q4_K_M (kecuali kualitas kritis)
3. [ ] Panjang konteks sesuai kebutuhan (bukan default 256K)
4. [ ] KV cache terkuantisasi (--cache-type-k q8_0)
5. [ ] Flash Attention aktif (kalau tersedia)
6. [ ] Tidak ada app background yang makan memori
7. [ ] Pengaturan daya di "High Performance" (laptop)
8. [ ] Driver terbaru terinstal

Kapan Lambat Itu Normal

Kadang Gemma 4 memang lambat dan itu wajar:

  • Latensi token pertama: Token pertama selalu lebih lama (pemrosesan prompt). Ini normal.
  • Prompt sangat panjang: Memproses input 100K token butuh waktu apapun yang terjadi.
  • Model 27B di 16GB: Muat, tapi pas-pasan.
  • Inferensi CPU-only: Tanpa GPU, harapkan 1-5 tok/s.

Kalau kamu mengalami masalah selain kecepatan, seperti crash atau error, cek panduan troubleshooting kami.

Langkah Selanjutnya

Optimasi kecepatan sebagian besar tentang memperbaiki dasarnya. Perbaiki CPU fallback, pilih kuantisasi yang tepat, dan set panjang konteks yang wajar — tiga perubahan itu saja akan menyelesaikan 90% keluhan performa.

Gemma 4 AI

Gemma 4 AI

Related Guides

Kenapa Gemma 4 Lambat? Panduan Mempercepat untuk Mac, Windows & Linux | Blog