"Bisa jalan di komputer saya nggak?" — itu pertanyaan pertama yang semua orang tanyakan. Jawabannya tergantung model Gemma 4 mana yang mau kamu jalankan dan hardware apa yang kamu punya. Mari kita hilangkan kebingungan dan berikan angka yang sebenarnya.
Tabel Kebutuhan Hardware Lengkap
Ini yang dibutuhkan setiap model pada level kuantisasi berbeda:
| Model | 4-bit (Q4) | 8-bit (Q8) | 16-bit (FP16) | RAM/VRAM Minimum |
|---|---|---|---|---|
| E2B (2B) | ~1.5GB | ~2.5GB | ~4GB | 4GB RAM |
| E4B (4B) | ~3GB | ~5GB | ~8GB | 6GB RAM |
| 26B MoE | ~8GB | ~18GB | ~28GB | 8GB VRAM |
| 31B Dense | ~20GB | ~34GB | ~62GB | 20GB VRAM |
Apa itu "kuantisasi"? Ini cara mengompresi model dengan menggunakan presisi lebih rendah untuk angka-angkanya. 4-bit adalah yang paling terkompres (terkecil, tercepat, sedikit kurang akurat). 16-bit adalah presisi penuh (terbesar, paling akurat, butuh memori paling banyak). Untuk kebanyakan orang, 4-bit adalah sweet spot — perbedaan kualitasnya hampir tidak terlihat.
Jebakan KV Cache
Ini yang kebanyakan panduan tidak sebutkan. Model weights hanya sebagian dari cerita memori. Saat Gemma 4 memproses percakapan panjang, dia membangun KV cache (key-value cache) yang menyimpan informasi attention dari token sebelumnya.
Untuk model 31B pada panjang konteks penuh 262K, KV cache saja bisa memakan ~22GB memori — di atas model weights. Artinya meskipun kamu punya VRAM 24GB untuk model, kamu bisa kehabisan memori saat percakapan panjang.
Saran praktis:
- Kurangi panjang konteks kalau kamu kena error OOM. Kamu tidak selalu butuh 262K token.
- Dengan Ollama, gunakan
num_ctxuntuk membatasi konteks:ollama run gemma4:31b --num-ctx 4096 - Untuk kebanyakan tugas, konteks 4K-8K sudah cukup.
Bisa Jalan di Komputer SAYA Nggak?
Mari kita bahas hardware spesifik:
MacBook Air M2 (8GB)
| Model | Bisa? | Catatan |
|---|---|---|
| E2B | Ya | Jalan bagus, respons cepat |
| E4B | Ya | Performa bagus, sweet spot |
| 26B | Tidak | Unified memory tidak cukup |
| 31B | Tidak | Jauh dari cukup |
Kesimpulan: E4B adalah pilihan terbaikmu. Ternyata cukup capable untuk mesin 8GB.
MacBook Pro M3/M4 (16GB)
| Model | Bisa? | Catatan |
|---|---|---|
| E2B | Ya | Berlebihan tapi cepat |
| E4B | Ya | Performa excellent |
| 26B | Ya (4-bit) | Bisa tapi ketat memorinya. Tutup app lain. |
| 31B | Tidak | Butuh memori lebih |
Kesimpulan: Kamu sebenarnya bisa menjalankan model 26B MoE pada kuantisasi 4-bit. Itu model serius di laptop — lihat perbandingan 26B vs 31B kami untuk memahami trade-offnya. Hanya saja jangan harap bisa buka Chrome dengan 50 tab bersamaan.
MacBook Pro M3/M4 (36GB/48GB)
| Model | Bisa? | Catatan |
|---|---|---|
| E2B | Ya | Sangat berlebihan |
| E4B | Ya | Cepat dan lancar |
| 26B | Ya | Nyaman di 8-bit |
| 31B | Ya (4-bit, 36GB) | Ketat tapi bisa |
Kesimpulan: Ini sweet spot untuk menjalankan model besar. 36GB menangani semua sampai 31B di 4-bit. 48GB memberi ruang napas.
Mac Studio M2 Ultra (64GB+)
| Model | Bisa? | Catatan |
|---|---|---|
| Semua model | Ya | Tanpa kompromi |
Kesimpulan: Kamu bisa menjalankan setiap model Gemma 4 dengan nyaman, termasuk 31B di 8-bit. Arsitektur unified memory M2 Ultra menangani workload ini dengan indah.
PC Gaming — RTX 3060 (12GB VRAM)
| Model | Bisa? | Catatan |
|---|---|---|
| E2B | Ya | Akselerasi GPU, sangat cepat |
| E4B | Ya | Inferensi cepat |
| 26B | Ya (4-bit) | Muat di VRAM 12GB |
| 31B | Tidak | Butuh VRAM 20GB+ |
Kesimpulan: RTX 3060 sebenarnya kartu AI yang solid untuk harganya. VRAM 12GB menjalankan model 26B dengan baik di 4-bit.
PC Gaming — RTX 4090 (24GB VRAM)
| Model | Bisa? | Catatan |
|---|---|---|
| E2B | Ya | Sangat cepat |
| E4B | Ya | Sangat cepat |
| 26B | Ya | Nyaman bahkan di 8-bit |
| 31B | Ya (4-bit) | Muat dengan ruang untuk KV cache |
Kesimpulan: Rajanya GPU konsumer untuk AI. Menjalankan semua yang ditawarkan Gemma 4. Model 31B muat di 4-bit dengan headroom cukup untuk panjang konteks yang wajar.
Cloud — A100 (80GB VRAM)
| Model | Bisa? | Catatan |
|---|---|---|
| Semua model | Ya | Kecepatan penuh, presisi penuh |
Kesimpulan: Kalau butuh performa maksimum atau model full-precision, sewa A100. Tersedia di Google Cloud, AWS, Lambda Labs, dan RunPod.
CPU-Only: Bisa Tapi Pelan
Tidak punya GPU? Kamu tetap bisa menjalankan Gemma 4, hanya di CPU. Ini ekspektasinya:
- E2B di CPU: ~5-10 token/detik. Masih bisa dipakai.
- E4B di CPU: ~2-5 token/detik. Bisa dipakai tapi perlu sabar.
- 26B di CPU: ~0.5-2 token/detik. Sangat lambat tapi secara teknis bisa.
- 31B di CPU: Jangan coba. Di bawah 1 token/detik di kebanyakan mesin.
Inferensi CPU kira-kira 2-10x lebih lambat dari inferensi GPU, tergantung CPU dan ukuran model. Apple Silicon menangani inferensi CPU lebih baik dari Intel/AMD karena arsitektur unified memory dan Neural Engine.
Kuantisasi: Format Mana yang Dipakai
Kalau kamu pakai Ollama, dia mengurus kuantisasi otomatis. Tapi kalau kamu mendownload file GGUF dari Hugging Face, ini yang harus dipilih:
| Format | Ukuran vs FP16 | Kualitas | Kecepatan | Kapan Dipakai |
|---|---|---|---|---|
| Q4_K_M | ~25% | 95-97% | Tercepat | Default yang direkomendasikan. Keseimbangan terbaik. |
| Q5_K_M | ~35% | 97-98% | Cepat | Kualitas sedikit lebih baik, tetap kecil |
| Q6_K | ~50% | 98-99% | Sedang | Saat kualitas lebih penting |
| Q8_0 | ~65% | 99%+ | Lebih lambat | Hampir lossless, butuh RAM lebih |
| FP16 | 100% | 100% | Paling lambat | Hanya kalau VRAM berlimpah |
Rekomendasi: Q4_K_M. Ini sweet spot yang sudah menjadi konsensus komunitas. Penurunan kualitasnya minimal dan kamu mendapat performa terbaik serta ukuran file terkecil.
Tips Memeras Performa Lebih
Untuk panduan optimasi lengkap di semua platform, lihat panduan optimasi kecepatan kami.
Tutup aplikasi lain. Terutama browser. Chrome saja bisa memakan 2-4GB RAM. Saat menjalankan model 26B+, setiap GB penting.
Kurangi panjang konteks. Kalau kena error out-of-memory, batasi context window. Kebanyakan percakapan tidak butuh 262K token. Set num_ctx ke 4096 atau 8192.
Gunakan Metal (Mac) atau CUDA (NVIDIA). Pastikan akselerasi GPU benar-benar aktif. Ollama melakukan ini otomatis, tapi kalau pakai tools lain, cek pengaturan backend.
Monitor penggunaan memori. Di Mac, gunakan Activity Monitor. Di Linux, nvidia-smi untuk memori GPU. Perhatikan penggunaan swap — kalau kena swap, performa anjlok.
Apa yang Harus Dibeli?
Kalau kamu mau belanja hardware AI, ini rekomendasi di berbagai budget:
| Budget | Rekomendasi | Bisa Jalankan |
|---|---|---|
| $0 | Pakai laptop yang ada + E4B | E2B, E4B |
| $200-400 | RTX 3060 12GB bekas | Sampai 26B (4-bit) |
| $500-800 | RTX 4060 Ti 16GB | Sampai 26B (8-bit) |
| $1,000-1,500 | RTX 4090 24GB | Sampai 31B (4-bit) |
| $2,000-4,000 | Mac Studio M2 Pro/Max 32-64GB | Semua model dengan nyaman |
| $5,000+ | Mac Studio M2 Ultra 64GB+ | Semua, tanpa kompromi |
| Bayar per pakai | Cloud A100 (~$1-2/jam) | Semua dengan kecepatan penuh |
Pilihan nilai terbaik: RTX 3060 12GB bekas. Harganya murah dan bisa menjalankan model 26B.
Pilihan Mac terbaik: MacBook Pro dengan 36GB unified memory. Menjalankan semua sampai 31B (ketat di 4-bit) dan kamu juga dapat laptop hebat untuk hal lain.
Tidak butuh lokal? Skip hardware dan gunakan API Gemma 4. Google AI Studio memberikan akses gratis tanpa kebutuhan hardware.
Flowchart Keputusan Cepat
- Punya RAM 4GB? → Bisa jalankan E2B. Lumayan.
- Punya RAM 8GB? → Jalankan E4B. Benar-benar bagus.
- Punya GPU dengan VRAM 8GB+? → Jalankan 26B di 4-bit. Ini lompatan kualitas.
- Punya VRAM 20GB+? → Jalankan 31B. AI lokal kelas atas.
- Tidak ada yang di atas? → Gunakan cloud API. Tidak ada yang salah dengan itu.
Tidak yakin ukuran model mana yang tepat untuk use case-mu? Cek panduan perbandingan model kami.
Langkah Selanjutnya
- Siap instal? Ikuti panduan setup Ollama kami
- Pilih model? Baca Gemma 4: Model Mana yang Harus Dipakai?
- Ada masalah? Cek panduan troubleshooting kami
- Mau skip setup lokal? Coba pendekatan API



