Gemma 4 hadir dalam empat varian, dan memilih yang tepat sangat berpengaruh. Jalankan yang terlalu besar dan kamu akan menatap loading spinner. Jalankan yang terlalu kecil dan kualitasnya kurang. Mari cari tahu mana yang tepat untukmu.
Empat Model Sekilas
| Model | Parameter | Param Aktif | Arsitektur | RAM Min | RAM Rekomendasi |
|---|---|---|---|---|---|
| E2B | 2B | 2B | Dense | 4 GB | 6 GB |
| E4B | 4B | 4B | Dense | 6 GB | 8 GB |
| 26B A4B | 26B | 3.8B | MoE | 8 GB | 16-18 GB |
| 31B Dense | 31B | 31B | Dense | 20 GB | 24-32 GB |
Yang perlu diperhatikan: model 26B adalah Mixture of Experts (MoE). Totalnya 26 miliar parameter, tapi hanya mengaktifkan sekitar 3.8 miliar pada satu waktu. Artinya jauh lebih efisien dari yang terlihat — kamu dapat kualitas model besar dengan kecepatan model kecil. Untuk pembahasan lebih dalam tentang arsitektur MoE, lihat perbandingan 26B vs 31B kami.
Breakdown Per Model
E2B — Si Mungil Tangguh
2 miliar parameter, ~4 GB RAM
Ini model Gemma 4 terkecil, dibuat untuk situasi dimana resource terbatas. Pikirkan HP, Raspberry Pi, perangkat embedded, atau saat kamu butuh respons super cepat tanpa perlu penalaran mendalam.
ollama run gemma4:e2bBagus untuk:
- Pembuatan teks dan ringkasan cepat
- Tanya jawab sederhana
- Tugas klasifikasi
- Jalan di HP dan perangkat edge
- Situasi dimana latensi lebih penting dari kedalaman
Keterbatasan:
- Kesulitan dengan penalaran multi-langkah yang kompleks
- Penulisan kreatif kurang bernuansa
- Bisa kehilangan konteks di percakapan panjang
E4B — Pilihan Terbaik (Direkomendasikan)
4 miliar parameter, ~6 GB RAM
Kalau kamu baca ini dan tidak tahu mana yang harus dipilih, ini mungkin yang tepat. E4B berjalan nyaman di laptop modern mana saja — Mac, Windows, Linux — dan menghasilkan kualitas yang mengejutkan untuk ukurannya.
ollama run gemma4:e4bBagus untuk:
- Chat dan tanya jawab umum
- Pembuatan dan penjelasan kode
- Penulisan dan editing konten
- Tugas multimodal (gambar + teks)
- AI lokal untuk penggunaan harian
Kenapa ini rekomendasi default:
- Jalan di hampir semua laptop yang dibuat dalam 3-4 tahun terakhir
- Cukup cepat untuk chat interaktif (mudah 20+ token/detik di Apple Silicon)
- Kualitasnya benar-benar bagus — performanya di atas kelasnya
- Penggunaan resource cukup rendah untuk berjalan bersamaan dengan aplikasi lain
26B A4B — Raja Efisiensi
26B total, hanya 3.8B aktif (arsitektur MoE), ~8-18 GB RAM
Model ini yang paling menarik di jajaran. Menggunakan Mixture of Experts — Google melatih 26 miliar parameter, tapi untuk input apapun, hanya sekitar 3.8B yang aktif. Kamu dapat pengetahuan model besar dengan kecepatan model kecil.
ollama run gemma4:26bBagus untuk:
- Penalaran dan analisis kompleks
- Tugas coding lintas bahasa pemrograman
- Pembuatan konten panjang
- Pertanyaan pengetahuan khusus
- Kualitas terbaik per FLOP di jajaran ini
Catatan:
- Meski parameter aktif kecil, tetap perlu memuat semua 26B ke memori
- Dengan kuantisasi GGUF Q4, perkirakan sekitar 8-16 GB tergantung panjang konteks
- Model MoE bisa punya kualitas output yang sedikit lebih variabel (expert berbeda aktif untuk input berbeda)
Siapa yang harus pakai ini: Kalau kamu punya mesin dengan RAM 16+ GB dan GPU yang lumayan (atau Mac Apple Silicon), ini bisa dibilang model terbaik di seluruh jajaran. Kamu dapat kualitas mendekati 31B dengan kecepatan E4B.
31B Dense — Kekuatan Maksimum
31 miliar parameter, semuanya dense, ~20 GB RAM minimum
Ini model Gemma 4 terbesar dan paling capable. Setiap token yang diproses menyentuh semua 31 miliar parameter. Tanpa shortcut, tanpa routing — hanya kemampuan mentah.
ollama run gemma4:31bBagus untuk:
- Tugas penalaran paling menantang
- Penulisan kreatif kualitas tertinggi
- Pembuatan kode dan debugging kompleks
- Riset dan analisis
- Saat kualitas adalah satu-satunya yang penting
Kebutuhan:
- Minimum 20 GB RAM (24-32 GB direkomendasikan)
- GPU dedicated sangat direkomendasikan untuk kecepatan yang acceptable
- Dengan kuantisasi Q4, file modelnya sendiri sekitar 18 GB
Kebutuhan VRAM (Pengguna GPU)
Kalau kamu menjalankan di GPU, ini yang dibutuhkan. Untuk breakdown lengkap per mesin spesifik (MacBook, PC gaming, cloud), lihat panduan kebutuhan hardware kami.
| Model | Q4_K_M | Q5_K_M | Q8_0 | FP16 |
|---|---|---|---|---|
| E2B | ~1.5 GB | ~1.8 GB | ~2.5 GB | ~4 GB |
| E4B | ~3 GB | ~3.5 GB | ~5 GB | ~8 GB |
| 26B A4B | ~8 GB | ~10 GB | ~14 GB | ~52 GB |
| 31B Dense | ~18 GB | ~21 GB | ~30 GB | ~62 GB |
Tips: Kuantisasi Q4_K_M adalah sweet spot untuk kebanyakan orang. Kamu kehilangan sangat sedikit kualitas dibanding full precision, dan penghematan memorinya masif.
Hati-hati dengan KV Cache
Ini yang sering membuat orang bingung: model weights bukan satu-satunya yang memakan memori. KV cache — yang menyimpan konteks dari percakapanmu — bisa menjadi besar, terutama dengan context window masif milik Gemma 4.
Laporan komunitas pada model 31B menunjukkan bahwa dengan context window 262K, KV cache saja bisa memakan ~22 GB memori tambahan. Itu di atas model weights.
Saran praktis:
- Kalau kamu mengalami masalah memori, coba kurangi panjang konteks:
# Di Ollama, set context window lebih kecil ollama run gemma4:31b --ctx-size 8192 - Untuk model 26B dan 31B, pertimbangkan untuk mengaktifkan kuantisasi KV cache (Q8 atau Q4) untuk memangkas penggunaan memori secara signifikan
- Model E2B dan E4B jauh lebih reasonable — KV cache mereka tetap manageable bahkan di konteks lebih panjang
Pohon Keputusan: Hardware Apa yang Kamu Punya?
"Saya punya HP atau Raspberry Pi" → E2B. Hanya itu yang muat.
"Saya punya laptop dengan RAM 8 GB" → E4B. Jalan dengan baik dan masih ada ruang untuk aplikasi lain.
"Saya punya laptop/desktop dengan RAM 16 GB" → E4B untuk kecepatan, atau 26B (terkuantisasi) kalau mau kualitas lebih baik dan bisa menunggu sedikit lebih lama.
"Saya punya RAM 24+ GB atau GPU dengan VRAM 8+ GB" → 26B adalah sweet spot. Serius, ini luar biasa bagus untuk biaya komputasinya.
"Saya punya workstation dengan VRAM 24+ GB" → 31B Dense untuk kualitas maksimum. Kamu punya tenaganya, gunakan.
"Saya mau pakai di server/cloud" → 26B atau 31B, tergantung budget dan kebutuhan latensi.
Perbandingan Benchmark
Begini performa model-model ini di benchmark umum:
| Benchmark | E2B | E4B | 26B A4B | 31B Dense |
|---|---|---|---|---|
| MMLU | Baik | Lebih Baik | Tier Terbaik | Terbaik |
| HumanEval (Kode) | Lumayan | Baik | Sangat Baik | Excellent |
| GSM8K (Matematika) | Dasar | Baik | Kuat | Terkuat |
| Multimodal (Penglihatan) | Dasar | Baik | Kuat | Terbaik |
| Kecepatan (tok/s di M3) | ~60 | ~35 | ~25 | ~8 |
Model 26B MoE adalah yang menonjol — skornya mendekati kualitas 31B sambil berjalan hampir 3x lebih cepat. Arsitektur MoE benar-benar terbayar.
Kuantisasi: Yang Mana?
Kalau kamu mendownload file GGUF dari Hugging Face, kamu akan melihat opsi seperti Q4_K_M, Q5_K_M, Q8_0, dll. Ini artinya:
| Kuantisasi | Penurunan Kualitas | Pengurangan Ukuran | Rekomendasi |
|---|---|---|---|
| Q4_K_M | Minimal | ~75% lebih kecil | Pilihan default terbaik |
| Q5_K_M | Sangat kecil | ~65% lebih kecil | Bagus kalau ada ruang |
| Q8_0 | Hampir nol | ~50% lebih kecil | Fokus kualitas |
| FP16 | Tidak ada | Ukuran penuh | Hanya untuk fine-tuning |
Rekomendasi: Mulai dengan Q4_K_M. Kalau kamu menemukan masalah kualitas di use case spesifikmu, naik ke Q5_K_M. Kebanyakan orang benar-benar tidak bisa membedakannya.
Untuk bantuan mendownload model, buka panduan download lengkap kami.
Langkah Selanjutnya
- Siap download? → Panduan Download Gemma 4 (Semua Metode)
- Cek hardware → Kebutuhan Hardware Gemma 4
- Ada masalah? → Troubleshooting Gemma 4
- Mau bandingkan dengan model lain? → Gemma 4 vs Llama 4 atau Gemma 4 vs Qwen 3



