Gemma 4 memberimu dua pilihan di kelas atas: model 26B Mixture of Experts (MoE) dan model 31B Dense. Mereka sangat berbeda dalam cara kerjanya, dan pilihan yang tepat tergantung apa yang kamu optimalkan. Mari kita bahas.
MoE Dijelaskan Sederhana
Model 26B MoE punya 26 miliar total parameter, tapi triknya — dia tidak menggunakan semuanya sekaligus. Sebaliknya, dia punya banyak sub-jaringan "ahli", dan mekanisme routing memilih ahli mana yang diaktifkan untuk setiap token. Hanya sekitar 3.8 miliar parameter yang aktif saat satu kali forward pass.
Pikirkan seperti rumah sakit dengan 20 spesialis. Saat pasien datang, mereka tidak menemui semua 20 dokter — mereka diarahkan ke 2-3 spesialis yang relevan. Rumah sakit punya pengetahuan 20 dokter, tapi setiap kunjungan hanya menggunakan sebagian staf.
Arsitektur MoE 26B:
┌─────────────────────────────┐
│ Router: "Ahli mana?" │
├──────┬──────┬──────┬───────┤
│ Ahli1│ Ahli2│ Ahli3│ ... │ ← 26B total parameter
├──────┴──────┴──────┴───────┤
│ Hanya ~3.8B aktif/token │ ← Biaya komputasi sebenarnya
└─────────────────────────────┘Dense Dijelaskan
Model 31B Dense itu straightforward — semua 31 miliar parameter aktif untuk setiap token. Tanpa routing, tanpa ahli, hanya satu jaringan besar yang bekerja penuh setiap saat.
Arsitektur Dense 31B:
┌─────────────────────────────┐
│ Semua 31B parameter aktif │ ← Setiap token menggunakan semua
│ untuk setiap token │
└─────────────────────────────┘Perbandingan Langsung
| Metrik | 26B MoE | 31B Dense |
|---|---|---|
| Total parameter | 26B | 31B |
| Parameter aktif | ~3.8B | 31B |
| VRAM (FP16) | ~52 GB | ~62 GB |
| VRAM (Q4_K_M) | ~15 GB | ~18 GB |
| Kecepatan (tok/s, RTX 4090) | ~45 | ~18 |
| Kecepatan (tok/s, M3 Max 36GB) | ~25 | ~10 |
Perbandingan Benchmark
| Benchmark | 26B MoE | 31B Dense | Pemenang |
|---|---|---|---|
| MMLU | 79.5 | 81.3 | Dense (+1.8) |
| HumanEval | 75.2 | 77.1 | Dense (+1.9) |
| GSM8K | 87.0 | 88.9 | Dense (+1.9) |
| MATH | 52.1 | 54.8 | Dense (+2.7) |
| ARC-Challenge | 68.3 | 69.1 | Dense (+0.8) |
| Rata-rata | 72.4 | 74.2 | Dense (+1.8 avg) |
Model Dense menang di kualitas mentah secara keseluruhan, tapi marginnya kecil — biasanya 1-3 poin. Pertanyaannya apakah keunggulan kualitas kecil itu membenarkan perbedaan kecepatan yang masif.
Perbandingan Kecepatan
Di sini MoE bersinar. Karena hanya 3.8B parameter yang aktif per token, kecepatan inferensi jauh lebih cepat:
| Hardware | 26B MoE Q4 (tok/s) | 31B Dense Q4 (tok/s) | Percepatan MoE |
|---|---|---|---|
| RTX 4090 24GB | ~45 | ~18 | 2.5x lebih cepat |
| RTX 3090 24GB | ~30 | ~12 | 2.5x lebih cepat |
| M3 Max 36GB | ~25 | ~10 | 2.5x lebih cepat |
| M4 Max 48GB | ~32 | ~14 | 2.3x lebih cepat |
Model MoE konsisten 2-2.5x lebih cepat. Untuk use case interaktif dimana kamu menunggu respons, perbedaan ini sangat besar.
Perbandingan VRAM
Ini catatan tentang MoE — meskipun hanya 3.8B parameter yang aktif, semua 26B perlu dimuat ke memori:
| Format | 26B MoE | 31B Dense | Selisih |
|---|---|---|---|
| FP16 | ~52 GB | ~62 GB | MoE hemat ~10 GB |
| Q8_0 | ~28 GB | ~33 GB | MoE hemat ~5 GB |
| Q5_K_M | ~19 GB | ~22 GB | MoE hemat ~3 GB |
| Q4_K_M | ~15 GB | ~18 GB | MoE hemat ~3 GB |
MoE menggunakan VRAM lebih sedikit dari Dense di setiap level kuantisasi, tapi penghematannya tidak sedramatis perbedaan kecepatan.
Rekomendasi Use Case
Pilih 26B MoE Saat:
- Chat interaktif dan asistensi coding — keunggulan kecepatan 2.5x membuat percakapan terasa natural
- Serving API dengan banyak pengguna — inferensi lebih cepat berarti throughput lebih tinggi dan biaya lebih rendah per query
- Hardware jadi bottleneck — muat di VRAM sedikit lebih kecil dan jalan jauh lebih cepat
- Kualitas "cukup baik" — untuk kebanyakan tugas praktis, perbedaan benchmark 1-2 poin tidak terasa
- Kamu pakai hardware konsumer — Q4 MoE di GPU 16GB benar-benar usable
Pilih 31B Dense Saat:
- Fine-tuning — model Dense lebih straightforward untuk fine-tune dibanding MoE
- Kualitas maksimum di tugas sulit — saat butuh setiap poin terakhir di matematika, penalaran, atau coding
- Batch processing — kalau memproses offline dan tidak peduli kecepatan per token
- Riset dan evaluasi — saat butuh baseline terbaik absolut
- Deployment sederhana — model Dense punya dukungan framework lebih luas dan lebih sedikit edge case
Tabel Keputusan Cepat
| Prioritasmu | Pilih |
|---|---|
| Kecepatan | 26B MoE |
| Kualitas | 31B Dense |
| Efisiensi biaya | 26B MoE |
| Fine-tuning | 31B Dense |
| Penggunaan interaktif | 26B MoE |
| Batch processing offline | 31B Dense |
Dukungan Framework
Tidak semua framework menangani model MoE dengan baik:
| Framework | Dukungan MoE | Dukungan Dense |
|---|---|---|
| Ollama | Ya | Ya |
| llama.cpp | Ya | Ya |
| vLLM | Ya | Ya |
| SGLang | Ya | Ya |
| LM Studio | Sebagian | Ya |
| TensorRT-LLM | Ya | Ya |
| transformers | Ya | Ya |
Dukungan MoE sudah matang secara signifikan, tapi kalau kamu mengalami masalah dengan framework tertentu, Dense adalah pilihan yang lebih aman.
Langkah Selanjutnya
- Masih bingung pilih ukuran model? Baca Model Gemma 4 Mana yang Harus Dipilih? untuk jajaran lengkap termasuk model lebih kecil
- Mau pahami opsi kuantisasi? Cek Panduan GGUF untuk perbandingan Q4/Q5/Q8
- Siap jalankan salah satunya? Ikuti tutorial Ollama untuk mulai dalam hitungan menit
Untuk kebanyakan orang, 26B MoE adalah pilihan yang lebih baik. 2.5x lebih cepat dengan trade-off kualitas yang sangat kecil. Simpan 31B Dense untuk fine-tuning atau saat benar-benar butuh kualitas maksimum dan bisa menunggu respons.



