0% read

Arsitektur Gemma 4 Dijelaskan: MoE, Dense, dan Mengapa Itu Penting

Apr 7, 2026

Kamu tidak butuh PhD untuk memahami cara kerja Gemma 4. Tapi mengetahui dasar-dasar arsitekturnya akan membantumu memilih model yang tepat, memahami mengapa cepat (atau lambat) di hardware-mu, dan mendapatkan hasil lebih baik darinya.

Mari kita uraikan tanpa jargon akademis.

Fondasi Transformer (Versi 30-Detik)

Setiap model bahasa modern, termasuk Gemma 4, dibangun di atas arsitektur Transformer. Berikut yang perlu kamu tahu:

  1. Teks masuk sebagai token (potongan kata)
  2. Lapisan attention mencari tahu token mana yang terkait satu sama lain
  3. Lapisan feed-forward memproses hubungan tersebut
  4. Teks keluar satu token setiap kali

Gemma 4 menumpuk puluhan lapisan ini satu di atas lainnya. Semakin banyak lapisan dan semakin lebar, semakin pintar model — tapi juga semakin besar dan lambat.

Dense vs. MoE: Dua Arsitektur

Gemma 4 hadir dalam dua rasa, dan ini hal paling penting untuk dipahami tentang jajaran modelnya.

Model Dense (E2B, E4B)

Dalam model Dense, setiap parameter digunakan untuk setiap token. Jika model punya 4 miliar parameter, semua 4 miliar aktif untuk setiap kata yang dihasilkan.

Bayangkan seperti tim kecil di mana semua orang bekerja pada setiap tugas:

  • Performa sederhana dan dapat diprediksi
  • Semua parameter berkontribusi pada setiap respons
  • Ukuran total lebih kecil, mudah dijalankan

Model MoE (26B, 31B)

MoE singkatan dari Mixture of Experts. Wawasan utamanya: kamu tidak butuh setiap parameter untuk setiap token. Sebaliknya, model punya kumpulan "ahli" terspesialisasi, dan router memutuskan mana yang diaktifkan untuk setiap token.

Berikut tampilannya dalam praktek:

Token Input → Router → pilih 2 dari 16 ahli → Output

Total parameter:     26 miliar
Aktif per token:     ~3.8 miliar (model 26B)

Seperti rumah sakit dengan spesialis. Saat kamu masuk dengan lengan patah, kamu tidak butuh setiap dokter — kamu butuh ahli bedah ortopedi dan mungkin radiolog. Meja resepsionis (router) mengirimmu ke ahli yang tepat.

Mengapa Model 26B Hanya Menggunakan 3.8B Parameter Aktif

Ini senjata rahasia Gemma 4. Model 26B MoE punya 26 miliar total parameter, tapi hanya sekitar 3.8 miliar yang aktif untuk token tertentu. Itu berarti:

Metrik26B MoEDense Setara
Total parameter26B26B
Aktif per token~3.8B26B
KecepatanCepat (seperti model 4B)Lambat (7x komputasi lebih)
KualitasMendekati level 26B DenseKualitas 26B penuh
VRAM dibutuhkanKurang dari yang didugaJauh lebih banyak

Kamu mendapat pengetahuan model 26B dengan kecepatan model ~4B. Inilah mengapa MoE begitu penting — memecah trade-off tradisional antara kualitas dan kecepatan.

Untuk perbandingan praktis model mana yang harus dipilih, cek panduan pemilihan model kami.

Cara Kerja Router

Router adalah jaringan neural kecil yang duduk di awal setiap lapisan MoE. Untuk setiap token yang masuk, ia:

  1. Melihat representasi token
  2. Memberi skor setiap ahli (seberapa relevan ahli ini untuk token ini?)
  3. Memilih top-K ahli (biasanya 2)
  4. Menggabungkan output mereka menggunakan skor sebagai bobot

Router belajar selama pelatihan ahli mana yang bagus untuk apa. Seiring waktu, ahli berbeda terspesialisasi — ada yang jago di kode, ada di penalaran, ada di penulisan kreatif. Router mencari tahu campuran yang tepat secara real-time.

Load balancing sangat penting dalam pelatihan MoE. Jika satu ahli mendapat semua token (router "collapse"), kamu membuang ahli lainnya. Gemma 4 menggunakan fungsi auxiliary loss untuk menjaga beban seimbang di antara ahli.

Mekanisme Attention

Gemma 4 menggunakan Grouped Query Attention (GQA), yang merupakan jalan tengah antara multi-head attention asli (mahal tapi kualitas tinggi) dan multi-query attention (murah tapi kualitas lebih rendah).

Dalam GQA:

  • Query heads dikelompokkan bersama
  • Setiap grup berbagi satu set key-value heads
  • Ini mengurangi memori untuk KV cache tanpa banyak merusak kualitas

Mengapa ini penting untukmu: KV cache adalah yang tumbuh saat menggunakan konteks panjang. GQA membuatnya terkelola, sehingga Gemma 4 bisa menangani input sangat panjang tanpa meledakkan VRAM-mu.

Jendela Konteks 256K

Gemma 4 mendukung hingga 256K token konteks — sekitar 200.000 kata atau buku 400 halaman. Berikut cara kerjanya:

RoPE (Rotary Position Embeddings): Alih-alih ID posisi tetap yang maksimal pada panjang tertentu, RoPE mengkodekan posisi sebagai rotasi. Ini naik skala secara alami ke urutan lebih panjang dan lebih baik dalam generalisasi ke panjang yang belum banyak dilihat model selama pelatihan.

Panjang konteks praktis:

Panjang KonteksKurang Lebih SetaraDampak VRAM
8K tokenDokumen 10-15 halamanBaseline
32K tokenDokumen 50 halaman~2x baseline
128K tokenSeluruh codebase~4x baseline
256K tokenSeluruh buku~8x baseline

Catatan penting: Hanya karena model mendukung 256K tidak berarti kamu harus selalu menggunakannya. KV cache tumbuh linear dengan panjang konteks, dan komputasi attention tumbuh kuadratik. Untuk sebagian besar tugas, 8K-32K sudah cukup. Simpan konteks panjang untuk saat kamu benar-benar membutuhkannya — seperti menganalisis seluruh codebase atau kontrak hukum lengkap.

Mengapa Gemma 4 Efisien Per-Parameter

Beberapa pilihan arsitektur membuat Gemma 4 melampaui ukurannya:

  1. Routing MoE: Hanya 15-20% parameter aktif per token
  2. GQA: Memori KV cache berkurang
  3. Aktivasi SwiGLU: Aliran informasi lebih baik di lapisan feed-forward
  4. RMSNorm: Normalisasi lebih cepat daripada LayerNorm
  5. Tokenizer teroptimasi: Vocabulary 256K mencakup lebih banyak bahasa secara efisien

Hasilnya: model 26B MoE sering menyamai atau mengalahkan model Dense dengan 2-3x lebih banyak parameter aktif di benchmark standar.

Ringkasan Arsitektur

FiturE2BE4B26B31B
TipeDenseDenseMoEMoE
Total Param~2B~4B~26B~31B
Param Aktif~2B~4B~3.8B~4.5B
AhliN/AN/A16 (top-2)16 (top-2)
AttentionGQAGQAGQAGQA
Konteks Maks256K256K256K256K
Terbaik UntukPerangkat edgeLaptopKebanyakan userKualitas maks

Apa Artinya Ini Untukmu

  • Memilih model: Jika kamu bimbang antara 26B MoE dan model Dense dengan total ukuran serupa, MoE akan lebih cepat dengan kualitas sebanding. Lihat perbandingan arsitektur dengan Llama 4 kami.
  • Memperkirakan VRAM: Model MoE butuh VRAM untuk semua parameter (semua ada di memori), tapi komputasi naik skala dengan parameter aktif. Cek panduan hardware kami.
  • Tugas konteks panjang: Mulai dengan konteks lebih pendek dan hanya perluas saat dibutuhkan. VRAM-mu akan berterima kasih.
  • Fine-tuning: Model MoE bisa di-fine-tune dengan LoRA, menargetkan lapisan attention dan/atau lapisan ahli.

Langkah Selanjutnya

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Arsitektur Gemma 4 Dijelaskan: MoE, Dense, dan Mengapa Itu Penting | Blog