Arsitektur Gemma 4 Dijelaskan: MoE, Dense, dan Mengapa Itu Penting

Kamu tidak butuh PhD untuk memahami cara kerja Gemma 4. Tapi mengetahui dasar-dasar arsitekturnya akan membantumu memilih model yang tepat, memahami mengapa cepat (atau lambat) di hardware-mu, dan mendapatkan hasil lebih baik darinya.

Mari kita uraikan tanpa jargon akademis.

Fondasi Transformer (Versi 30-Detik)

Setiap model bahasa modern, termasuk Gemma 4, dibangun di atas arsitektur Transformer. Berikut yang perlu kamu tahu:

Teks masuk sebagai token (potongan kata)
Lapisan attention mencari tahu token mana yang terkait satu sama lain
Lapisan feed-forward memproses hubungan tersebut
Teks keluar satu token setiap kali

Gemma 4 menumpuk puluhan lapisan ini satu di atas lainnya. Semakin banyak lapisan dan semakin lebar, semakin pintar model — tapi juga semakin besar dan lambat.

Dense vs. MoE: Dua Arsitektur

Gemma 4 hadir dalam dua rasa, dan ini hal paling penting untuk dipahami tentang jajaran modelnya.

Model Dense (E2B, E4B)

Dalam model Dense, setiap parameter digunakan untuk setiap token. Jika model punya 4 miliar parameter, semua 4 miliar aktif untuk setiap kata yang dihasilkan.

Bayangkan seperti tim kecil di mana semua orang bekerja pada setiap tugas:

Performa sederhana dan dapat diprediksi
Semua parameter berkontribusi pada setiap respons
Ukuran total lebih kecil, mudah dijalankan

Model MoE (26B, 31B)

MoE singkatan dari Mixture of Experts. Wawasan utamanya: kamu tidak butuh setiap parameter untuk setiap token. Sebaliknya, model punya kumpulan "ahli" terspesialisasi, dan router memutuskan mana yang diaktifkan untuk setiap token.

Berikut tampilannya dalam praktek:

Token Input → Router → pilih 2 dari 16 ahli → Output

Total parameter:     26 miliar
Aktif per token:     ~3.8 miliar (model 26B)

Seperti rumah sakit dengan spesialis. Saat kamu masuk dengan lengan patah, kamu tidak butuh setiap dokter — kamu butuh ahli bedah ortopedi dan mungkin radiolog. Meja resepsionis (router) mengirimmu ke ahli yang tepat.

Mengapa Model 26B Hanya Menggunakan 3.8B Parameter Aktif

Ini senjata rahasia Gemma 4. Model 26B MoE punya 26 miliar total parameter, tapi hanya sekitar 3.8 miliar yang aktif untuk token tertentu. Itu berarti:

Metrik	26B MoE	Dense Setara
Total parameter	26B	26B
Aktif per token	~3.8B	26B
Kecepatan	Cepat (seperti model 4B)	Lambat (7x komputasi lebih)
Kualitas	Mendekati level 26B Dense	Kualitas 26B penuh
VRAM dibutuhkan	Kurang dari yang diduga	Jauh lebih banyak

Kamu mendapat pengetahuan model 26B dengan kecepatan model ~4B. Inilah mengapa MoE begitu penting — memecah trade-off tradisional antara kualitas dan kecepatan.

Untuk perbandingan praktis model mana yang harus dipilih, cek panduan pemilihan model kami.

Cara Kerja Router

Router adalah jaringan neural kecil yang duduk di awal setiap lapisan MoE. Untuk setiap token yang masuk, ia:

Melihat representasi token
Memberi skor setiap ahli (seberapa relevan ahli ini untuk token ini?)
Memilih top-K ahli (biasanya 2)
Menggabungkan output mereka menggunakan skor sebagai bobot

Router belajar selama pelatihan ahli mana yang bagus untuk apa. Seiring waktu, ahli berbeda terspesialisasi — ada yang jago di kode, ada di penalaran, ada di penulisan kreatif. Router mencari tahu campuran yang tepat secara real-time.

Load balancing sangat penting dalam pelatihan MoE. Jika satu ahli mendapat semua token (router "collapse"), kamu membuang ahli lainnya. Gemma 4 menggunakan fungsi auxiliary loss untuk menjaga beban seimbang di antara ahli.

Mekanisme Attention

Gemma 4 menggunakan Grouped Query Attention (GQA), yang merupakan jalan tengah antara multi-head attention asli (mahal tapi kualitas tinggi) dan multi-query attention (murah tapi kualitas lebih rendah).

Dalam GQA:

Query heads dikelompokkan bersama
Setiap grup berbagi satu set key-value heads
Ini mengurangi memori untuk KV cache tanpa banyak merusak kualitas

Mengapa ini penting untukmu: KV cache adalah yang tumbuh saat menggunakan konteks panjang. GQA membuatnya terkelola, sehingga Gemma 4 bisa menangani input sangat panjang tanpa meledakkan VRAM-mu.

Jendela Konteks 256K

Gemma 4 mendukung hingga 256K token konteks — sekitar 200.000 kata atau buku 400 halaman. Berikut cara kerjanya:

RoPE (Rotary Position Embeddings): Alih-alih ID posisi tetap yang maksimal pada panjang tertentu, RoPE mengkodekan posisi sebagai rotasi. Ini naik skala secara alami ke urutan lebih panjang dan lebih baik dalam generalisasi ke panjang yang belum banyak dilihat model selama pelatihan.

Panjang konteks praktis:

Panjang Konteks	Kurang Lebih Setara	Dampak VRAM
8K token	Dokumen 10-15 halaman	Baseline
32K token	Dokumen 50 halaman	~2x baseline
128K token	Seluruh codebase	~4x baseline
256K token	Seluruh buku	~8x baseline

Catatan penting: Hanya karena model mendukung 256K tidak berarti kamu harus selalu menggunakannya. KV cache tumbuh linear dengan panjang konteks, dan komputasi attention tumbuh kuadratik. Untuk sebagian besar tugas, 8K-32K sudah cukup. Simpan konteks panjang untuk saat kamu benar-benar membutuhkannya — seperti menganalisis seluruh codebase atau kontrak hukum lengkap.

Mengapa Gemma 4 Efisien Per-Parameter

Beberapa pilihan arsitektur membuat Gemma 4 melampaui ukurannya:

Routing MoE: Hanya 15-20% parameter aktif per token
GQA: Memori KV cache berkurang
Aktivasi SwiGLU: Aliran informasi lebih baik di lapisan feed-forward
RMSNorm: Normalisasi lebih cepat daripada LayerNorm
Tokenizer teroptimasi: Vocabulary 256K mencakup lebih banyak bahasa secara efisien

Hasilnya: model 26B MoE sering menyamai atau mengalahkan model Dense dengan 2-3x lebih banyak parameter aktif di benchmark standar.

Ringkasan Arsitektur

Fitur	E2B	E4B	26B	31B
Tipe	Dense	Dense	MoE	MoE
Total Param	~2B	~4B	~26B	~31B
Param Aktif	~2B	~4B	~3.8B	~4.5B
Ahli	N/A	N/A	16 (top-2)	16 (top-2)
Attention	GQA	GQA	GQA	GQA
Konteks Maks	256K	256K	256K	256K
Terbaik Untuk	Perangkat edge	Laptop	Kebanyakan user	Kualitas maks

Apa Artinya Ini Untukmu

Memilih model: Jika kamu bimbang antara 26B MoE dan model Dense dengan total ukuran serupa, MoE akan lebih cepat dengan kualitas sebanding. Lihat perbandingan arsitektur dengan Llama 4 kami.
Memperkirakan VRAM: Model MoE butuh VRAM untuk semua parameter (semua ada di memori), tapi komputasi naik skala dengan parameter aktif. Cek panduan hardware kami.
Tugas konteks panjang: Mulai dengan konteks lebih pendek dan hanya perluas saat dibutuhkan. VRAM-mu akan berterima kasih.
Fine-tuning: Model MoE bisa di-fine-tune dengan LoRA, menargetkan lapisan attention dan/atau lapisan ahli.