Gemma 4 E2B vs E4B: Model Kecil Mana yang Harus Dipilih?

Jajaran model kecil Gemma 4 punya dua pilihan: E2B (2 miliar parameter) dan E4B (4 miliar parameter). Keduanya dirancang untuk berjalan di perangkat keras terbatas, tapi perbedaan di antara mereka lebih besar dari sekadar selisih jumlah parameter. Berikut perbandingannya.

Apa Itu E2B dan E4B?

Keduanya adalah model dense yang ringan dan dioptimalkan untuk inferensi di perangkat. Tanpa routing MoE, tanpa expert — cuma jaringan kompak yang dirancang untuk muat di budget memori yang ketat.

E2B adalah model terkecil di keluarga Gemma 4. Dengan 2 miliar parameter, model ini dibangun untuk skenario di mana setiap megabyte RAM sangat berharga — ponsel, Raspberry Pi, perangkat IoT, dan sistem embedded.

E4B menggandakan jumlah parameter menjadi 4 miliar. Masih cukup kecil untuk dijalankan secara lokal di laptop atau ponsel yang lumayan, tapi kemampuannya melampaui ekspektasi dalam tugas penalaran, coding, dan multimodal.

Model Kecil Gemma 4:
┌──────────────────────────────────────┐
│  E2B (2B parameter)                  │
│  Ultra-kompak · Ponsel · Edge        │
│  ~250 MB RAM (CoreML) · 11 tok/s     │
├──────────────────────────────────────┤
│  E4B (4B parameter)                  │
│  Kompak · Laptop · Penggunaan harian │
│  ~1.5 GB RAM (Q4) · 35 tok/s         │
└──────────────────────────────────────┘

Perbandingan Langsung

Metrik	E2B (2B)	E4B (4B)
Parameter	2B	4B
Ukuran model (FP16)	~4 GB	~8 GB
Ukuran model (Q4_K_M)	~1.2 GB	~2.5 GB
RAM (Q4_K_M)	~1.5 GB	~3 GB
RAM (CoreML, iPhone)	~250 MB	~800 MB
Context window	8K	32K
Multimodal	Teks saja	Teks + Gambar

Perbedaan ukuran file dan RAM kira-kira 2x lipat, yang masuk akal mengingat jumlah parameter. Tapi cerita sesungguhnya ada di panjang konteks dan dukungan multimodal — E4B mendapatkan konteks 4x lipat dan bisa memproses gambar.

Perbandingan Kecepatan

E2B lebih cepat di perangkat keras yang sama, tapi E4B tetap cukup cepat untuk penggunaan interaktif:

Perangkat Keras	E2B (tok/s)	E4B (tok/s)	Speedup E2B
iPhone 15 Pro (CoreML)	~11	~5	2.2x
iPhone 16 Pro (CoreML)	~15	~7	2.1x
Raspberry Pi 5 (8GB)	~8	~4	2x
M3 MacBook Air (Q4)	~65	~35	1.9x
RTX 3060 12GB (Q4)	~120	~70	1.7x

Di iPhone dengan CoreML-LLM, E2B berjalan sekitar 11 token per detik sambil hanya menggunakan 250 MB RAM dan daya sekitar 2W. Ini benar-benar bisa dipakai untuk chat real-time di ponsel tanpa menguras baterai.

E4B sekitar setengah kecepatan di mobile, tapi di laptop atau desktop masih cukup cepat sehingga perbedaannya hampir tidak terasa dalam praktik.

Perbandingan Kualitas

Di sinilah E4B unggul secara signifikan:

Benchmark	E2B (2B)	E4B (4B)	Pemenang
MMLU	52.1	61.8	E4B (+9.7)
HumanEval	38.4	52.6	E4B (+14.2)
GSM8K	45.2	62.1	E4B (+16.9)
MATH	18.3	28.7	E4B (+10.4)
ARC-Challenge	48.9	57.3	E4B (+8.4)
Rata-rata	40.6	52.5	E4B (+11.9)

Berbeda dengan perbandingan 26B vs 31B di mana selisih kualitas hanya 1-2 poin, di sini selisihnya sangat besar — hampir 12 poin rata-rata. E4B jelas lebih pintar, terutama di matematika dan kode.

Di Mana Anda Akan Merasakan Perbedaannya

Q&A dan chat sederhana: Keduanya bisa menangani percakapan dasar. E2B kadang menghasilkan respons panjang yang kurang koheren.
Penalaran dan matematika: E4B jauh lebih baik. E2B kesulitan dengan masalah multi-langkah.
Pembuatan kode: E4B menulis snippet kode yang bisa dipakai. E2B bisa autocomplete tapi kesulitan dengan implementasi fungsi lengkap.
Multibahasa: E4B menangani bahasa Tiongkok, Jepang, Korea, dan bahasa Eropa jauh lebih baik. E2B sebagian besar hanya bisa bahasa Inggris.
Pemahaman gambar: Hanya E4B yang mendukung ini. Kalau butuh vision, pilihannya sudah jelas.

Kapan Memilih E2B

E2B adalah pilihan tepat saat Anda beroperasi di batas kemampuan perangkat keras:

Ponsel dengan RAM terbatas — iPhone lama, perangkat Android budget di mana 250 MB adalah yang bisa Anda sisihkan
Raspberry Pi dan SBC — berjalan lancar di Pi 5 dengan 4GB RAM
IoT dan embedded — perangkat smart home, asisten always-on dengan budget daya minimal
Ekstraksi kata kunci dan klasifikasi offline — saat Anda hanya butuh NLP dasar, bukan penalaran penuh
CoreML-LLM di iPhone — 11 tok/s dengan 250 MB RAM dan 2W daya itu luar biasa untuk AI di perangkat
Pemrosesan batch skala besar — saat perlu memproses jutaan item dan biaya per inferensi penting

Kalau kebutuhan Anda "merespons query sederhana di perangkat dengan RAM sangat terbatas," E2B cukup.

Kapan Memilih E4B

E4B adalah pilihan lebih baik untuk sebagian besar orang yang menginginkan model lokal kecil:

Laptop untuk penggunaan harian — cukup cepat untuk chat interaktif, cukup pintar untuk pekerjaan nyata
Ponsel yang lebih bagus — iPhone 14 Pro ke atas, Android flagship dengan RAM 6GB+
Asisten coding — benar-benar berguna untuk code completion dan generation
Tugas multimodal — image captioning, visual Q&A, pemahaman dokumen
Percakapan lebih panjang — konteks 32K vs 8K milik E2B, bisa menangani thread yang jauh lebih panjang
Penggunaan multibahasa — kalau Anda bekerja dalam bahasa selain Inggris, E4B jauh lebih baik
Edge server — cukup kecil untuk mini PC, cukup pintar untuk berguna

Untuk pembahasan lebih dalam tentang menjalankan model ini di ponsel, lihat Panduan Deployment Mobile.

Tabel Keputusan Cepat

Situasi Anda	Pilih
Ponsel dengan RAM kosong <1GB	E2B
Raspberry Pi / embedded	E2B
Always-on, daya ultra-rendah	E2B
Laptop atau desktop	E4B
Butuh pemahaman gambar	E4B
Bantuan coding	E4B
Penggunaan multibahasa	E4B
Percakapan panjang (>8K token)	E4B
Klasifikasi teks sederhana	E2B
AI lokal serbaguna	E4B

E2B dan E4B vs Model Lebih Besar

Di mana posisi model kecil ini di jajaran lengkap Gemma 4?

Model	Parameter	RAM (Q4)	Kecepatan (M3 Air)	Kualitas (rata-rata)
E2B	2B	~1.5 GB	~65 tok/s	40.6
E4B	4B	~3 GB	~35 tok/s	52.5
12B	12B	~7 GB	~20 tok/s	67.8
26B MoE	26B	~15 GB	~12 tok/s	72.4

Ada tangga kualitas yang jelas. Setiap naik satu tingkat, RAM kira-kira berlipat dua dan kecepatan berkurang setengah. Untuk gambaran lengkap, lihat Gemma 4 Model Mana yang Harus Dipilih?

Kebutuhan Perangkat Keras

Untuk rekomendasi perangkat keras detail, cek Panduan Perangkat Keras. Berikut ringkasan untuk model kecil:

Minimum Hardware E2B

iPhone: iPhone 12 atau lebih baru (CoreML)
Android: RAM 4GB+, Snapdragon 8 Gen 1+
Raspberry Pi: Pi 5 dengan RAM 4GB
PC/Mac: Apa saja dari 5 tahun terakhir

Minimum Hardware E4B

iPhone: iPhone 14 Pro atau lebih baru (CoreML)
Android: RAM 6GB+, Snapdragon 8 Gen 2+
Raspberry Pi: Pi 5 dengan RAM 8GB
PC/Mac: RAM 8GB, CPU/GPU terbaru

Langkah Selanjutnya

Mau menjalankan di ponsel? Baca Panduan Deployment Mobile untuk setup CoreML dan Android
Perlu bantuan memilih dari seluruh jajaran? Lihat Gemma 4 Model Mana yang Harus Dipilih?
Memilih perangkat keras? Cek Panduan Perangkat Keras untuk rekomendasi GPU/CPU

Untuk kebanyakan orang, E4B adalah sweet spot — cukup kecil untuk berjalan di mana saja dengan beberapa GB RAM, tapi cukup pintar untuk benar-benar berguna dalam coding, percakapan, dan tugas multimodal. Simpan E2B untuk lingkungan yang benar-benar terbatas di mana 250 MB RAM adalah semua yang Anda punya.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />