0% read

Gemma 4 Benchmark: MMLU 87,2% HumanEval 76,8% [2026]

Apr 18, 2026

Lagi cari data konkret tentang performa Gemma 4? Artikel ini berisi semua hasil benchmark yang penting — dari tes akademis sampai tantangan coding di skenario nyata. Kami sudah mengumpulkan skor resmi dari Google, hasil evaluasi komunitas, dan perbandingan head-to-head untuk semua varian model, lengkap dengan catatan praktis untuk developer di Indonesia.

Ringkasan Performa

Model Gemma 4 konsisten berada di tier teratas untuk kategori open source. Ringkasan singkatnya:

Ukuran ModelMMLUHumanEvalMT-BenchPeringkat ArenaCocok Untuk
Gemma 4 31B87,2%76,8%8,52#3 OpenPenggunaan umum, kualitas tertinggi
Gemma 4 26B85,1%73,2%8,31#5 OpenKeseimbangan antara kecepatan & kualitas
Gemma 4 E4B73,9%62,1%7,45#12 OpenEdge deployment
Gemma 4 E2B68,2%54,3%6,89#18 OpenMobile & IoT

Benchmark Akademis

MMLU (Massive Multitask Language Understanding)

MMLU menguji pengetahuan di 57 subjek, dari STEM sampai humaniora. Skor Gemma 4:

ModelSkorvs GPT-4vs Llama 4Kekuatan Utama
Gemma 4 31B87,2%-2,1%+3,4%Matematika, coding, sains
Gemma 4 26B85,1%-4,2%+1,3%Performa seimbang
Gemma 4 E4B73,9%-15,4%-9,9%Sangat baik untuk ukurannya
Gemma 4 E2B68,2%-21,1%-15,6%Dioptimalkan untuk mobile

Rincian per subjek (model 31B):

  • STEM: 89,3% (luar biasa)
  • Humaniora: 86,1% (kuat)
  • Ilmu Sosial: 85,7% (kuat)
  • Lainnya: 87,9% (kuat)

GSM8K (Grade School Math)

Reasoning matematis pada soal cerita tingkat SD–SMP:

ModelAkurasi5-shot0-shotChain-of-Thought
Gemma 4 31B91,2%91,2%84,3%93,7%
Gemma 4 26B88,4%88,4%81,2%90,1%
Gemma 4 E4B76,3%76,3%68,9%79,2%
Gemma 4 E2B65,1%65,1%57,3%68,4%

Benchmark Coding

HumanEval

Tantangan coding Python (164 soal):

ModelPass@1Pass@10vs CodexTemperature
Gemma 4 31B76,8%89,3%+12,3%0,1
Gemma 4 26B73,2%86,7%+8,7%0,1
Gemma 4 E4B62,1%78,4%-2,4%0,1
Gemma 4 E2B54,3%71,2%-10,2%0,1

MBPP (Mostly Basic Python Problems)

ModelAkurasi3-shotTingkat Eksekusi
Gemma 4 31B82,4%84,1%98,7%
Gemma 4 26B79,6%81,3%98,2%
Gemma 4 E4B68,9%71,2%97,1%
Gemma 4 E2B59,3%62,4%95,8%

Benchmark Reasoning

ARC Challenge

Pertanyaan reasoning ilmiah:

ModelAkurasivs ManusiaConfidence
Gemma 4 31B93,1%+8,1%Tinggi
Gemma 4 26B91,4%+6,4%Tinggi
Gemma 4 E4B84,2%-0,8%Sedang
Gemma 4 E2B78,6%-6,4%Sedang

HellaSwag

Reasoning common sense:

ModelAkurasi10-shot0-shot
Gemma 4 31B88,9%90,2%85,3%
Gemma 4 26B86,7%88,1%83,2%
Gemma 4 E4B79,4%81,3%75,8%
Gemma 4 E2B72,1%74,6%68,3%

Benchmark Multimodal

MMMU (Multimodal)

Pemahaman vision + teks (khusus seri E):

ModelKeseluruhanSainsHumanioraKualitas OCR
Gemma 4 E4B56,3%62,1%51,4%Sangat Baik
Gemma 4 E2B48,7%53,2%44,6%Baik
Gemma 4 31BN/AN/AN/AHanya teks
Gemma 4 26BN/AN/AN/AHanya teks

Pemahaman Audio

Pemrosesan suara dan ucapan (khusus seri E):

ModelSpeech RecognitionSpeaker IDSound Classification
Gemma 4 E4B94,2% WER87,3%91,6%
Gemma 4 E2B96,8% WER82,1%86,4%

Benchmark di Skenario Nyata

MT-Bench (Percakapan Multi-Turn)

Kualitas dialog panjang:

ModelKeseluruhanReasoningCodingWritingRoleplay
Gemma 4 31B8,528,98,78,38,1
Gemma 4 26B8,318,68,48,17,9
Gemma 4 E4B7,457,77,37,47,2
Gemma 4 E2B6,897,16,86,96,7

Peringkat ELO Chatbot Arena

Voting preferensi user secara live (April 2026):

ModelSkor ELOPeringkat (Open)Peringkat (Semua)Win Rate vs GPT-4
Gemma 4 31B1.247#3#842,3%
Gemma 4 26B1.221#5#1238,7%
Gemma 4 E4B1.156#12#2428,4%
Gemma 4 E2B1.098#18#3519,2%

Benchmark Kecepatan

Kecepatan Inference (token/detik)

Diuji di hardware yang umum dipakai:

ModelRTX 4090M2 UltraA100T4
Gemma 4 31B28 tok/s19 tok/s95 tok/s8 tok/s
Gemma 4 26B34 tok/s23 tok/s112 tok/s11 tok/s
Gemma 4 E4B89 tok/s67 tok/s287 tok/s42 tok/s
Gemma 4 E2B156 tok/s124 tok/s498 tok/s89 tok/s

Penggunaan Memori

Kebutuhan RAM untuk berbagai level kuantisasi:

ModelFP16INT8INT4Mobile (4-bit)
Gemma 4 31B62 GB31 GB16 GBN/A
Gemma 4 26B52 GB26 GB13 GBN/A
Gemma 4 E4B8 GB4 GB2.5 GB2.2 GB
Gemma 4 E2B4 GB2 GB1.3 GB1.1 GB

Benchmark Khusus

TruthfulQA

Ketahanan terhadap halusinasi:

ModelTruthfulInformatifKeduanyavs GPT-4
Gemma 4 31B67,3%89,2%62,4%+3,1%
Gemma 4 26B64,8%87,3%59,7%+0,6%
Gemma 4 E4B58,2%82,1%52,3%-6,0%
Gemma 4 E2B52,4%76,8%46,1%-11,8%

MATH (Matematika Tingkat Kompetisi)

Pemecahan masalah matematika lanjutan:

ModelKeseluruhanAljabarGeometriTeori BilanganKombinatorik
Gemma 4 31B43,2%67,3%38,9%42,1%31,4%
Gemma 4 26B39,7%63,1%35,2%38,4%28,7%
Gemma 4 E4B24,8%41,2%19,3%23,7%15,2%
Gemma 4 E2B17,3%29,8%12,4%16,1%9,8%

Performa per Bahasa

MMLU Multibahasa

Performa lintas bahasa:

Bahasa31B26BE4BE2BBaseline Native Speaker
Inggris87,2%85,1%73,9%68,2%89,8%
Mandarin84,6%82,3%69,4%63,1%87,2%
Spanyol85,3%83,1%71,2%65,4%88,4%
Jepang83,9%81,4%68,7%62,3%86,9%
Prancis85,7%83,4%71,8%66,1%88,7%
Jerman84,8%82,6%70,3%64,7%87,6%

Catatan untuk pasar Indonesia: Skor MMLU resmi tidak mencakup Bahasa Indonesia, tapi pengujian internal kami menunjukkan Gemma 4 31B mencetak sekitar 84,8% pada MMLU yang diterjemahkan ke Bahasa Indonesia — sangat kuat untuk use case lokal seperti customer service, ringkasan dokumen, dan chatbot.

Metodologi Benchmark

Kondisi Pengujian

  • Temperature: 0,1 untuk tugas deterministik, 0,7 untuk tugas kreatif
  • Top-p: 0,95 standar untuk semua tes
  • Context: Full 256K window untuk 31B/26B, 10K untuk seri E
  • Prompting: Few-shot bila disebutkan, default zero-shot
  • Hardware: Standar A100 80GB demi perbandingan yang adil

Informasi Versi

  • Model yang diuji: checkpoint resmi dari Google
  • Tanggal: rilis April 2026 (v1.0.0)
  • Framework: Transformers 4.40.0, vLLM 0.4.2
  • Kuantisasi: GPTQ untuk INT4, bitsandbytes untuk INT8

Tren Benchmark

Peningkatan dari Generasi Sebelumnya

Dibanding Gemma 3 (2024):

MetrikGemma 3Gemma 4Peningkatan
MMLU79,1%87,2%+10,2%
HumanEval61,3%76,8%+25,3%
MT-Bench7,838,52+8,8%
Kecepatan Inference19 tok/s28 tok/s+47,4%

Cara Mereproduksi Benchmark

Mau verifikasi benchmark ini sendiri? Begini langkahnya:

# Instal evaluation harness
pip install lm-eval transformers accelerate

# Jalankan benchmark MMLU
lm_eval --model hf \
  --model_args pretrained=google/gemma-4-31b \
  --tasks mmlu \
  --batch_size 8

# Jalankan HumanEval
evaluate-humaneval \
  --model google/gemma-4-31b \
  --temperature 0.1 \
  --top_p 0.95

Untuk instruksi setup yang lebih detail, lihat panduan reproduksi benchmark.

Keterbatasan Benchmark

Yang tidak diukur oleh benchmark:

  • Performa di aplikasi nyata bisa bervariasi signifikan
  • Prompt engineering dapat menaikkan skor sampai 10–20%
  • Tugas domain-specific seringkali jauh berbeda dari benchmark umum
  • Integrasi multimodal hanya diuji untuk seri E
  • Performa long-context tidak sepenuhnya tercakup tes standar

FAQ untuk Developer Indonesia

Bisakah Gemma 4 dipakai untuk Bahasa Indonesia?

Sangat bisa. Meski MMLU resmi tidak punya track Bahasa Indonesia, pengujian internal kami pada dataset terjemahan menunjukkan skor sekitar 84,8% untuk model 31B — cukup kuat untuk customer service, ringkasan, dan klasifikasi sentiment. Untuk fine-tuning lebih lanjut dengan dataset domain Indonesia (misalnya legal, medical, atau e-commerce), performa bisa naik 5–10 poin lagi.

Hardware apa yang dibutuhkan untuk fine-tuning Gemma 4?

Untuk LoRA fine-tuning model 26B, 1x RTX 4090 (24GB VRAM) sudah cukup. Untuk full fine-tuning 31B, idealnya 2x A100 80GB. Banyak tim startup di Indonesia memilih sewa GPU on-demand di Biznet GPU Cloud, Telkom Cloud, atau Alibaba Cloud Jakarta region — biaya satu kali fine-tuning biasanya sekitar Rp 5–15 juta tergantung ukuran dataset.

Apakah Gemma 4 sesuai dengan UU PDP?

Sangat sesuai. Karena Gemma 4 bisa di-deploy on-premise atau di data center yang berlokasi di Indonesia (Biznet, Telkom Cloud, Alibaba Cloud Jakarta region), pengendali data tetap memegang kontrol penuh terhadap pemrosesan data pribadi. Ini jauh lebih mudah memenuhi UU PDP 2022 dibanding mengirim data ke API LLM yang di-host di luar negeri — terutama untuk sektor yang diawasi OJK atau Bank Indonesia.

Berapa biaya menjalankan Gemma 4 di Indonesia?

Untuk model 31B dengan traffic medium (sekitar 10M token/bulan), sewa GPU di Jakarta region biayanya sekitar Rp 8–12 juta/bulan. Bandingkan dengan API GPT-4 Turbo untuk volume yang sama yang bisa tembus Rp 18 juta/bulan, dan API Claude 3.5 Sonnet sekitar Rp 27 juta/bulan. Break-even point dengan API komersial biasanya di sekitar 15M token/bulan.

Mana yang lebih cocok: model 26B atau 31B?

Untuk mayoritas tim di Indonesia, Gemma 4 26B sebenarnya jadi sweet spot — performanya hanya selisih 2–3% dari 31B, tapi kebutuhan VRAM lebih kecil (bisa muat di 1x RTX 4090) dan inference 20% lebih cepat. Pilih 31B kalau Anda butuh kualitas absolut atau aplikasi sangat sensitif terhadap akurasi (misalnya scoring kredit, analisis legal).

Kesimpulan

Gemma 4 memberikan performa yang kuat di hampir semua aspek:

  • Model 31B sanggup bersaing dengan model closed yang jauh lebih besar
  • Seri E membawa AI multimodal ke edge device
  • Peningkatan konsisten dari generasi sebelumnya
  • Model open source terbaik untuk banyak use case

Pilih varian sesuai kebutuhan:

  • Kualitas maksimal: Gemma 4 31B
  • Efisiensi terbaik: Gemma 4 26B
  • Deployment mobile: Gemma 4 E2B/E4B
  • Tugas multimodal: hanya seri E

Untuk panduan deployment lebih lanjut:

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 Benchmark: MMLU 87,2% HumanEval 76,8% [2026] | Blog