Cara Menjalankan Gemma 4 di iPhone dengan CoreML (Panduan Lengkap 2026)

CoreML-LLM baru saja merilis v0.2.0 dan angka-angkanya luar biasa. Gemma 4 E2B berjalan secara native di iPhone dengan Apple Neural Engine — 11 token per detik, 250MB RAM, 2 watt daya. Ini adalah cara paling efisien untuk menjalankan Gemma 4 di iPhone, titik.

X/Twitter ramai membicarakan ini dan itu wajar. Mari kita bahas apa itu, bagaimana cara kerjanya, dan cara menyiapkannya.

Apa Itu CoreML-LLM?

CoreML-LLM adalah framework open-source yang mengonversi LLM ke format CoreML Apple dan menjalankannya langsung di Neural Engine — chip AI khusus yang ada di setiap iPhone modern. Berbeda dengan inferensi berbasis GPU, Neural Engine dirancang khusus untuk operasi matriks, yang berarti konsumsi daya dan penggunaan memori jauh lebih rendah.

Versi 0.2.0 menambahkan dukungan penuh untuk Gemma 4 E2B, dan benchmark dari komunitas berbicara sendiri.

Benchmark yang Jadi Pembicaraan

Berikut yang dicapai CoreML-LLM v0.2.0 dengan Gemma 4 E2B di iPhone:

Metrik	Hasil
Prefill (33 token)	188ms (15.8x lebih cepat dari CPU)
Kecepatan decode	11 tok/s
Context window	2048 token
Penggunaan RAM	~250MB
Konsumsi daya	~2W

Bandingkan dengan cara standar menjalankan Gemma 4 E2B via AI Edge Gallery atau MediaPipe, yang biasanya menggunakan 3GB RAM dan menguras baterai secara nyata. CoreML-LLM menggunakan kira-kira 12x lebih sedikit memori dan menyeruput daya alih-alih meneguknya.

Untuk gambaran lebih luas tentang opsi deployment mobile, lihat panduan deployment mobile kami.

Bagaimana Angka-Angka Ini Dicapai

CoreML-LLM tidak sekadar melempar model ke Neural Engine dan berharap yang terbaik. Ada empat optimasi teknis kunci yang membuat ini bekerja:

Sliding Window Attention

Alih-alih self-attention penuh atas seluruh konteks, CoreML-LLM menggunakan pendekatan sliding window. Model hanya memperhatikan jendela tetap dari token terbaru di setiap layer. Ini menjaga memori tetap konstan terlepas dari panjang sequence (hingga batas konteks 2048) dan sangat cocok dengan operasi tensor berukuran tetap dari Neural Engine.

Bobot INT4 Palettized dengan mmap

Bobot dikuantisasi ke INT4 menggunakan teknik palettization Apple — bentuk kuantisasi lookup-table di mana setiap bobot adalah indeks ke codebook kecil. File model di-memory-map (mmap) alih-alih dimuat seluruhnya ke RAM, itulah mengapa Anda melihat angka 250MB alih-alih ukuran model penuh. Hanya halaman yang sedang aktif digunakan yang dimuat ke memori fisik.

Stateless KV Cache

KV cache tradisional bertumbuh seiring panjang sequence dan memakan memori. CoreML-LLM menggunakan pendekatan stateless di mana KV cache dikelola sebagai tensor CoreML berukuran tetap. Ini menghindari alokasi memori dinamis dan menjaga pipeline Neural Engine tetap bersih.

Batched Prefill

Waktu prefill 188ms (untuk 33 token) dicapai dengan memproses seluruh prompt sebagai satu operasi batch, bukan token demi token. Ini 15.8x lebih cepat dari pemrosesan sequential dan membuat respons awal terasa hampir instan.

iPhone Mana yang Kompatibel?

Anda butuh chip A16 atau lebih baru — artinya iPhone 14 Pro ke atas.

Perangkat	Chip	Neural Engine	Kompatibel
iPhone 14 Pro / Pro Max	A16 Bionic	16-core	Ya
iPhone 15 / 15 Plus	A16 Bionic	16-core	Ya
iPhone 15 Pro / Pro Max	A17 Pro	16-core	Ya
iPhone 16 / 16 Plus	A18	16-core	Ya
iPhone 16 Pro / Pro Max	A18 Pro	16-core	Ya (tercepat)
iPhone 14 / 14 Plus	A15 Bionic	16-core	Tidak
iPhone 13 dan lebih lama	A15 atau lebih lama	—	Tidak

Neural Engine A16 memiliki instruction set yang diperlukan untuk operasi INT4 palettized. Chip lama secara teknis memiliki Neural Engine, tapi tidak mendukung format kuantisasi spesifik yang digunakan CoreML-LLM.

Ingin tahu hardware apa yang dibutuhkan untuk model lebih besar? Cek panduan kebutuhan hardware.

Panduan Setup Langkah demi Langkah

Prasyarat

Mac dengan Xcode 15.4+ terinstal
iPhone 14 Pro atau lebih baru, menjalankan iOS 17+
Sekitar 2GB penyimpanan kosong di iPhone Anda
Python 3.10+ di Mac Anda (untuk konversi model)

Langkah 1: Instal CoreML-LLM

# Clone repositori
git clone https://github.com/nicklimmm/coreml-llm.git
cd coreml-llm

# Instal dependensi Python
pip install -r requirements.txt

Langkah 2: Download dan Konversi Model

# Download Gemma 4 E2B dan konversi ke format CoreML
python convert.py \
  --model google/gemma-4-e2b-it \
  --output gemma4-e2b.mlpackage \
  --quantize int4-palettized \
  --context-length 2048

Langkah ini memakan waktu 10-20 menit tergantung Mac Anda. Konversi menangani kuantisasi, palettization, dan optimasi Neural Engine secara otomatis.

Langkah 3: Build Aplikasi iOS

# Buka proyek Xcode
open CoreMLLLM.xcodeproj

Di Xcode, pilih iPhone Anda sebagai target device.
Drag gemma4-e2b.mlpackage ke folder Resources proyek.
Atur development team di Signing & Capabilities.
Tekan Build and Run (Cmd+R).

Langkah 4: Peluncuran Pertama

Peluncuran pertama memakan waktu satu-dua menit sementara CoreML mengompilasi model untuk Neural Engine spesifik Anda. Setelah itu, sudah di-cache dan peluncuran berikutnya cepat.

Coba prompt sederhana:

Jelaskan apa itu neural engine dalam dua kalimat.

Anda seharusnya melihat token streaming sekitar 11 per detik. Aktifkan airplane mode — tetap berjalan. Itulah intinya.

Langkah 5: Verifikasi Performa

Aplikasi dilengkapi mode benchmark bawaan. Ketuk ikon pengaturan dan pilih "Run Benchmark" untuk melihat kecepatan prefill dan decode aktual perangkat Anda. Bandingkan dengan angka di artikel ini untuk memastikan semuanya berjalan optimal.

CoreML-LLM vs AI Edge Gallery

Saat ini ada dua cara utama untuk menjalankan Gemma 4 di iPhone. Berikut perbandingannya:

Fitur	CoreML-LLM v0.2.0	AI Edge Gallery
Kesulitan setup	Sedang (butuh Mac + Xcode)	Mudah (download dari App Store)
Kecepatan decode	11 tok/s	5-15 tok/s
Penggunaan RAM	~250MB	~3GB
Konsumsi daya	~2W	~5-8W
Berjalan di Neural Engine	Ya (khusus)	Sebagian (kebanyakan GPU)
Integrasi app kustom	Ya (open-source)	Tidak (app standalone)
Dukungan model	Gemma 4 E2B saja	E2B + E4B
Multimodal	Belum	Terbatas

Gunakan CoreML-LLM jika Anda ingin efisiensi maksimum, sedang membangun app sendiri, atau ingin memaksimalkan baterai.

Gunakan AI Edge Gallery jika Anda hanya ingin mencoba Gemma 4 dengan cepat tanpa setup development, atau butuh E4B. Untuk info lebih lanjut tentang pendekatan AI Edge Gallery, lihat panduan iPhone kami.

Keterbatasan

Hanya E2B. CoreML-LLM v0.2.0 mendukung Gemma 4 E2B. Model E4B, 12B, dan 26B yang lebih besar belum dikonversi. Dukungan E4B direncanakan tapi belum ada timeline.

Belum multimodal. Gemma 4 E2B mendukung teks, vision, dan audio dalam bentuk penuhnya, tapi CoreML-LLM saat ini hanya menangani inferensi teks. Dukungan multimodal ada di roadmap untuk v0.3.

Context window 2048. Sliding window attention menjaga memori tetap rendah, tapi membatasi berapa banyak teks yang bisa dipertimbangkan model sekaligus. Untuk dokumen panjang, Anda perlu membagi input.

Butuh Mac untuk setup. Proses konversi model dan build app membutuhkan Xcode di macOS. Belum ada jalur Windows atau Linux saat ini.

Kualitas setara E2B. Ini model 2 miliar parameter. Bagus untuk tugas cepat — ringkasan, terjemahan, Q&A sederhana, pembuatan kode dasar — tapi jangan harap penalaran level GPT-4. Lihat perbandingan E2B vs E4B kami untuk breakdown kualitas detail.

Mengapa Ini Penting

250MB RAM dan 2 watt. Artinya Gemma 4 bisa berjalan bersamaan dengan app lain tanpa membunuh ponsel Anda. Artinya Anda bisa menggunakannya berjam-jam tanpa menghancurkan baterai. Artinya AI di perangkat berhenti menjadi "demo" dan mulai menjadi fitur nyata yang benar-benar bisa Anda kirim dalam app produksi.

Neural Engine sudah ada di iPhone selama bertahun-tahun, kebanyakan menjalankan pemrosesan kamera dan prediksi keyboard. CoreML-LLM menunjukkan apa yang terjadi ketika Anda benar-benar menargetkannya dengan tepat menggunakan model bahasa nyata.

Langkah Selanjutnya

Baru mengenal Gemma 4 di mobile? Mulai dengan Panduan Deployment Mobile untuk gambaran lengkap
Ingin opsi yang lebih mudah (tapi kurang efisien)? Lihat Panduan iPhone untuk setup AI Edge Gallery
Memilih antara ukuran model? Baca perbandingan E2B vs E4B kami
Perlu cek hardware? Lihat Kebutuhan Hardware untuk semua platform

AI di perangkat jadi jauh lebih praktis. CoreML-LLM v0.2.0 dengan Gemma 4 E2B adalah cara paling efisien untuk menjalankan model bahasa nyata di iPhone hari ini — dan v0.3 dengan dukungan multimodal segera hadir.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />