CoreML-LLM baru saja merilis v0.2.0 dan angka-angkanya luar biasa. Gemma 4 E2B berjalan secara native di iPhone dengan Apple Neural Engine — 11 token per detik, 250MB RAM, 2 watt daya. Ini adalah cara paling efisien untuk menjalankan Gemma 4 di iPhone, titik.
X/Twitter ramai membicarakan ini dan itu wajar. Mari kita bahas apa itu, bagaimana cara kerjanya, dan cara menyiapkannya.
Apa Itu CoreML-LLM?
CoreML-LLM adalah framework open-source yang mengonversi LLM ke format CoreML Apple dan menjalankannya langsung di Neural Engine — chip AI khusus yang ada di setiap iPhone modern. Berbeda dengan inferensi berbasis GPU, Neural Engine dirancang khusus untuk operasi matriks, yang berarti konsumsi daya dan penggunaan memori jauh lebih rendah.
Versi 0.2.0 menambahkan dukungan penuh untuk Gemma 4 E2B, dan benchmark dari komunitas berbicara sendiri.
Benchmark yang Jadi Pembicaraan
Berikut yang dicapai CoreML-LLM v0.2.0 dengan Gemma 4 E2B di iPhone:
| Metrik | Hasil |
|---|---|
| Prefill (33 token) | 188ms (15.8x lebih cepat dari CPU) |
| Kecepatan decode | 11 tok/s |
| Context window | 2048 token |
| Penggunaan RAM | ~250MB |
| Konsumsi daya | ~2W |
Bandingkan dengan cara standar menjalankan Gemma 4 E2B via AI Edge Gallery atau MediaPipe, yang biasanya menggunakan 3GB RAM dan menguras baterai secara nyata. CoreML-LLM menggunakan kira-kira 12x lebih sedikit memori dan menyeruput daya alih-alih meneguknya.
Untuk gambaran lebih luas tentang opsi deployment mobile, lihat panduan deployment mobile kami.
Bagaimana Angka-Angka Ini Dicapai
CoreML-LLM tidak sekadar melempar model ke Neural Engine dan berharap yang terbaik. Ada empat optimasi teknis kunci yang membuat ini bekerja:
Sliding Window Attention
Alih-alih self-attention penuh atas seluruh konteks, CoreML-LLM menggunakan pendekatan sliding window. Model hanya memperhatikan jendela tetap dari token terbaru di setiap layer. Ini menjaga memori tetap konstan terlepas dari panjang sequence (hingga batas konteks 2048) dan sangat cocok dengan operasi tensor berukuran tetap dari Neural Engine.
Bobot INT4 Palettized dengan mmap
Bobot dikuantisasi ke INT4 menggunakan teknik palettization Apple — bentuk kuantisasi lookup-table di mana setiap bobot adalah indeks ke codebook kecil. File model di-memory-map (mmap) alih-alih dimuat seluruhnya ke RAM, itulah mengapa Anda melihat angka 250MB alih-alih ukuran model penuh. Hanya halaman yang sedang aktif digunakan yang dimuat ke memori fisik.
Stateless KV Cache
KV cache tradisional bertumbuh seiring panjang sequence dan memakan memori. CoreML-LLM menggunakan pendekatan stateless di mana KV cache dikelola sebagai tensor CoreML berukuran tetap. Ini menghindari alokasi memori dinamis dan menjaga pipeline Neural Engine tetap bersih.
Batched Prefill
Waktu prefill 188ms (untuk 33 token) dicapai dengan memproses seluruh prompt sebagai satu operasi batch, bukan token demi token. Ini 15.8x lebih cepat dari pemrosesan sequential dan membuat respons awal terasa hampir instan.
iPhone Mana yang Kompatibel?
Anda butuh chip A16 atau lebih baru — artinya iPhone 14 Pro ke atas.
| Perangkat | Chip | Neural Engine | Kompatibel |
|---|---|---|---|
| iPhone 14 Pro / Pro Max | A16 Bionic | 16-core | Ya |
| iPhone 15 / 15 Plus | A16 Bionic | 16-core | Ya |
| iPhone 15 Pro / Pro Max | A17 Pro | 16-core | Ya |
| iPhone 16 / 16 Plus | A18 | 16-core | Ya |
| iPhone 16 Pro / Pro Max | A18 Pro | 16-core | Ya (tercepat) |
| iPhone 14 / 14 Plus | A15 Bionic | 16-core | Tidak |
| iPhone 13 dan lebih lama | A15 atau lebih lama | — | Tidak |
Neural Engine A16 memiliki instruction set yang diperlukan untuk operasi INT4 palettized. Chip lama secara teknis memiliki Neural Engine, tapi tidak mendukung format kuantisasi spesifik yang digunakan CoreML-LLM.
Ingin tahu hardware apa yang dibutuhkan untuk model lebih besar? Cek panduan kebutuhan hardware.
Panduan Setup Langkah demi Langkah
Prasyarat
- Mac dengan Xcode 15.4+ terinstal
- iPhone 14 Pro atau lebih baru, menjalankan iOS 17+
- Sekitar 2GB penyimpanan kosong di iPhone Anda
- Python 3.10+ di Mac Anda (untuk konversi model)
Langkah 1: Instal CoreML-LLM
# Clone repositori
git clone https://github.com/nicklimmm/coreml-llm.git
cd coreml-llm
# Instal dependensi Python
pip install -r requirements.txtLangkah 2: Download dan Konversi Model
# Download Gemma 4 E2B dan konversi ke format CoreML
python convert.py \
--model google/gemma-4-e2b-it \
--output gemma4-e2b.mlpackage \
--quantize int4-palettized \
--context-length 2048Langkah ini memakan waktu 10-20 menit tergantung Mac Anda. Konversi menangani kuantisasi, palettization, dan optimasi Neural Engine secara otomatis.
Langkah 3: Build Aplikasi iOS
# Buka proyek Xcode
open CoreMLLLM.xcodeproj- Di Xcode, pilih iPhone Anda sebagai target device.
- Drag
gemma4-e2b.mlpackageke folder Resources proyek. - Atur development team di Signing & Capabilities.
- Tekan Build and Run (Cmd+R).
Langkah 4: Peluncuran Pertama
Peluncuran pertama memakan waktu satu-dua menit sementara CoreML mengompilasi model untuk Neural Engine spesifik Anda. Setelah itu, sudah di-cache dan peluncuran berikutnya cepat.
Coba prompt sederhana:
Jelaskan apa itu neural engine dalam dua kalimat.Anda seharusnya melihat token streaming sekitar 11 per detik. Aktifkan airplane mode — tetap berjalan. Itulah intinya.
Langkah 5: Verifikasi Performa
Aplikasi dilengkapi mode benchmark bawaan. Ketuk ikon pengaturan dan pilih "Run Benchmark" untuk melihat kecepatan prefill dan decode aktual perangkat Anda. Bandingkan dengan angka di artikel ini untuk memastikan semuanya berjalan optimal.
CoreML-LLM vs AI Edge Gallery
Saat ini ada dua cara utama untuk menjalankan Gemma 4 di iPhone. Berikut perbandingannya:
| Fitur | CoreML-LLM v0.2.0 | AI Edge Gallery |
|---|---|---|
| Kesulitan setup | Sedang (butuh Mac + Xcode) | Mudah (download dari App Store) |
| Kecepatan decode | 11 tok/s | 5-15 tok/s |
| Penggunaan RAM | ~250MB | ~3GB |
| Konsumsi daya | ~2W | ~5-8W |
| Berjalan di Neural Engine | Ya (khusus) | Sebagian (kebanyakan GPU) |
| Integrasi app kustom | Ya (open-source) | Tidak (app standalone) |
| Dukungan model | Gemma 4 E2B saja | E2B + E4B |
| Multimodal | Belum | Terbatas |
Gunakan CoreML-LLM jika Anda ingin efisiensi maksimum, sedang membangun app sendiri, atau ingin memaksimalkan baterai.
Gunakan AI Edge Gallery jika Anda hanya ingin mencoba Gemma 4 dengan cepat tanpa setup development, atau butuh E4B. Untuk info lebih lanjut tentang pendekatan AI Edge Gallery, lihat panduan iPhone kami.
Keterbatasan
Hanya E2B. CoreML-LLM v0.2.0 mendukung Gemma 4 E2B. Model E4B, 12B, dan 26B yang lebih besar belum dikonversi. Dukungan E4B direncanakan tapi belum ada timeline.
Belum multimodal. Gemma 4 E2B mendukung teks, vision, dan audio dalam bentuk penuhnya, tapi CoreML-LLM saat ini hanya menangani inferensi teks. Dukungan multimodal ada di roadmap untuk v0.3.
Context window 2048. Sliding window attention menjaga memori tetap rendah, tapi membatasi berapa banyak teks yang bisa dipertimbangkan model sekaligus. Untuk dokumen panjang, Anda perlu membagi input.
Butuh Mac untuk setup. Proses konversi model dan build app membutuhkan Xcode di macOS. Belum ada jalur Windows atau Linux saat ini.
Kualitas setara E2B. Ini model 2 miliar parameter. Bagus untuk tugas cepat — ringkasan, terjemahan, Q&A sederhana, pembuatan kode dasar — tapi jangan harap penalaran level GPT-4. Lihat perbandingan E2B vs E4B kami untuk breakdown kualitas detail.
Mengapa Ini Penting
250MB RAM dan 2 watt. Artinya Gemma 4 bisa berjalan bersamaan dengan app lain tanpa membunuh ponsel Anda. Artinya Anda bisa menggunakannya berjam-jam tanpa menghancurkan baterai. Artinya AI di perangkat berhenti menjadi "demo" dan mulai menjadi fitur nyata yang benar-benar bisa Anda kirim dalam app produksi.
Neural Engine sudah ada di iPhone selama bertahun-tahun, kebanyakan menjalankan pemrosesan kamera dan prediksi keyboard. CoreML-LLM menunjukkan apa yang terjadi ketika Anda benar-benar menargetkannya dengan tepat menggunakan model bahasa nyata.
Langkah Selanjutnya
- Baru mengenal Gemma 4 di mobile? Mulai dengan Panduan Deployment Mobile untuk gambaran lengkap
- Ingin opsi yang lebih mudah (tapi kurang efisien)? Lihat Panduan iPhone untuk setup AI Edge Gallery
- Memilih antara ukuran model? Baca perbandingan E2B vs E4B kami
- Perlu cek hardware? Lihat Kebutuhan Hardware untuk semua platform
AI di perangkat jadi jauh lebih praktis. CoreML-LLM v0.2.0 dengan Gemma 4 E2B adalah cara paling efisien untuk menjalankan model bahasa nyata di iPhone hari ini — dan v0.3 dengan dukungan multimodal segera hadir.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


