Menjalankan model AI langsung di HP — tanpa internet, tanpa data meninggalkan perangkat — kedengarannya futuristik, tapi Gemma 4 membuatnya nyata. Model E2B dan E4B yang lebih kecil dirancang khusus untuk deployment mobile. Panduan ini mencakup semua yang perlu kamu ketahui untuk menjalankan Gemma 4 di Android dan iOS.
Model Mana yang Bisa di Mobile?
Tidak semua model Gemma 4 muat di HP. Ini yang realistis:
| Model | Parameter | RAM Dibutuhkan | Android | iOS | Direkomendasikan? |
|---|---|---|---|---|---|
| Gemma 4 E2B | 2B | ~3 GB | Ya | Ya | Terbaik untuk kebanyakan HP |
| Gemma 4 E4B | 4B | ~5 GB | Ya | Ya | HP flagship saja |
| Gemma 4 1B | 1B | ~2 GB | Ya | Ya | Tercepat, kualitas lebih rendah |
| Gemma 4 4B | 4B | ~5 GB | Mungkin | Mungkin | Ketat |
| Gemma 4 12B+ | 12B+ | ~9 GB+ | Tidak | Tidak | Terlalu besar untuk mobile |
Model E2B dan E4B ("Edge") dioptimasi untuk mobile — termasuk kemampuan multimodal (teks, penglihatan, dan audio) dengan ukuran yang benar-benar muat di HP. Kamu bisa ambil file model dari sumber manapun di panduan download kami. Untuk spek RAM dan penyimpanan detail, cek kebutuhan hardware.
Deployment Android
Android punya ekosistem paling matang untuk Gemma 4 on-device, berkat integrasi ketat Google.
Opsi 1: Google AI Edge SDK
AI Edge SDK adalah solusi resmi Google untuk menjalankan Gemma di Android:
// build.gradle.kts
dependencies {
implementation("com.google.ai.edge:ai-edge-sdk:0.3.0")
}
// Di Activity atau ViewModel
import com.google.ai.edge.InferenceSession
import com.google.ai.edge.ModelConfig
class GemmaViewModel : ViewModel() {
private var session: InferenceSession? = null
fun initModel(context: Context) {
val config = ModelConfig.builder()
.setModelPath("gemma-4-e2b-it.task")
.setMaxTokens(1024)
.setTemperature(0.7f)
.build()
session = InferenceSession.create(context, config)
}
fun generateResponse(prompt: String): String {
return session?.generateResponse(prompt) ?: "Model belum dimuat"
}
}Opsi 2: AICore (Pixel dan Samsung)
AICore sudah built-in di HP Pixel terbaru dan perangkat Samsung Galaxy. Menyediakan akselerasi AI level sistem:
// Cek apakah AICore tersedia
val aiCoreAvailable = AICore.isAvailable(context)
if (aiCoreAvailable) {
// AICore menangani manajemen dan optimasi model
val session = AICore.createSession(
model = "gemma-4-e2b-it",
options = AICore.Options.builder()
.setAccelerator(AICore.Accelerator.GPU)
.build()
)
val response = session.generate("Jelaskan fotosintesis secara sederhana")
}Keunggulan AICore: model mungkin sudah ter-cache di perangkat, jadi pengguna tidak perlu download 2-3GB terpisah.
Opsi 3: MediaPipe LLM Inference API
MediaPipe lebih fleksibel dan bekerja di lebih banyak perangkat Android:
dependencies {
implementation("com.google.mediapipe:tasks-genai:0.10.20")
}
// Inisialisasi LLM
val options = LlmInference.LlmInferenceOptions.builder()
.setModelPath("/data/local/tmp/gemma-4-e2b-it.bin")
.setMaxTokens(1024)
.setTopK(40)
.setTemperature(0.7f)
.setRandomSeed(42)
.build()
val llmInference = LlmInference.createFromOptions(context, options)
// Generate teks
val response = llmInference.generateResponse("Apa itu machine learning?")
// Stream respons
llmInference.generateResponseAsync(prompt) { partialResult, done ->
// Update UI dengan setiap token
textView.append(partialResult)
}Deployment iOS
Opsi 1: Aplikasi AI Edge Gallery
Cara termudah untuk mencoba Gemma 4 di iOS — download aplikasi AI Edge Gallery dari App Store. Untuk optimasi khusus Apple, lihat panduan iPhone kami.
- Instal AI Edge Gallery
- Browse model yang tersedia
- Download Gemma 4 E2B atau E4B
- Mulai ngobrol — sepenuhnya offline
Ini bagus untuk penggunaan personal dan testing, tapi bukan untuk embed di aplikasi sendiri.
Opsi 2: LiteRT (TensorFlow Lite Runtime)
Untuk mengintegrasikan Gemma 4 ke aplikasi iOS sendiri:
import LiteRT
class GemmaModel {
private var interpreter: Interpreter?
func loadModel() throws {
guard let modelPath = Bundle.main.path(
forResource: "gemma-4-e2b-it",
ofType: "tflite"
) else {
throw GemmaError.modelNotFound
}
var options = Interpreter.Options()
options.threadCount = 4
// Gunakan GPU delegate untuk akselerasi
let gpuDelegate = MetalDelegate()
interpreter = try Interpreter(
modelPath: modelPath,
options: options,
delegates: [gpuDelegate]
)
}
func generate(prompt: String) throws -> String {
// Tokenisasi input
let tokens = tokenize(prompt)
// Jalankan inferensi
try interpreter?.allocateTensors()
try interpreter?.copy(tokens, toInputAt: 0)
try interpreter?.invoke()
// Decode output
let output = try interpreter?.output(at: 0)
return decode(output)
}
}Opsi 3: MediaPipe untuk iOS
MediaPipe juga bekerja di iOS:
import MediaPipeTasksGenAI
let options = LlmInference.Options()
options.modelPath = Bundle.main.path(
forResource: "gemma-4-e2b-it",
ofType: "bin"
)!
options.maxTokens = 1024
options.temperature = 0.7
let llm = try LlmInference(options: options)
let response = try llm.generateResponse(inputText: "Halo!")Ekspektasi Performa
Realistis soal apa yang bisa dilakukan AI mobile. Ini yang bisa diharapkan:
| Perangkat | Model | Kecepatan (tok/s) | Token Pertama (ms) | Penggunaan RAM |
|---|---|---|---|---|
| Pixel 9 Pro | E2B | ~15-20 | ~800 | ~3 GB |
| Pixel 9 Pro | E4B | ~8-12 | ~1500 | ~5 GB |
| Samsung S24 Ultra | E2B | ~15-18 | ~900 | ~3 GB |
| iPhone 15 Pro | E2B | ~12-15 | ~1000 | ~3 GB |
| iPhone 16 Pro | E2B | ~15-18 | ~800 | ~3 GB |
| iPhone 16 Pro | E4B | ~8-10 | ~1500 | ~5 GB |
Kecepatan ini lebih lambat dari desktop, tapi perfectly usable untuk chat interaktif. Token pertama butuh waktu lebih lama karena model perlu inisialisasi.
Pertimbangan Baterai dan Panas
Menjalankan inferensi AI itu compute-intensive. Ini yang perlu diperhatikan:
| Perhatian | Kenyataan | Mitigasi |
|---|---|---|
| Drain baterai | ~5-8% per jam penggunaan aktif | Batasi panjang generasi maks |
| Panas | HP jadi hangat saat inferensi | Tambah jeda cooldown antara generasi panjang |
| Background use | OS mungkin kill prosesnya | Load model hanya saat dibutuhkan |
| Penyimpanan | 2-5 GB per model | Tawarkan download model sebagai opsional |
// Praktik baik: release model saat tidak dipakai
override fun onPause() {
super.onPause()
session?.close()
}
override fun onResume() {
super.onResume()
if (session == null) initModel()
}Offline: Fitur Pembunuh
Keunggulan terbesar AI on-device adalah bisa bekerja tanpa internet. Pikirkan use case-nya:
- Travel: Asisten AI bekerja di mode pesawat
- Tugas sensitif privasi: Pertanyaan medis, jurnal pribadi, coding privat — tidak ada yang meninggalkan perangkat
- Konektivitas buruk: Daerah pedalaman, subway, wilayah berkembang
- Kecepatan: Tanpa latensi jaringan — respons dimulai langsung
- Biaya: Tanpa biaya API setelah download model awal
Ini sesuatu yang API cloud secara fundamental tidak bisa tawarkan. Saat kamu menjalankan Gemma 4 di HP, datamu tetap di HP. Titik.
Mobile vs API Cloud
| Faktor | On-Device (Gemma 4 E2B) | API Cloud (Gemini) |
|---|---|---|
| Kecepatan | ~15 tok/s | ~50-100 tok/s |
| Kualitas | Bagus (model 2B) | Excellent (model besar) |
| Privasi | Lengkap | Data dikirim ke server |
| Offline | Ya | Tidak |
| Biaya | Gratis setelah download | Bayar per token |
| Dampak baterai | Tinggi | Minimal |
| Setup | Download model diperlukan | Hanya API key |
Pendekatan ideal adalah hybrid: gunakan Gemma 4 on-device untuk tugas sensitif privasi dan offline, dan fallback ke API cloud saat butuh kualitas lebih tinggi atau saat HP terkoneksi.
Langkah Selanjutnya
- Mau jalankan Gemma 4 di iPhone? Cek Panduan iPhone detail kami untuk optimasi khusus Apple
- Tidak yakin model mana? Baca Model Gemma 4 Mana? untuk memahami jajaran lengkap
- Penasaran kebutuhan hardware untuk desktop? Lihat Panduan Hardware untuk rekomendasi desktop dan laptop
AI mobile masih awal, tapi nyata dan bekerja hari ini. Mulai dengan model E2B, tes di HP, dan bangun dari situ. Fakta bahwa AI yang capable berjalan sepenuhnya di HP yang kamu bawa di saku — tanpa internet, tanpa API key, tanpa tagihan bulanan — itu cukup menakjubkan.



