Cara Deploy Gemma 4 di Android & iOS (Panduan AI Mobile)

Apr 7, 2026

Menjalankan model AI langsung di HP — tanpa internet, tanpa data meninggalkan perangkat — kedengarannya futuristik, tapi Gemma 4 membuatnya nyata. Model E2B dan E4B yang lebih kecil dirancang khusus untuk deployment mobile. Panduan ini mencakup semua yang perlu kamu ketahui untuk menjalankan Gemma 4 di Android dan iOS.

Model Mana yang Bisa di Mobile?

Tidak semua model Gemma 4 muat di HP. Ini yang realistis:

ModelParameterRAM DibutuhkanAndroidiOSDirekomendasikan?
Gemma 4 E2B2B~3 GBYaYaTerbaik untuk kebanyakan HP
Gemma 4 E4B4B~5 GBYaYaHP flagship saja
Gemma 4 1B1B~2 GBYaYaTercepat, kualitas lebih rendah
Gemma 4 4B4B~5 GBMungkinMungkinKetat
Gemma 4 12B+12B+~9 GB+TidakTidakTerlalu besar untuk mobile

Model E2B dan E4B ("Edge") dioptimasi untuk mobile — termasuk kemampuan multimodal (teks, penglihatan, dan audio) dengan ukuran yang benar-benar muat di HP. Kamu bisa ambil file model dari sumber manapun di panduan download kami. Untuk spek RAM dan penyimpanan detail, cek kebutuhan hardware.

Deployment Android

Android punya ekosistem paling matang untuk Gemma 4 on-device, berkat integrasi ketat Google.

Opsi 1: Google AI Edge SDK

AI Edge SDK adalah solusi resmi Google untuk menjalankan Gemma di Android:

// build.gradle.kts
dependencies {
    implementation("com.google.ai.edge:ai-edge-sdk:0.3.0")
}

// Di Activity atau ViewModel
import com.google.ai.edge.InferenceSession
import com.google.ai.edge.ModelConfig

class GemmaViewModel : ViewModel() {
    private var session: InferenceSession? = null

    fun initModel(context: Context) {
        val config = ModelConfig.builder()
            .setModelPath("gemma-4-e2b-it.task")
            .setMaxTokens(1024)
            .setTemperature(0.7f)
            .build()

        session = InferenceSession.create(context, config)
    }

    fun generateResponse(prompt: String): String {
        return session?.generateResponse(prompt) ?: "Model belum dimuat"
    }
}

Opsi 2: AICore (Pixel dan Samsung)

AICore sudah built-in di HP Pixel terbaru dan perangkat Samsung Galaxy. Menyediakan akselerasi AI level sistem:

// Cek apakah AICore tersedia
val aiCoreAvailable = AICore.isAvailable(context)

if (aiCoreAvailable) {
    // AICore menangani manajemen dan optimasi model
    val session = AICore.createSession(
        model = "gemma-4-e2b-it",
        options = AICore.Options.builder()
            .setAccelerator(AICore.Accelerator.GPU)
            .build()
    )

    val response = session.generate("Jelaskan fotosintesis secara sederhana")
}

Keunggulan AICore: model mungkin sudah ter-cache di perangkat, jadi pengguna tidak perlu download 2-3GB terpisah.

Opsi 3: MediaPipe LLM Inference API

MediaPipe lebih fleksibel dan bekerja di lebih banyak perangkat Android:

dependencies {
    implementation("com.google.mediapipe:tasks-genai:0.10.20")
}

// Inisialisasi LLM
val options = LlmInference.LlmInferenceOptions.builder()
    .setModelPath("/data/local/tmp/gemma-4-e2b-it.bin")
    .setMaxTokens(1024)
    .setTopK(40)
    .setTemperature(0.7f)
    .setRandomSeed(42)
    .build()

val llmInference = LlmInference.createFromOptions(context, options)

// Generate teks
val response = llmInference.generateResponse("Apa itu machine learning?")

// Stream respons
llmInference.generateResponseAsync(prompt) { partialResult, done ->
    // Update UI dengan setiap token
    textView.append(partialResult)
}

Deployment iOS

Cara termudah untuk mencoba Gemma 4 di iOS — download aplikasi AI Edge Gallery dari App Store. Untuk optimasi khusus Apple, lihat panduan iPhone kami.

  1. Instal AI Edge Gallery
  2. Browse model yang tersedia
  3. Download Gemma 4 E2B atau E4B
  4. Mulai ngobrol — sepenuhnya offline

Ini bagus untuk penggunaan personal dan testing, tapi bukan untuk embed di aplikasi sendiri.

Opsi 2: LiteRT (TensorFlow Lite Runtime)

Untuk mengintegrasikan Gemma 4 ke aplikasi iOS sendiri:

import LiteRT

class GemmaModel {
    private var interpreter: Interpreter?

    func loadModel() throws {
        guard let modelPath = Bundle.main.path(
            forResource: "gemma-4-e2b-it",
            ofType: "tflite"
        ) else {
            throw GemmaError.modelNotFound
        }

        var options = Interpreter.Options()
        options.threadCount = 4

        // Gunakan GPU delegate untuk akselerasi
        let gpuDelegate = MetalDelegate()
        interpreter = try Interpreter(
            modelPath: modelPath,
            options: options,
            delegates: [gpuDelegate]
        )
    }

    func generate(prompt: String) throws -> String {
        // Tokenisasi input
        let tokens = tokenize(prompt)

        // Jalankan inferensi
        try interpreter?.allocateTensors()
        try interpreter?.copy(tokens, toInputAt: 0)
        try interpreter?.invoke()

        // Decode output
        let output = try interpreter?.output(at: 0)
        return decode(output)
    }
}

Opsi 3: MediaPipe untuk iOS

MediaPipe juga bekerja di iOS:

import MediaPipeTasksGenAI

let options = LlmInference.Options()
options.modelPath = Bundle.main.path(
    forResource: "gemma-4-e2b-it",
    ofType: "bin"
)!
options.maxTokens = 1024
options.temperature = 0.7

let llm = try LlmInference(options: options)
let response = try llm.generateResponse(inputText: "Halo!")

Ekspektasi Performa

Realistis soal apa yang bisa dilakukan AI mobile. Ini yang bisa diharapkan:

PerangkatModelKecepatan (tok/s)Token Pertama (ms)Penggunaan RAM
Pixel 9 ProE2B~15-20~800~3 GB
Pixel 9 ProE4B~8-12~1500~5 GB
Samsung S24 UltraE2B~15-18~900~3 GB
iPhone 15 ProE2B~12-15~1000~3 GB
iPhone 16 ProE2B~15-18~800~3 GB
iPhone 16 ProE4B~8-10~1500~5 GB

Kecepatan ini lebih lambat dari desktop, tapi perfectly usable untuk chat interaktif. Token pertama butuh waktu lebih lama karena model perlu inisialisasi.

Pertimbangan Baterai dan Panas

Menjalankan inferensi AI itu compute-intensive. Ini yang perlu diperhatikan:

PerhatianKenyataanMitigasi
Drain baterai~5-8% per jam penggunaan aktifBatasi panjang generasi maks
PanasHP jadi hangat saat inferensiTambah jeda cooldown antara generasi panjang
Background useOS mungkin kill prosesnyaLoad model hanya saat dibutuhkan
Penyimpanan2-5 GB per modelTawarkan download model sebagai opsional
// Praktik baik: release model saat tidak dipakai
override fun onPause() {
    super.onPause()
    session?.close()
}

override fun onResume() {
    super.onResume()
    if (session == null) initModel()
}

Offline: Fitur Pembunuh

Keunggulan terbesar AI on-device adalah bisa bekerja tanpa internet. Pikirkan use case-nya:

  • Travel: Asisten AI bekerja di mode pesawat
  • Tugas sensitif privasi: Pertanyaan medis, jurnal pribadi, coding privat — tidak ada yang meninggalkan perangkat
  • Konektivitas buruk: Daerah pedalaman, subway, wilayah berkembang
  • Kecepatan: Tanpa latensi jaringan — respons dimulai langsung
  • Biaya: Tanpa biaya API setelah download model awal

Ini sesuatu yang API cloud secara fundamental tidak bisa tawarkan. Saat kamu menjalankan Gemma 4 di HP, datamu tetap di HP. Titik.

Mobile vs API Cloud

FaktorOn-Device (Gemma 4 E2B)API Cloud (Gemini)
Kecepatan~15 tok/s~50-100 tok/s
KualitasBagus (model 2B)Excellent (model besar)
PrivasiLengkapData dikirim ke server
OfflineYaTidak
BiayaGratis setelah downloadBayar per token
Dampak bateraiTinggiMinimal
SetupDownload model diperlukanHanya API key

Pendekatan ideal adalah hybrid: gunakan Gemma 4 on-device untuk tugas sensitif privasi dan offline, dan fallback ke API cloud saat butuh kualitas lebih tinggi atau saat HP terkoneksi.

Langkah Selanjutnya

  • Mau jalankan Gemma 4 di iPhone? Cek Panduan iPhone detail kami untuk optimasi khusus Apple
  • Tidak yakin model mana? Baca Model Gemma 4 Mana? untuk memahami jajaran lengkap
  • Penasaran kebutuhan hardware untuk desktop? Lihat Panduan Hardware untuk rekomendasi desktop dan laptop

AI mobile masih awal, tapi nyata dan bekerja hari ini. Mulai dengan model E2B, tes di HP, dan bangun dari situ. Fakta bahwa AI yang capable berjalan sepenuhnya di HP yang kamu bawa di saku — tanpa internet, tanpa API key, tanpa tagihan bulanan — itu cukup menakjubkan.

Gemma 4 AI

Gemma 4 AI

Related Guides

Cara Deploy Gemma 4 di Android & iOS (Panduan AI Mobile) | Blog