Cara Deploy Gemma 4 di Android & iOS (Panduan AI Mobile)

Menjalankan model AI langsung di HP — tanpa internet, tanpa data meninggalkan perangkat — kedengarannya futuristik, tapi Gemma 4 membuatnya nyata. Model E2B dan E4B yang lebih kecil dirancang khusus untuk deployment mobile. Panduan ini mencakup semua yang perlu kamu ketahui untuk menjalankan Gemma 4 di Android dan iOS.

Model Mana yang Bisa di Mobile?

Tidak semua model Gemma 4 muat di HP. Ini yang realistis:

Model	Parameter	RAM Dibutuhkan	Android	iOS	Direkomendasikan?
Gemma 4 E2B	2B	~3 GB	Ya	Ya	Terbaik untuk kebanyakan HP
Gemma 4 E4B	4B	~5 GB	Ya	Ya	HP flagship saja
Gemma 4 1B	1B	~2 GB	Ya	Ya	Tercepat, kualitas lebih rendah
Gemma 4 4B	4B	~5 GB	Mungkin	Mungkin	Ketat
Gemma 4 12B+	12B+	~9 GB+	Tidak	Tidak	Terlalu besar untuk mobile

Model E2B dan E4B ("Edge") dioptimasi untuk mobile — termasuk kemampuan multimodal (teks, penglihatan, dan audio) dengan ukuran yang benar-benar muat di HP. Kamu bisa ambil file model dari sumber manapun di panduan download kami. Untuk spek RAM dan penyimpanan detail, cek kebutuhan hardware.

Deployment Android

Android punya ekosistem paling matang untuk Gemma 4 on-device, berkat integrasi ketat Google.

Opsi 1: Google AI Edge SDK

AI Edge SDK adalah solusi resmi Google untuk menjalankan Gemma di Android:

// build.gradle.kts
dependencies {
    implementation("com.google.ai.edge:ai-edge-sdk:0.3.0")
}

// Di Activity atau ViewModel
import com.google.ai.edge.InferenceSession
import com.google.ai.edge.ModelConfig

class GemmaViewModel : ViewModel() {
    private var session: InferenceSession? = null

    fun initModel(context: Context) {
        val config = ModelConfig.builder()
            .setModelPath("gemma-4-e2b-it.task")
            .setMaxTokens(1024)
            .setTemperature(0.7f)
            .build()

        session = InferenceSession.create(context, config)
    }

    fun generateResponse(prompt: String): String {
        return session?.generateResponse(prompt) ?: "Model belum dimuat"
    }
}

Opsi 2: AICore (Pixel dan Samsung)

AICore sudah built-in di HP Pixel terbaru dan perangkat Samsung Galaxy. Menyediakan akselerasi AI level sistem:

// Cek apakah AICore tersedia
val aiCoreAvailable = AICore.isAvailable(context)

if (aiCoreAvailable) {
    // AICore menangani manajemen dan optimasi model
    val session = AICore.createSession(
        model = "gemma-4-e2b-it",
        options = AICore.Options.builder()
            .setAccelerator(AICore.Accelerator.GPU)
            .build()
    )

    val response = session.generate("Jelaskan fotosintesis secara sederhana")
}

Keunggulan AICore: model mungkin sudah ter-cache di perangkat, jadi pengguna tidak perlu download 2-3GB terpisah.

Opsi 3: MediaPipe LLM Inference API

MediaPipe lebih fleksibel dan bekerja di lebih banyak perangkat Android:

dependencies {
    implementation("com.google.mediapipe:tasks-genai:0.10.20")
}

// Inisialisasi LLM
val options = LlmInference.LlmInferenceOptions.builder()
    .setModelPath("/data/local/tmp/gemma-4-e2b-it.bin")
    .setMaxTokens(1024)
    .setTopK(40)
    .setTemperature(0.7f)
    .setRandomSeed(42)
    .build()

val llmInference = LlmInference.createFromOptions(context, options)

// Generate teks
val response = llmInference.generateResponse("Apa itu machine learning?")

// Stream respons
llmInference.generateResponseAsync(prompt) { partialResult, done ->
    // Update UI dengan setiap token
    textView.append(partialResult)
}

Deployment iOS

Opsi 1: Aplikasi AI Edge Gallery

Cara termudah untuk mencoba Gemma 4 di iOS — download aplikasi AI Edge Gallery dari App Store. Untuk optimasi khusus Apple, lihat panduan iPhone kami.

Instal AI Edge Gallery
Browse model yang tersedia
Download Gemma 4 E2B atau E4B
Mulai ngobrol — sepenuhnya offline

Ini bagus untuk penggunaan personal dan testing, tapi bukan untuk embed di aplikasi sendiri.

Opsi 2: LiteRT (TensorFlow Lite Runtime)

Untuk mengintegrasikan Gemma 4 ke aplikasi iOS sendiri:

import LiteRT

class GemmaModel {
    private var interpreter: Interpreter?

    func loadModel() throws {
        guard let modelPath = Bundle.main.path(
            forResource: "gemma-4-e2b-it",
            ofType: "tflite"
        ) else {
            throw GemmaError.modelNotFound
        }

        var options = Interpreter.Options()
        options.threadCount = 4

        // Gunakan GPU delegate untuk akselerasi
        let gpuDelegate = MetalDelegate()
        interpreter = try Interpreter(
            modelPath: modelPath,
            options: options,
            delegates: [gpuDelegate]
        )
    }

    func generate(prompt: String) throws -> String {
        // Tokenisasi input
        let tokens = tokenize(prompt)

        // Jalankan inferensi
        try interpreter?.allocateTensors()
        try interpreter?.copy(tokens, toInputAt: 0)
        try interpreter?.invoke()

        // Decode output
        let output = try interpreter?.output(at: 0)
        return decode(output)
    }
}

Opsi 3: MediaPipe untuk iOS

MediaPipe juga bekerja di iOS:

import MediaPipeTasksGenAI

let options = LlmInference.Options()
options.modelPath = Bundle.main.path(
    forResource: "gemma-4-e2b-it",
    ofType: "bin"
)!
options.maxTokens = 1024
options.temperature = 0.7

let llm = try LlmInference(options: options)
let response = try llm.generateResponse(inputText: "Halo!")

Ekspektasi Performa

Realistis soal apa yang bisa dilakukan AI mobile. Ini yang bisa diharapkan:

Perangkat	Model	Kecepatan (tok/s)	Token Pertama (ms)	Penggunaan RAM
Pixel 9 Pro	E2B	~15-20	~800	~3 GB
Pixel 9 Pro	E4B	~8-12	~1500	~5 GB
Samsung S24 Ultra	E2B	~15-18	~900	~3 GB
iPhone 15 Pro	E2B	~12-15	~1000	~3 GB
iPhone 16 Pro	E2B	~15-18	~800	~3 GB
iPhone 16 Pro	E4B	~8-10	~1500	~5 GB

Kecepatan ini lebih lambat dari desktop, tapi perfectly usable untuk chat interaktif. Token pertama butuh waktu lebih lama karena model perlu inisialisasi.

Pertimbangan Baterai dan Panas

Menjalankan inferensi AI itu compute-intensive. Ini yang perlu diperhatikan:

Perhatian	Kenyataan	Mitigasi
Drain baterai	~5-8% per jam penggunaan aktif	Batasi panjang generasi maks
Panas	HP jadi hangat saat inferensi	Tambah jeda cooldown antara generasi panjang
Background use	OS mungkin kill prosesnya	Load model hanya saat dibutuhkan
Penyimpanan	2-5 GB per model	Tawarkan download model sebagai opsional

// Praktik baik: release model saat tidak dipakai
override fun onPause() {
    super.onPause()
    session?.close()
}

override fun onResume() {
    super.onResume()
    if (session == null) initModel()
}

Offline: Fitur Pembunuh

Keunggulan terbesar AI on-device adalah bisa bekerja tanpa internet. Pikirkan use case-nya:

Travel: Asisten AI bekerja di mode pesawat
Tugas sensitif privasi: Pertanyaan medis, jurnal pribadi, coding privat — tidak ada yang meninggalkan perangkat
Konektivitas buruk: Daerah pedalaman, subway, wilayah berkembang
Kecepatan: Tanpa latensi jaringan — respons dimulai langsung
Biaya: Tanpa biaya API setelah download model awal

Ini sesuatu yang API cloud secara fundamental tidak bisa tawarkan. Saat kamu menjalankan Gemma 4 di HP, datamu tetap di HP. Titik.

Mobile vs API Cloud

Faktor	On-Device (Gemma 4 E2B)	API Cloud (Gemini)
Kecepatan	~15 tok/s	~50-100 tok/s
Kualitas	Bagus (model 2B)	Excellent (model besar)
Privasi	Lengkap	Data dikirim ke server
Offline	Ya	Tidak
Biaya	Gratis setelah download	Bayar per token
Dampak baterai	Tinggi	Minimal
Setup	Download model diperlukan	Hanya API key

Pendekatan ideal adalah hybrid: gunakan Gemma 4 on-device untuk tugas sensitif privasi dan offline, dan fallback ke API cloud saat butuh kualitas lebih tinggi atau saat HP terkoneksi.

Langkah Selanjutnya

Mau jalankan Gemma 4 di iPhone? Cek Panduan iPhone detail kami untuk optimasi khusus Apple
Tidak yakin model mana? Baca Model Gemma 4 Mana? untuk memahami jajaran lengkap
Penasaran kebutuhan hardware untuk desktop? Lihat Panduan Hardware untuk rekomendasi desktop dan laptop

AI mobile masih awal, tapi nyata dan bekerja hari ini. Mulai dengan model E2B, tes di HP, dan bangun dari situ. Fakta bahwa AI yang capable berjalan sepenuhnya di HP yang kamu bawa di saku — tanpa internet, tanpa API key, tanpa tagihan bulanan — itu cukup menakjubkan.