Cara Menjalankan Gemma 4 di Raspberry Pi (Ya, Benar-Benar)

Ya, kamu bisa menjalankan Gemma 4 di Raspberry Pi. Tidak, itu tidak akan cepat. Tapi berfungsi, dan ada beberapa alasan bagus untuk melakukannya. Saya akan tunjukkan caranya, dan jujur tentang apa yang bisa diharapkan.

Apa yang Realistis

Mari tetapkan ekspektasi sebelum kita mulai:

	Raspberry Pi 5 (8GB)	MacBook M2 16GB
Model	Gemma 4 E2B (Q4)	Gemma 4 26B (Q4)
Kecepatan	2-5 token/dtk	14-18 token/dtk
Rasa	Lambat tapi fungsional	Mulus dan interaktif
Biaya	~$80	~$1200+
Daya	5-15W	20-50W

Pada 2-5 token per detik, kamu menunggu beberapa detik untuk jawaban pendek dan mungkin 30 detik untuk respons lebih panjang. Itu bukan kecepatan chat interaktif. Tapi untuk tugas otomatis, asisten offline, dan eksperimen? Sepenuhnya layak.

Kebutuhan

Raspberry Pi 5 dengan 8GB RAM (wajib — 4GB tidak cukup)
Kartu microSD (setidaknya 32GB, idealnya 64GB) atau USB SSD
Pendinginan aktif (kipas atau heatsink — CPU akan panas)
Raspberry Pi OS 64-bit (Bookworm atau lebih baru)

Pi 4 dengan 8GB secara teknis juga bisa menjalankan E2B, tapi Pi 5 secara signifikan lebih cepat (~2x) dan saya merekomendasikannya jika kamu membeli hardware baru.

Menginstal Ollama di ARM

Ollama mendukung ARM64 secara native, jadi instalasi di Pi langsung:

# Instal Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Verifikasi instalasi
ollama --version

# Mulai service
sudo systemctl enable ollama
sudo systemctl start ollama

Sekarang pull model Gemma 4 terkecil:

# Pull E2B — satu-satunya model yang muat di 8GB
ollama pull gemma4:e2b

# Jalankan
ollama run gemma4:e2b

Unduhan awal memakan waktu di Pi (model sekitar 1.5GB). Setelah dimuat, kamu harusnya melihat prompt. Ketik sesuatu dan tunggu — respons pertamamu akan butuh beberapa detik untuk mulai dihasilkan.

Pengecekan Realitas Performa

Saya menjalankan beberapa benchmark di Raspberry Pi 5 8GB dengan pendinginan aktif:

Model: gemma4:e2b (Q4_K_M quantization)
Prompt: "Jelaskan apa itu API dalam 3 kalimat."

Prompt eval: ~1.5 detik
Kecepatan generasi: 3.2 token/detik
Waktu total untuk respons ~50 token: ~17 detik

Model: gemma4:e2b (Q4_K_M quantization)
Prompt: "Tulis fungsi Python untuk membalik string."

Prompt eval: ~2 detik
Kecepatan generasi: 2.8 token/detik
Waktu total untuk respons ~80 token: ~30 detik

Ini lambat. Tidak ada cara untuk menghindarinya. CPU ARM Pi melakukan semua pekerjaan — tidak ada akselerasi GPU di sini. Tapi jawabannya benar dan koheren. Modelnya sama Gemma 4 yang berjalan di Mac $3000 — hanya lebih lambat.

Kasus Penggunaan Praktis

Pada kecepatan ini, chat interaktif tidak ideal. Tapi kasus penggunaan ini berfungsi dengan baik:

Asisten Personal Offline

import requests

def ask_gemma(question):
    response = requests.post("http://localhost:11434/api/chat", json={
        "model": "gemma4:e2b",
        "messages": [{"role": "user", "content": question}],
        "stream": False,
    })
    return response.json()["message"]["content"]

# Proses pertanyaan semalam, dapatkan jawaban di pagi hari
answer = ask_gemma("Ringkas poin kunci artikel ini: ...")

Otak Otomasi Rumah

Hubungkan dengan Home Assistant untuk kontrol bahasa natural:

# Parse perintah suara menjadi aksi terstruktur
command = "Nyalakan lampu ruang tamu dan set ke 50%"

response = ask_gemma(f"""Parse perintah rumah ini menjadi JSON:
Command: {command}
Format: {{"device": "...", "action": "...", "value": "..."}}""")

Pada 2-5 tok/dtk, parsing perintah sederhana butuh ~5 detik. Itu baik untuk otomasi rumah — kamu tidak terburu-buru menyalakan lampu.

AI Mengutamakan Privasi

Nilai jual terbesar: datamu tidak pernah meninggalkan rumahmu. Tanpa cloud, tanpa API key, tanpa terms of service. Hanya komputer $80 menjalankan AI di mejamu.

Untuk orang yang ingin asisten AI privat untuk entri jurnal, catatan pribadi, atau pertanyaan sensitif — Pi yang menjalankan Gemma 4 sulit dikalahkan dalam harga.

Belajar dan Edukasi

Raspberry Pi yang menjalankan Gemma 4 adalah tool pengajaran yang luar biasa:

Siswa bisa bereksperimen dengan AI tanpa butuh akun cloud
Sekolah bisa menyiapkan workstation AI dengan kurang dari $100 per unit
Belajar tentang inferensi LLM, tokenisasi, dan kuantisasi langsung

Tips Optimasi

1. Gunakan kuantisasi Q4 (atau lebih rendah)

Q4_K_M memberi rasio kecepatan-ke-kualitas terbaik di Pi. Jangan coba Q8 — akan terlalu lambat dan mungkin tidak muat di memori.

2. Jaga konteks tetap pendek

# Kurangi jendela konteks untuk menghemat memori dan mempercepat pemrosesan
ollama run gemma4:e2b --num-ctx 1024

Jendela konteks default memakan RAM terbatasmu. Untuk Q&A sederhana, 1024 token sudah cukup.

3. Gunakan SSD alih-alih microSD

USB 3.0 SSD dramatis mempercepat loading model. Kartu microSD adalah bottleneck saat model pertama kali dimuat ke memori.

# Cek apakah modelmu di storage lambat
ls -la ~/.ollama/models/

4. Tambahkan swap space

Jika kamu ketat di memori:

# Tambahkan 4GB swap
sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

# Buat permanen
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

Peringatan: swap di microSD akan sangat lambat. Gunakan SSD jika mungkin.

5. Tutup semua yang lain

Pi hanya punya 8GB. Tutup desktop environment jika kamu berjalan headless:

# Beralih ke CLI saja
sudo systemctl set-default multi-user.target
sudo reboot

Ini membebaskan ~500MB RAM — yang penting saat kamu bekerja dengan margin ketat.

6. Turunkan suhu

Maksud saya suhu fisik. Pi 5 throttle saat panas. Pastikan kamu punya:

Heatsink yang proper
Pendinginan aktif (kipas)
Ventilasi yang baik

Bagaimana dengan Pi 4?

Raspberry Pi 4 dengan 8GB bisa menjalankan Gemma 4 E2B, tapi:

~1.5-3 tok/dtk (kira-kira 40% lebih lambat dari Pi 5)
Tidak ada ekstensi crypto untuk inferensi lebih cepat
Masih berfungsi untuk kasus penggunaan yang sama, hanya dengan lebih banyak kesabaran

Jika kamu sudah punya Pi 4 8GB, coba. Jika kamu membeli baru, ambil Pi 5.

Faktor Menyenangkan

Mari jujur: menjalankan AI di komputer seukuran kartu kredit itu keren. Ini pembuka percakapan, proyek akhir pekan, dan pengalaman belajar yang tulus. Fakta bahwa ia menghasilkan teks yang koheren dan berguna sama sekali itu luar biasa.

Muncul di meetup dengan Raspberry Pi yang menjalankan Gemma 4 dan orang akan ingin berbicara denganmu.

Untuk setup yang lebih praktis, cek menjalankan Gemma 4 di Mac atau di Docker. Dan jika kamu ingin memahami mengapa model E2B muat di hardware sekecil itu, panduan arsitektur kami menjelaskan ukuran model yang berbeda.