Kebanyakan tutorial Gemma 4 hanya menunjukkan cara menggunakannya untuk teks. Tapi inilah masalahnya — multimodal adalah upgrade terbesar Gemma 4 dibanding versi sebelumnya. Setiap model Gemma 4 bisa memahami gambar, dan model E2B/E4B yang lebih kecil bahkan menangani audio. Jika kamu tidak mengirim gambar ke Gemma 4, kamu hanya menggunakan setengah model.
Mari perbaiki itu.
Apa yang Bisa Gemma 4 "Lihat"?
Kemampuan vision Gemma 4 mencakup banyak hal:
- Foto — deskripsikan scene, identifikasi objek, baca tanda
- Screenshot — ekstrak teks, analisis layout UI
- Grafik dan chart — interpretasikan visualisasi data
- Dokumen — baca teks cetak atau scan (OCR)
- Tulisan tangan — baca catatan tulisan tangan (kualitas tergantung keterbacaan)
- Frame video — analisis frame individu dari video
- Diagram — memahami flowchart, diagram arsitektur, wireframe
- Screenshot kode — baca dan jelaskan kode dari gambar
Satu hal penting untuk dipahami: Gemma 4 melakukan pemahaman gambar, bukan pembuatan gambar. Ia bisa melihat gambar dan memberitahumu apa yang ada di dalamnya, tapi tidak bisa membuat gambar. Jika kamu ingin pembuatan gambar, itu model yang sepenuhnya berbeda (seperti Imagen).
Kirim Gambar via Ollama CLI
Jika kamu sudah menjalankan Ollama secara lokal, mengirim gambar sangat sederhana:
ollama run gemma4 "Deskripsikan gambar ini secara detail" --image /path/to/photo.jpgMulti gambar juga berfungsi:
ollama run gemma4 "Bandingkan dua screenshot ini" --image before.png --image after.pngItu saja. Satu flag. Ollama menangani encoding dan semuanya di balik layar.
Kirim Gambar via API (Python)
Untuk penggunaan programatik, kamu perlu mengencode gambar ke base64 dan menyertakannya di panggilan API. Berikut caranya dengan API lokal Ollama:
import requests
import base64
# Baca dan encode gambar
with open("screenshot.png", "rb") as f:
image_data = base64.b64encode(f.read()).decode("utf-8")
response = requests.post("http://localhost:11434/api/generate", json={
"model": "gemma4",
"prompt": "Teks apa yang terlihat di screenshot ini?",
"images": [image_data],
"stream": False
})
print(response.json()["response"])Menggunakan Chat API dengan Gambar
Untuk percakapan multi-turn tentang gambar:
import requests
import base64
with open("chart.png", "rb") as f:
image_data = base64.b64encode(f.read()).decode("utf-8")
response = requests.post("http://localhost:11434/api/chat", json={
"model": "gemma4",
"messages": [
{
"role": "user",
"content": "Tren apa yang kamu lihat dalam chart ini?",
"images": [image_data]
}
],
"stream": False
})
print(response.json()["message"]["content"])Menggunakan Google AI Studio SDK
import google.generativeai as genai
from pathlib import Path
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemma-4-27b-it")
image = genai.upload_file(Path("diagram.png"))
response = model.generate_content([
"Jelaskan diagram arsitektur ini. Apa komponen utamanya dan bagaimana mereka terhubung?",
image
])
print(response.text)Untuk opsi API lebih banyak, lihat tutorial API lengkap kami.
5 Kasus Penggunaan Praktis (dengan Contoh Prompt)
1. OCR: Ekstrak Teks dari Screenshot
Ekstrak semua teks yang terlihat dari screenshot ini. Format sebagai teks plain, pertahankan layout sebisa mungkin.Ini berfungsi dengan baik mengejutkan untuk screenshot aplikasi, halaman web, struk, dan kartu nama. Tidak sempurna dengan teks sangat kecil atau font tidak biasa, tapi untuk kebanyakan kasus penggunaan menyelesaikan pekerjaannya.
2. Analisis Chart dan Data
Analisis chart ini. Chart jenis apa? Apa titik data kunci? Tren atau pola apa yang kamu perhatikan? Ringkas poin utamanya dalam satu kalimat.Gemma 4 bisa membaca bar chart, line graph, pie chart, dan scatter plot. Ia akan mengidentifikasi axes, label, dan nilai perkiraan. Bagus untuk memahami visualisasi data dengan cepat tanpa menggali data mentah.
3. Review Desain UI
Review screenshot UI ini sebagai UX designer. Identifikasi: 1) Masalah hierarki visual, 2) Kekhawatiran aksesibilitas (kontras, ukuran teks), 3) Inkonsistensi layout, 4) Saran perbaikan. Jadilah spesifik dan referensikan elemen tepat.Ini workflow yang benar-benar berguna. Drop screenshot aplikasimu dan dapatkan kritik desain cepat. Ia menangkap hal-hal seperti kontras buruk, spacing tidak konsisten, dan CTA tidak jelas.
4. Deskripsi Foto (Aksesibilitas)
Tulis deskripsi alt-text detail untuk gambar ini cocok untuk screen reader. Sertakan: subjek utama, setting, warna, mood, dan teks apa pun yang terlihat. Buat di bawah 150 kata.Sempurna untuk menghasilkan alt text untuk website. Ini bukan pengganti deskripsi tulisan tangan untuk konten kritis, tapi bagus untuk pemrosesan massal.
5. Transkripsi Catatan Tulisan Tangan
Transkripsi teks tulisan tangan dalam gambar ini. Jika ada kata yang tidak jelas, tandai dengan [unclear]. Pertahankan struktur asli (bullet point, daftar bernomor, dll).Kualitas sangat tergantung pada tulisan tangan. Tulisan cetak yang bersih berfungsi dengan baik. Cursive berantakan? Untung-untungan. Tapi bahkan transkripsi tidak sempurna lebih cepat daripada mengetik ulang.
Model Mana yang Mendukung Apa?
| Kemampuan | E2B | E4B | 26B | 31B |
|---|---|---|---|---|
| Input teks | Ya | Ya | Ya | Ya |
| Input gambar | Ya | Ya | Ya | Ya |
| Input audio | Ya | Ya | Tidak | Tidak |
| Frame video | Ya | Ya | Ya | Ya |
| Pembuatan gambar | Tidak | Tidak | Tidak | Tidak |
Hal kunci untuk dicatat:
- Semua model mendukung input gambar. Bahkan E2B terkecil bisa menganalisis gambar.
- Input audio hanya E2B/E4B. Model lebih besar tidak mendukung audio secara native.
- Tidak ada pembuatan gambar. Gemma 4 adalah model pemahaman, bukan model gambar generatif.
- Video = frame. Kamu mengirim frame individu, bukan file video. Ekstrak keyframe dulu dan kirim sebagai gambar.
Tips untuk Analisis Gambar yang Lebih Baik
Jadilah spesifik dalam prompt-mu. "Deskripsikan gambar ini" memberimu output generik. "Daftar setiap produk yang terlihat di rak ini dengan perkiraan harga" memberimu data yang berguna.
Kualitas gambar penting. Foto buram memberi jawaban buram. Crop ke area relevan sebelum mengirim — noise lebih sedikit berarti hasil lebih baik.
Gunakan ukuran model yang tepat. Untuk OCR sederhana, E2B sudah cukup. Untuk pemahaman scene kompleks atau analisis bernuansa, model 26B atau 31B secara terlihat lebih baik.
Multi gambar berfungsi. Kamu bisa mengirim 2-3 gambar dan meminta perbandingan, perbedaan, atau analisis gabungan. Jangan berlebihan — lebih banyak gambar berarti lebih banyak waktu pemrosesan dan penggunaan memori.
Batasan
- Tidak ada pembuatan gambar. Tidak bisa menggambar, membuat, atau mengedit gambar.
- Halusinasi terjadi. Gemma 4 mungkin "membaca" teks yang tidak ada atau salah mengidentifikasi objek. Selalu verifikasi informasi kritis.
- Teks kecil itu sulit. Jika kamu hampir tidak bisa membacanya, Gemma 4 mungkin juga tidak. Zoom dan crop.
- Diagram kompleks. Diagram teknis yang sangat padat dengan banyak elemen tumpang tindih bisa membingungkan model. Pecah menjadi bagian jika perlu.
Langkah Selanjutnya
- Butuh prompt yang tepat untuk tugas gambar? Cek 50 Prompt Gemma 4 Terbaik
- Ingin memanggil API gambar secara programatik? Lihat tutorial API kami
- Tidak yakin model mana yang harus digunakan untuk tugas vision-mu? Baca Gemma 4: Model Mana?
- Menjalankan secara lokal? Mulai dengan panduan setup Ollama kami
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


