Cara Menjalankan Gemma 4 di GPU AMD (Panduan Setup ROCm)

Jika kamu punya GPU AMD dan ingin menjalankan Gemma 4 secara lokal, kamu beruntung — AMD punya dukungan Day 0 untuk Gemma 4 melalui ROCm. Tapi menyiapkan semuanya butuh sedikit lebih banyak setup daripada ekosistem plug-and-play CUDA NVIDIA. Panduan ini membimbingmu melalui seluruh proses, dari memeriksa kompatibilitas GPU hingga menjalankan inferensi dengan vLLM.

Apakah GPU AMD-mu Mendukung Gemma 4?

Tidak semua GPU AMD bekerja dengan ROCm. Kamu butuh kartu dengan arsitektur yang didukung. Berikut referensi cepat:

Seri GPU	Arsitektur	Dukungan ROCm	Catatan
Radeon RX 7900 XTX/XT	RDNA 3 (gfx1100)	Ya	Opsi konsumer terbaik
Radeon RX 7800 XT	RDNA 3 (gfx1101)	Ya	Mid-range bagus
Radeon RX 7600	RDNA 3 (gfx1102)	Parsial	VRAM terbatas (8GB)
Instinct MI250X	CDNA 2 (gfx90a)	Ya	GPU data center
Instinct MI300X	CDNA 3 (gfx942)	Ya	Performa terbaik
Radeon RX 6000 series	RDNA 2	Terbatas	Hanya workaround komunitas

Penting: String arsitektur harus cocok persis. Jika ROCm mendeteksi arsitektur yang salah, kamu akan mendapat kegagalan diam atau output sampah. Periksa milikmu dengan:

rocminfo | grep "Name:" | grep "gfx"

Menginstal ROCm di Linux

ROCm hanya untuk Linux untuk beban kerja ML serius. Dukungan Windows ada melalui WSL2, tapi terbatas dan tidak direkomendasikan untuk penggunaan produksi.

Langkah 1: Periksa Kernel dan Driver

# Periksa versi kernel (5.15+ direkomendasikan)
uname -r

# Periksa apakah driver amdgpu dimuat
lsmod | grep amdgpu

Langkah 2: Instal ROCm

Untuk Ubuntu 22.04/24.04:

# Tambahkan repositori paket AMD
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_6.4.60401-1_all.deb
sudo dpkg -i amdgpu-install_6.4.60401-1_all.deb

# Instal ROCm dengan library ML
sudo amdgpu-install --usecase=rocm,ml

# Tambahkan user ke grup render dan video
sudo usermod -aG render,video $USER

# Reboot
sudo reboot

Langkah 3: Verifikasi Instalasi

# Periksa ROCm berfungsi
rocm-smi

# Kamu harusnya melihat GPU terdaftar dengan info suhu dan memori

Menjalankan Gemma 4 dengan Tool Lemonade

Tool Lemonade dari AMD adalah cara termudah untuk menjalankan Gemma 4 di hardware AMD. Tool ini menangani unduhan model, kuantisasi, dan serving dalam satu paket.

# Instal Lemonade
pip install lemonade-sdk

# Jalankan Gemma 4 dengan optimasi otomatis
lemonade serve --model gemma-4-12b-it --device rocm

# Untuk model lebih kecil
lemonade serve --model gemma-4-1b-it --device rocm

Lemonade secara otomatis mendeteksi arsitektur GPU-mu dan menerapkan optimasi yang tepat. Ini titik awal yang bagus sebelum pindah ke setup yang lebih advanced.

Menggunakan vLLM dengan ROCm

Untuk inferensi produksi, vLLM dengan dukungan ROCm memberikan throughput terbaik:

# Instal vLLM dengan dukungan ROCm
pip install vllm-rocm

# Mulai server
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-12b-it \
  --tensor-parallel-size 1 \
  --dtype float16 \
  --max-model-len 8192

Alternatif SGLang

SGLang juga mendukung ROCm dan bisa lebih cepat untuk beban kerja tertentu:

pip install sglang[rocm]

python -m sglang.launch_server \
  --model-path google/gemma-4-12b-it \
  --port 8000 \
  --device rocm

Masalah Umum dan Solusinya

"Triton backend required for multimodal"

Jika kamu mencoba menggunakan fitur vision atau audio Gemma 4 di AMD, kamu butuh backend Triton yang dikompilasi untuk ROCm:

# Instal Triton dengan dukungan ROCm
pip install triton-rocm

# Set backend secara eksplisit
export TRITON_BACKEND=rocm

Tanpa ini, inferensi teks saja berfungsi baik, tapi input multimodal akan gagal diam-diam atau memunculkan error yang membingungkan.

Ketidakcocokan String Arsitektur

Ini masalah paling umum. Jika kamu melihat error seperti hipErrorNoBinaryForGpu, string arsitekturmu tidak cocok:

# Periksa apa yang ROCm pikir GPU-mu
rocminfo | grep gfx

# Override jika perlu (contoh untuk RX 7900 XTX)
export HSA_OVERRIDE_GFX_VERSION=11.0.0

Error Kehabisan Memori

GPU AMD melaporkan VRAM secara berbeda dari NVIDIA. Periksa memori yang benar-benar tersedia:

rocm-smi --showmeminfo vram

# Jika kehabisan, coba kuantisasi lebih kecil
# Q4_K_M berfungsi baik di kartu 16GB

Performa Lebih Buruk dari yang Diharapkan

Pastikan kamu tidak secara tidak sengaja berjalan di CPU:

# Verifikasi GPU sedang digunakan
watch -n 1 rocm-smi

# Kamu harusnya melihat utilisasi GPU > 0% selama inferensi

Ekspektasi Performa

Berikut yang bisa diharapkan untuk kecepatan inferensi token generation dengan Gemma 4 12B Q4_K_M:

GPU	VRAM	Token/dtk	Catatan
RX 7900 XTX	24GB	~35-45	Opsi konsumer AMD terbaik
RX 7800 XT	16GB	~25-30	Bagus untuk sebagian besar tugas
MI300X	192GB	~120+	Data center, jalankan presisi penuh
MI250X	128GB	~80+	Data center generasi sebelumnya

Windows dan WSL2

Jika kamu benar-benar harus menggunakan Windows, ROCm berfungsi melalui WSL2 dengan beberapa batasan:

# Di dalam WSL2 Ubuntu
sudo apt install rocm-hip-runtime
# Terbatas hanya HIP runtime — bukan full ROCm stack

Untuk pengalaman Windows yang lebih baik, pertimbangkan menggunakan Ollama yang menangani deteksi GPU AMD secara otomatis pada kartu yang didukung.

Langkah Selanjutnya

Mengalami masalah? Cek Panduan Troubleshooting Gemma 4 untuk solusi masalah paling umum
Tidak yakin hardware-mu cukup? Baca Panduan Kebutuhan Hardware untuk rekomendasi VRAM dan RAM yang detail
Ingin membandingkan model? Lihat Model Gemma 4 Mana yang Harus Kamu Pilih? untuk memilih ukuran yang tepat untuk GPU AMD-mu

Menjalankan Gemma 4 di AMD benar-benar bisa dilakukan — hanya butuh sedikit lebih banyak setup awal dibanding NVIDIA. Setelah ROCm dikonfigurasi dengan benar, performanya kompetitif, dan dukungan Day 0 dari AMD berarti kamu akan mendapat update bersamaan dengan pengguna NVIDIA ke depannya.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />