Jika kamu punya GPU AMD dan ingin menjalankan Gemma 4 secara lokal, kamu beruntung — AMD punya dukungan Day 0 untuk Gemma 4 melalui ROCm. Tapi menyiapkan semuanya butuh sedikit lebih banyak setup daripada ekosistem plug-and-play CUDA NVIDIA. Panduan ini membimbingmu melalui seluruh proses, dari memeriksa kompatibilitas GPU hingga menjalankan inferensi dengan vLLM.
Apakah GPU AMD-mu Mendukung Gemma 4?
Tidak semua GPU AMD bekerja dengan ROCm. Kamu butuh kartu dengan arsitektur yang didukung. Berikut referensi cepat:
| Seri GPU | Arsitektur | Dukungan ROCm | Catatan |
|---|---|---|---|
| Radeon RX 7900 XTX/XT | RDNA 3 (gfx1100) | Ya | Opsi konsumer terbaik |
| Radeon RX 7800 XT | RDNA 3 (gfx1101) | Ya | Mid-range bagus |
| Radeon RX 7600 | RDNA 3 (gfx1102) | Parsial | VRAM terbatas (8GB) |
| Instinct MI250X | CDNA 2 (gfx90a) | Ya | GPU data center |
| Instinct MI300X | CDNA 3 (gfx942) | Ya | Performa terbaik |
| Radeon RX 6000 series | RDNA 2 | Terbatas | Hanya workaround komunitas |
Penting: String arsitektur harus cocok persis. Jika ROCm mendeteksi arsitektur yang salah, kamu akan mendapat kegagalan diam atau output sampah. Periksa milikmu dengan:
rocminfo | grep "Name:" | grep "gfx"Menginstal ROCm di Linux
ROCm hanya untuk Linux untuk beban kerja ML serius. Dukungan Windows ada melalui WSL2, tapi terbatas dan tidak direkomendasikan untuk penggunaan produksi.
Langkah 1: Periksa Kernel dan Driver
# Periksa versi kernel (5.15+ direkomendasikan)
uname -r
# Periksa apakah driver amdgpu dimuat
lsmod | grep amdgpuLangkah 2: Instal ROCm
Untuk Ubuntu 22.04/24.04:
# Tambahkan repositori paket AMD
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_6.4.60401-1_all.deb
sudo dpkg -i amdgpu-install_6.4.60401-1_all.deb
# Instal ROCm dengan library ML
sudo amdgpu-install --usecase=rocm,ml
# Tambahkan user ke grup render dan video
sudo usermod -aG render,video $USER
# Reboot
sudo rebootLangkah 3: Verifikasi Instalasi
# Periksa ROCm berfungsi
rocm-smi
# Kamu harusnya melihat GPU terdaftar dengan info suhu dan memoriMenjalankan Gemma 4 dengan Tool Lemonade
Tool Lemonade dari AMD adalah cara termudah untuk menjalankan Gemma 4 di hardware AMD. Tool ini menangani unduhan model, kuantisasi, dan serving dalam satu paket.
# Instal Lemonade
pip install lemonade-sdk
# Jalankan Gemma 4 dengan optimasi otomatis
lemonade serve --model gemma-4-12b-it --device rocm
# Untuk model lebih kecil
lemonade serve --model gemma-4-1b-it --device rocmLemonade secara otomatis mendeteksi arsitektur GPU-mu dan menerapkan optimasi yang tepat. Ini titik awal yang bagus sebelum pindah ke setup yang lebih advanced.
Menggunakan vLLM dengan ROCm
Untuk inferensi produksi, vLLM dengan dukungan ROCm memberikan throughput terbaik:
# Instal vLLM dengan dukungan ROCm
pip install vllm-rocm
# Mulai server
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-12b-it \
--tensor-parallel-size 1 \
--dtype float16 \
--max-model-len 8192Alternatif SGLang
SGLang juga mendukung ROCm dan bisa lebih cepat untuk beban kerja tertentu:
pip install sglang[rocm]
python -m sglang.launch_server \
--model-path google/gemma-4-12b-it \
--port 8000 \
--device rocmMasalah Umum dan Solusinya
"Triton backend required for multimodal"
Jika kamu mencoba menggunakan fitur vision atau audio Gemma 4 di AMD, kamu butuh backend Triton yang dikompilasi untuk ROCm:
# Instal Triton dengan dukungan ROCm
pip install triton-rocm
# Set backend secara eksplisit
export TRITON_BACKEND=rocmTanpa ini, inferensi teks saja berfungsi baik, tapi input multimodal akan gagal diam-diam atau memunculkan error yang membingungkan.
Ketidakcocokan String Arsitektur
Ini masalah paling umum. Jika kamu melihat error seperti hipErrorNoBinaryForGpu, string arsitekturmu tidak cocok:
# Periksa apa yang ROCm pikir GPU-mu
rocminfo | grep gfx
# Override jika perlu (contoh untuk RX 7900 XTX)
export HSA_OVERRIDE_GFX_VERSION=11.0.0Error Kehabisan Memori
GPU AMD melaporkan VRAM secara berbeda dari NVIDIA. Periksa memori yang benar-benar tersedia:
rocm-smi --showmeminfo vram
# Jika kehabisan, coba kuantisasi lebih kecil
# Q4_K_M berfungsi baik di kartu 16GBPerforma Lebih Buruk dari yang Diharapkan
Pastikan kamu tidak secara tidak sengaja berjalan di CPU:
# Verifikasi GPU sedang digunakan
watch -n 1 rocm-smi
# Kamu harusnya melihat utilisasi GPU > 0% selama inferensiEkspektasi Performa
Berikut yang bisa diharapkan untuk kecepatan inferensi token generation dengan Gemma 4 12B Q4_K_M:
| GPU | VRAM | Token/dtk | Catatan |
|---|---|---|---|
| RX 7900 XTX | 24GB | ~35-45 | Opsi konsumer AMD terbaik |
| RX 7800 XT | 16GB | ~25-30 | Bagus untuk sebagian besar tugas |
| MI300X | 192GB | ~120+ | Data center, jalankan presisi penuh |
| MI250X | 128GB | ~80+ | Data center generasi sebelumnya |
Windows dan WSL2
Jika kamu benar-benar harus menggunakan Windows, ROCm berfungsi melalui WSL2 dengan beberapa batasan:
# Di dalam WSL2 Ubuntu
sudo apt install rocm-hip-runtime
# Terbatas hanya HIP runtime — bukan full ROCm stackUntuk pengalaman Windows yang lebih baik, pertimbangkan menggunakan Ollama yang menangani deteksi GPU AMD secara otomatis pada kartu yang didukung.
Langkah Selanjutnya
- Mengalami masalah? Cek Panduan Troubleshooting Gemma 4 untuk solusi masalah paling umum
- Tidak yakin hardware-mu cukup? Baca Panduan Kebutuhan Hardware untuk rekomendasi VRAM dan RAM yang detail
- Ingin membandingkan model? Lihat Model Gemma 4 Mana yang Harus Kamu Pilih? untuk memilih ukuran yang tepat untuk GPU AMD-mu
Menjalankan Gemma 4 di AMD benar-benar bisa dilakukan — hanya butuh sedikit lebih banyak setup awal dibanding NVIDIA. Setelah ROCm dikonfigurasi dengan benar, performanya kompetitif, dan dukungan Day 0 dari AMD berarti kamu akan mendapat update bersamaan dengan pengguna NVIDIA ke depannya.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


