Comment exécuter Gemma 4 sur GPU AMD (Guide de configuration ROCm)

Si vous avez un GPU AMD et souhaitez exécuter Gemma 4 localement, vous avez de la chance — AMD offre un support Day 0 pour Gemma 4 via ROCm. Mais faire fonctionner le tout demande un peu plus de configuration que l'écosystème CUDA plug-and-play de NVIDIA. Ce guide vous accompagne dans tout le processus, de la vérification de la compatibilité GPU à l'exécution de l'inférence avec vLLM.

Votre GPU AMD supporte-t-il Gemma 4 ?

Tous les GPU AMD ne fonctionnent pas avec ROCm. Vous avez besoin d'une carte avec une architecture supportée. Voici une référence rapide :

Série GPU	Architecture	Support ROCm	Notes
Radeon RX 7900 XTX/XT	RDNA 3 (gfx1100)	Oui	Meilleure option grand public
Radeon RX 7800 XT	RDNA 3 (gfx1101)	Oui	Bon milieu de gamme
Radeon RX 7600	RDNA 3 (gfx1102)	Partiel	VRAM limitée (8 Go)
Instinct MI250X	CDNA 2 (gfx90a)	Oui	GPU datacenter
Instinct MI300X	CDNA 3 (gfx942)	Oui	Performance de premier plan
Radeon RX 6000 series	RDNA 2	Limité	Solutions communautaires uniquement

Important : La chaîne d'architecture doit correspondre exactement. Si ROCm détecte la mauvaise architecture, vous obtiendrez des échecs silencieux ou des résultats incohérents. Vérifiez la vôtre avec :

rocminfo | grep "Name:" | grep "gfx"

Installer ROCm sur Linux

ROCm est réservé à Linux pour les charges de travail ML sérieuses. Le support Windows existe via WSL2, mais il est limité et non recommandé pour la production.

Étape 1 : Vérifier votre noyau et pilote

# Vérifier la version du noyau (5.15+ recommandé)
uname -r

# Vérifier si le pilote amdgpu est chargé
lsmod | grep amdgpu

Étape 2 : Installer ROCm

Pour Ubuntu 22.04/24.04 :

# Ajouter le dépôt de paquets AMD
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_6.4.60401-1_all.deb
sudo dpkg -i amdgpu-install_6.4.60401-1_all.deb

# Installer ROCm avec les bibliothèques ML
sudo amdgpu-install --usecase=rocm,ml

# Ajouter votre utilisateur aux groupes render et video
sudo usermod -aG render,video $USER

# Redémarrer
sudo reboot

Étape 3 : Vérifier l'installation

# Vérifier que ROCm fonctionne
rocm-smi

# Vous devriez voir votre GPU listé avec la température et les infos mémoire

Exécuter Gemma 4 avec l'outil Lemonade

L'outil Lemonade d'AMD est le moyen le plus simple de faire tourner Gemma 4 sur du matériel AMD. Il gère le téléchargement du modèle, la quantification et le service en un seul paquet.

# Installer Lemonade
pip install lemonade-sdk

# Exécuter Gemma 4 avec optimisation automatique
lemonade serve --model gemma-4-12b-it --device rocm

# Pour le modèle plus petit
lemonade serve --model gemma-4-1b-it --device rocm

Lemonade détecte automatiquement l'architecture de votre GPU et applique les bonnes optimisations. C'est un excellent point de départ avant de passer à des configurations plus avancées.

Utiliser vLLM avec ROCm

Pour l'inférence en production, vLLM avec le support ROCm offre le meilleur débit :

# Installer vLLM avec le support ROCm
pip install vllm-rocm

# Démarrer le serveur
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-12b-it \
  --tensor-parallel-size 1 \
  --dtype float16 \
  --max-model-len 8192

Alternative SGLang

SGLang supporte également ROCm et peut être plus rapide pour certaines charges de travail :

pip install sglang[rocm]

python -m sglang.launch_server \
  --model-path google/gemma-4-12b-it \
  --port 8000 \
  --device rocm

Problèmes courants et solutions

« Triton backend required for multimodal »

Si vous essayez d'utiliser les fonctionnalités vision ou audio de Gemma 4 sur AMD, vous avez besoin du backend Triton compilé pour ROCm :

# Installer Triton avec le support ROCm
pip install triton-rocm

# Définir le backend explicitement
export TRITON_BACKEND=rocm

Sans cela, l'inférence texte seul fonctionne bien, mais les entrées multimodales échoueront silencieusement ou produiront des erreurs cryptiques.

Incompatibilité de chaîne d'architecture

C'est le problème le plus courant. Si vous voyez des erreurs comme hipErrorNoBinaryForGpu, votre chaîne d'architecture ne correspond pas :

# Vérifier ce que ROCm pense que votre GPU est
rocminfo | grep gfx

# Forcer si nécessaire (exemple pour RX 7900 XTX)
export HSA_OVERRIDE_GFX_VERSION=11.0.0

Erreurs de mémoire insuffisante

Les GPU AMD rapportent la VRAM différemment de NVIDIA. Vérifiez la mémoire réellement disponible :

rocm-smi --showmeminfo vram

# Si vous manquez de mémoire, essayez une quantification plus petite
# Q4_K_M fonctionne bien sur les cartes 16 Go

Performance inférieure aux attentes

Assurez-vous que vous ne tournez pas accidentellement sur CPU :

# Vérifier que le GPU est utilisé
watch -n 1 rocm-smi

# Vous devriez voir l'utilisation GPU > 0% pendant l'inférence

Attentes de performance

Voici ce à quoi vous pouvez vous attendre pour la vitesse de génération de tokens avec Gemma 4 12B Q4_K_M :

GPU	VRAM	Tokens/s	Notes
RX 7900 XTX	24 Go	~35-45	Meilleure option AMD grand public
RX 7800 XT	16 Go	~25-30	Bon pour la plupart des tâches
MI300X	192 Go	~120+	Datacenter, pleine précision
MI250X	128 Go	~80+	Génération précédente datacenter

Windows et WSL2

Si vous devez absolument utiliser Windows, ROCm fonctionne via WSL2 avec quelques limitations :

# Dans WSL2 Ubuntu
sudo apt install rocm-hip-runtime
# Limité au runtime HIP uniquement — pas de stack ROCm complète

Pour une meilleure expérience Windows, envisagez d'utiliser Ollama qui gère automatiquement la détection GPU AMD sur les cartes supportées.

Prochaines étapes

Des problèmes ? Consultez notre Guide de dépannage Gemma 4 pour les solutions aux problèmes les plus courants
Pas sûr que votre matériel suffise ? Lisez le Guide des exigences matérielles pour des recommandations détaillées de VRAM et RAM
Envie de comparer les modèles ? Voir Quel modèle Gemma 4 choisir ? pour choisir la bonne taille pour votre GPU AMD

Exécuter Gemma 4 sur AMD est tout à fait faisable — il faut juste un peu plus de configuration initiale qu'avec NVIDIA. Une fois ROCm correctement configuré, les performances sont compétitives, et le support Day 0 d'AMD signifie que vous recevrez les mises à jour en même temps que les utilisateurs NVIDIA.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />