Si vous avez un GPU AMD et souhaitez exécuter Gemma 4 localement, vous avez de la chance — AMD offre un support Day 0 pour Gemma 4 via ROCm. Mais faire fonctionner le tout demande un peu plus de configuration que l'écosystème CUDA plug-and-play de NVIDIA. Ce guide vous accompagne dans tout le processus, de la vérification de la compatibilité GPU à l'exécution de l'inférence avec vLLM.
Votre GPU AMD supporte-t-il Gemma 4 ?
Tous les GPU AMD ne fonctionnent pas avec ROCm. Vous avez besoin d'une carte avec une architecture supportée. Voici une référence rapide :
| Série GPU | Architecture | Support ROCm | Notes |
|---|---|---|---|
| Radeon RX 7900 XTX/XT | RDNA 3 (gfx1100) | Oui | Meilleure option grand public |
| Radeon RX 7800 XT | RDNA 3 (gfx1101) | Oui | Bon milieu de gamme |
| Radeon RX 7600 | RDNA 3 (gfx1102) | Partiel | VRAM limitée (8 Go) |
| Instinct MI250X | CDNA 2 (gfx90a) | Oui | GPU datacenter |
| Instinct MI300X | CDNA 3 (gfx942) | Oui | Performance de premier plan |
| Radeon RX 6000 series | RDNA 2 | Limité | Solutions communautaires uniquement |
Important : La chaîne d'architecture doit correspondre exactement. Si ROCm détecte la mauvaise architecture, vous obtiendrez des échecs silencieux ou des résultats incohérents. Vérifiez la vôtre avec :
rocminfo | grep "Name:" | grep "gfx"Installer ROCm sur Linux
ROCm est réservé à Linux pour les charges de travail ML sérieuses. Le support Windows existe via WSL2, mais il est limité et non recommandé pour la production.
Étape 1 : Vérifier votre noyau et pilote
# Vérifier la version du noyau (5.15+ recommandé)
uname -r
# Vérifier si le pilote amdgpu est chargé
lsmod | grep amdgpuÉtape 2 : Installer ROCm
Pour Ubuntu 22.04/24.04 :
# Ajouter le dépôt de paquets AMD
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_6.4.60401-1_all.deb
sudo dpkg -i amdgpu-install_6.4.60401-1_all.deb
# Installer ROCm avec les bibliothèques ML
sudo amdgpu-install --usecase=rocm,ml
# Ajouter votre utilisateur aux groupes render et video
sudo usermod -aG render,video $USER
# Redémarrer
sudo rebootÉtape 3 : Vérifier l'installation
# Vérifier que ROCm fonctionne
rocm-smi
# Vous devriez voir votre GPU listé avec la température et les infos mémoireExécuter Gemma 4 avec l'outil Lemonade
L'outil Lemonade d'AMD est le moyen le plus simple de faire tourner Gemma 4 sur du matériel AMD. Il gère le téléchargement du modèle, la quantification et le service en un seul paquet.
# Installer Lemonade
pip install lemonade-sdk
# Exécuter Gemma 4 avec optimisation automatique
lemonade serve --model gemma-4-12b-it --device rocm
# Pour le modèle plus petit
lemonade serve --model gemma-4-1b-it --device rocmLemonade détecte automatiquement l'architecture de votre GPU et applique les bonnes optimisations. C'est un excellent point de départ avant de passer à des configurations plus avancées.
Utiliser vLLM avec ROCm
Pour l'inférence en production, vLLM avec le support ROCm offre le meilleur débit :
# Installer vLLM avec le support ROCm
pip install vllm-rocm
# Démarrer le serveur
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-12b-it \
--tensor-parallel-size 1 \
--dtype float16 \
--max-model-len 8192Alternative SGLang
SGLang supporte également ROCm et peut être plus rapide pour certaines charges de travail :
pip install sglang[rocm]
python -m sglang.launch_server \
--model-path google/gemma-4-12b-it \
--port 8000 \
--device rocmProblèmes courants et solutions
« Triton backend required for multimodal »
Si vous essayez d'utiliser les fonctionnalités vision ou audio de Gemma 4 sur AMD, vous avez besoin du backend Triton compilé pour ROCm :
# Installer Triton avec le support ROCm
pip install triton-rocm
# Définir le backend explicitement
export TRITON_BACKEND=rocmSans cela, l'inférence texte seul fonctionne bien, mais les entrées multimodales échoueront silencieusement ou produiront des erreurs cryptiques.
Incompatibilité de chaîne d'architecture
C'est le problème le plus courant. Si vous voyez des erreurs comme hipErrorNoBinaryForGpu, votre chaîne d'architecture ne correspond pas :
# Vérifier ce que ROCm pense que votre GPU est
rocminfo | grep gfx
# Forcer si nécessaire (exemple pour RX 7900 XTX)
export HSA_OVERRIDE_GFX_VERSION=11.0.0Erreurs de mémoire insuffisante
Les GPU AMD rapportent la VRAM différemment de NVIDIA. Vérifiez la mémoire réellement disponible :
rocm-smi --showmeminfo vram
# Si vous manquez de mémoire, essayez une quantification plus petite
# Q4_K_M fonctionne bien sur les cartes 16 GoPerformance inférieure aux attentes
Assurez-vous que vous ne tournez pas accidentellement sur CPU :
# Vérifier que le GPU est utilisé
watch -n 1 rocm-smi
# Vous devriez voir l'utilisation GPU > 0% pendant l'inférenceAttentes de performance
Voici ce à quoi vous pouvez vous attendre pour la vitesse de génération de tokens avec Gemma 4 12B Q4_K_M :
| GPU | VRAM | Tokens/s | Notes |
|---|---|---|---|
| RX 7900 XTX | 24 Go | ~35-45 | Meilleure option AMD grand public |
| RX 7800 XT | 16 Go | ~25-30 | Bon pour la plupart des tâches |
| MI300X | 192 Go | ~120+ | Datacenter, pleine précision |
| MI250X | 128 Go | ~80+ | Génération précédente datacenter |
Windows et WSL2
Si vous devez absolument utiliser Windows, ROCm fonctionne via WSL2 avec quelques limitations :
# Dans WSL2 Ubuntu
sudo apt install rocm-hip-runtime
# Limité au runtime HIP uniquement — pas de stack ROCm complètePour une meilleure expérience Windows, envisagez d'utiliser Ollama qui gère automatiquement la détection GPU AMD sur les cartes supportées.
Prochaines étapes
- Des problèmes ? Consultez notre Guide de dépannage Gemma 4 pour les solutions aux problèmes les plus courants
- Pas sûr que votre matériel suffise ? Lisez le Guide des exigences matérielles pour des recommandations détaillées de VRAM et RAM
- Envie de comparer les modèles ? Voir Quel modèle Gemma 4 choisir ? pour choisir la bonne taille pour votre GPU AMD
Exécuter Gemma 4 sur AMD est tout à fait faisable — il faut juste un peu plus de configuration initiale qu'avec NVIDIA. Une fois ROCm correctement configuré, les performances sont compétitives, et le support Day 0 d'AMD signifie que vous recevrez les mises à jour en même temps que les utilisateurs NVIDIA.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


