Si tienes una GPU AMD y quieres ejecutar Gemma 4 localmente, estas de suerte — AMD tiene soporte desde el Dia 0 para Gemma 4 a traves de ROCm. Pero hacer que todo funcione requiere un poco mas de configuracion que el ecosistema plug-and-play de CUDA de NVIDIA. Esta guia te lleva por todo el proceso, desde verificar la compatibilidad de tu GPU hasta ejecutar inferencia con vLLM.
¿Tu GPU AMD Soporta Gemma 4?
No todas las GPUs AMD funcionan con ROCm. Necesitas una tarjeta con una arquitectura soportada. Aqui tienes una referencia rapida:
| Serie de GPU | Arquitectura | Soporte ROCm | Notas |
|---|---|---|---|
| Radeon RX 7900 XTX/XT | RDNA 3 (gfx1100) | Si | Mejor opcion de consumo |
| Radeon RX 7800 XT | RDNA 3 (gfx1101) | Si | Buen rango medio |
| Radeon RX 7600 | RDNA 3 (gfx1102) | Parcial | VRAM limitada (8GB) |
| Instinct MI250X | CDNA 2 (gfx90a) | Si | GPU de centro de datos |
| Instinct MI300X | CDNA 3 (gfx942) | Si | Rendimiento de primera |
| Radeon RX 6000 series | RDNA 2 | Limitado | Solo soluciones de la comunidad |
Importante: La cadena de arquitectura debe coincidir exactamente. Si ROCm detecta la arquitectura incorrecta, obtendras fallos silenciosos o salida basura. Verifica la tuya con:
rocminfo | grep "Name:" | grep "gfx"Instalando ROCm en Linux
ROCm es solo para Linux en cargas de trabajo serias de ML. El soporte en Windows existe a traves de WSL2, pero es limitado y no recomendado para uso en produccion.
Paso 1: Verifica Tu Kernel y Driver
# Verificar version del kernel (5.15+ recomendado)
uname -r
# Verificar si el driver amdgpu esta cargado
lsmod | grep amdgpuPaso 2: Instala ROCm
Para Ubuntu 22.04/24.04:
# Agregar el repositorio de paquetes de AMD
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_6.4.60401-1_all.deb
sudo dpkg -i amdgpu-install_6.4.60401-1_all.deb
# Instalar ROCm con bibliotecas de ML
sudo amdgpu-install --usecase=rocm,ml
# Agregar tu usuario a los grupos render y video
sudo usermod -aG render,video $USER
# Reiniciar
sudo rebootPaso 3: Verificar la Instalacion
# Verificar que ROCm funciona
rocm-smi
# Deberias ver tu GPU listada con informacion de temperatura y memoriaEjecutando Gemma 4 con la Herramienta Lemonade
La herramienta Lemonade de AMD es la forma mas facil de hacer funcionar Gemma 4 en hardware AMD. Maneja la descarga del modelo, cuantizacion y servicio en un solo paquete.
# Instalar Lemonade
pip install lemonade-sdk
# Ejecutar Gemma 4 con optimizacion automatica
lemonade serve --model gemma-4-12b-it --device rocm
# Para el modelo mas pequeno
lemonade serve --model gemma-4-1b-it --device rocmLemonade detecta automaticamente la arquitectura de tu GPU y aplica las optimizaciones correctas. Es un gran punto de partida antes de pasar a configuraciones mas avanzadas.
Usando vLLM con ROCm
Para inferencia en produccion, vLLM con soporte ROCm te da el mejor rendimiento:
# Instalar vLLM con soporte ROCm
pip install vllm-rocm
# Iniciar el servidor
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-12b-it \
--tensor-parallel-size 1 \
--dtype float16 \
--max-model-len 8192Alternativa SGLang
SGLang tambien soporta ROCm y puede ser mas rapido para ciertas cargas de trabajo:
pip install sglang[rocm]
python -m sglang.launch_server \
--model-path google/gemma-4-12b-it \
--port 8000 \
--device rocmProblemas Comunes y Soluciones
"Triton backend required for multimodal"
Si intentas usar las funciones de vision o audio de Gemma 4 en AMD, necesitas el backend Triton compilado para ROCm:
# Instalar Triton con soporte ROCm
pip install triton-rocm
# Establecer el backend explicitamente
export TRITON_BACKEND=rocmSin esto, la inferencia solo de texto funciona bien, pero las entradas multimodales fallaran silenciosamente o lanzaran errores cripticos.
Desajuste de Cadena de Arquitectura
Este es el problema mas comun. Si ves errores como hipErrorNoBinaryForGpu, tu cadena de arquitectura no coincide:
# Verificar que piensa ROCm sobre tu GPU
rocminfo | grep gfx
# Sobrescribir si es necesario (ejemplo para RX 7900 XTX)
export HSA_OVERRIDE_GFX_VERSION=11.0.0Errores de Falta de Memoria
Las GPUs AMD reportan la VRAM compartida de forma diferente a NVIDIA. Verifica la memoria realmente disponible:
rocm-smi --showmeminfo vram
# Si te quedas sin memoria, prueba una cuantizacion mas pequena
# Q4_K_M funciona bien en tarjetas de 16GBEl Rendimiento es Peor de lo Esperado
Asegurate de que no estas ejecutando accidentalmente en CPU:
# Verificar que se esta usando la GPU
watch -n 1 rocm-smi
# Deberias ver utilizacion de GPU > 0% durante la inferenciaExpectativas de Rendimiento
Esto es lo que puedes esperar para la velocidad de generacion de tokens con Gemma 4 12B Q4_K_M:
| GPU | VRAM | Tokens/seg | Notas |
|---|---|---|---|
| RX 7900 XTX | 24GB | ~35-45 | Mejor opcion AMD de consumo |
| RX 7800 XT | 16GB | ~25-30 | Bueno para la mayoria de tareas |
| MI300X | 192GB | ~120+ | Centro de datos, ejecuta precision completa |
| MI250X | 128GB | ~80+ | Generacion anterior de centro de datos |
Windows y WSL2
Si absolutamente necesitas usar Windows, ROCm funciona a traves de WSL2 con algunas limitaciones:
# Dentro de WSL2 Ubuntu
sudo apt install rocm-hip-runtime
# Limitado solo al runtime HIP — sin stack ROCm completoPara una mejor experiencia en Windows, considera usar Ollama que maneja la deteccion de GPU AMD automaticamente en tarjetas soportadas.
Siguientes Pasos
- ¿Tienes problemas? Consulta nuestra Guia de Solucion de Problemas de Gemma 4 para soluciones a los problemas mas comunes
- ¿No estas seguro de si tu hardware es suficiente? Lee la Guia de Requisitos de Hardware para recomendaciones detalladas de VRAM y RAM
- ¿Quieres comparar modelos? Ve ¿Cual Modelo de Gemma 4 Deberias Elegir? para elegir el tamano correcto para tu GPU AMD
Ejecutar Gemma 4 en AMD es totalmente viable — solo requiere un poco mas de configuracion inicial que NVIDIA. Una vez que ROCm esta correctamente configurado, el rendimiento es competitivo, y el soporte desde el Dia 0 de AMD significa que recibiras actualizaciones junto con los usuarios de NVIDIA en adelante.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


