Como Ejecutar Gemma 4 en GPU AMD (Guia de Configuracion ROCm)

Si tienes una GPU AMD y quieres ejecutar Gemma 4 localmente, estas de suerte — AMD tiene soporte desde el Dia 0 para Gemma 4 a traves de ROCm. Pero hacer que todo funcione requiere un poco mas de configuracion que el ecosistema plug-and-play de CUDA de NVIDIA. Esta guia te lleva por todo el proceso, desde verificar la compatibilidad de tu GPU hasta ejecutar inferencia con vLLM.

¿Tu GPU AMD Soporta Gemma 4?

No todas las GPUs AMD funcionan con ROCm. Necesitas una tarjeta con una arquitectura soportada. Aqui tienes una referencia rapida:

Serie de GPU	Arquitectura	Soporte ROCm	Notas
Radeon RX 7900 XTX/XT	RDNA 3 (gfx1100)	Si	Mejor opcion de consumo
Radeon RX 7800 XT	RDNA 3 (gfx1101)	Si	Buen rango medio
Radeon RX 7600	RDNA 3 (gfx1102)	Parcial	VRAM limitada (8GB)
Instinct MI250X	CDNA 2 (gfx90a)	Si	GPU de centro de datos
Instinct MI300X	CDNA 3 (gfx942)	Si	Rendimiento de primera
Radeon RX 6000 series	RDNA 2	Limitado	Solo soluciones de la comunidad

Importante: La cadena de arquitectura debe coincidir exactamente. Si ROCm detecta la arquitectura incorrecta, obtendras fallos silenciosos o salida basura. Verifica la tuya con:

rocminfo | grep "Name:" | grep "gfx"

Instalando ROCm en Linux

ROCm es solo para Linux en cargas de trabajo serias de ML. El soporte en Windows existe a traves de WSL2, pero es limitado y no recomendado para uso en produccion.

Paso 1: Verifica Tu Kernel y Driver

# Verificar version del kernel (5.15+ recomendado)
uname -r

# Verificar si el driver amdgpu esta cargado
lsmod | grep amdgpu

Paso 2: Instala ROCm

Para Ubuntu 22.04/24.04:

# Agregar el repositorio de paquetes de AMD
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_6.4.60401-1_all.deb
sudo dpkg -i amdgpu-install_6.4.60401-1_all.deb

# Instalar ROCm con bibliotecas de ML
sudo amdgpu-install --usecase=rocm,ml

# Agregar tu usuario a los grupos render y video
sudo usermod -aG render,video $USER

# Reiniciar
sudo reboot

Paso 3: Verificar la Instalacion

# Verificar que ROCm funciona
rocm-smi

# Deberias ver tu GPU listada con informacion de temperatura y memoria

Ejecutando Gemma 4 con la Herramienta Lemonade

La herramienta Lemonade de AMD es la forma mas facil de hacer funcionar Gemma 4 en hardware AMD. Maneja la descarga del modelo, cuantizacion y servicio en un solo paquete.

# Instalar Lemonade
pip install lemonade-sdk

# Ejecutar Gemma 4 con optimizacion automatica
lemonade serve --model gemma-4-12b-it --device rocm

# Para el modelo mas pequeno
lemonade serve --model gemma-4-1b-it --device rocm

Lemonade detecta automaticamente la arquitectura de tu GPU y aplica las optimizaciones correctas. Es un gran punto de partida antes de pasar a configuraciones mas avanzadas.

Usando vLLM con ROCm

Para inferencia en produccion, vLLM con soporte ROCm te da el mejor rendimiento:

# Instalar vLLM con soporte ROCm
pip install vllm-rocm

# Iniciar el servidor
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-12b-it \
  --tensor-parallel-size 1 \
  --dtype float16 \
  --max-model-len 8192

Alternativa SGLang

SGLang tambien soporta ROCm y puede ser mas rapido para ciertas cargas de trabajo:

pip install sglang[rocm]

python -m sglang.launch_server \
  --model-path google/gemma-4-12b-it \
  --port 8000 \
  --device rocm

Problemas Comunes y Soluciones

"Triton backend required for multimodal"

Si intentas usar las funciones de vision o audio de Gemma 4 en AMD, necesitas el backend Triton compilado para ROCm:

# Instalar Triton con soporte ROCm
pip install triton-rocm

# Establecer el backend explicitamente
export TRITON_BACKEND=rocm

Sin esto, la inferencia solo de texto funciona bien, pero las entradas multimodales fallaran silenciosamente o lanzaran errores cripticos.

Desajuste de Cadena de Arquitectura

Este es el problema mas comun. Si ves errores como hipErrorNoBinaryForGpu, tu cadena de arquitectura no coincide:

# Verificar que piensa ROCm sobre tu GPU
rocminfo | grep gfx

# Sobrescribir si es necesario (ejemplo para RX 7900 XTX)
export HSA_OVERRIDE_GFX_VERSION=11.0.0

Errores de Falta de Memoria

Las GPUs AMD reportan la VRAM compartida de forma diferente a NVIDIA. Verifica la memoria realmente disponible:

rocm-smi --showmeminfo vram

# Si te quedas sin memoria, prueba una cuantizacion mas pequena
# Q4_K_M funciona bien en tarjetas de 16GB

El Rendimiento es Peor de lo Esperado

Asegurate de que no estas ejecutando accidentalmente en CPU:

# Verificar que se esta usando la GPU
watch -n 1 rocm-smi

# Deberias ver utilizacion de GPU > 0% durante la inferencia

Expectativas de Rendimiento

Esto es lo que puedes esperar para la velocidad de generacion de tokens con Gemma 4 12B Q4_K_M:

GPU	VRAM	Tokens/seg	Notas
RX 7900 XTX	24GB	~35-45	Mejor opcion AMD de consumo
RX 7800 XT	16GB	~25-30	Bueno para la mayoria de tareas
MI300X	192GB	~120+	Centro de datos, ejecuta precision completa
MI250X	128GB	~80+	Generacion anterior de centro de datos

Windows y WSL2

Si absolutamente necesitas usar Windows, ROCm funciona a traves de WSL2 con algunas limitaciones:

# Dentro de WSL2 Ubuntu
sudo apt install rocm-hip-runtime
# Limitado solo al runtime HIP — sin stack ROCm completo

Para una mejor experiencia en Windows, considera usar Ollama que maneja la deteccion de GPU AMD automaticamente en tarjetas soportadas.

Siguientes Pasos

¿Tienes problemas? Consulta nuestra Guia de Solucion de Problemas de Gemma 4 para soluciones a los problemas mas comunes
¿No estas seguro de si tu hardware es suficiente? Lee la Guia de Requisitos de Hardware para recomendaciones detalladas de VRAM y RAM
¿Quieres comparar modelos? Ve ¿Cual Modelo de Gemma 4 Deberias Elegir? para elegir el tamano correcto para tu GPU AMD

Ejecutar Gemma 4 en AMD es totalmente viable — solo requiere un poco mas de configuracion inicial que NVIDIA. Una vez que ROCm esta correctamente configurado, el rendimiento es competitivo, y el soporte desde el Dia 0 de AMD significa que recibiras actualizaciones junto con los usuarios de NVIDIA en adelante.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />