0% read

Como Ejecutar Gemma 4 en NVIDIA RTX (Configuracion CUDA y Optimizacion)

abr. 7, 2026

Las GPUs NVIDIA son el camino mas facil para ejecutar Gemma 4 localmente. Ya sea que tengas una RTX 3060 economica o una RTX 4090 potente, el ecosistema CUDA hace que la configuracion sea sencilla. Esta guia cubre todo desde los requisitos del driver hasta la optimizacion avanzada TensorRT-LLM.

Requisitos del Driver CUDA

Antes que nada, asegurate de que tu driver NVIDIA y toolkit CUDA estan actualizados:

ComponenteVersion MinimaRecomendada
NVIDIA Driver535+560+
CUDA Toolkit12.112.4+
cuDNN8.99.0+
Python3.103.11+

Verifica tu configuracion actual:

# Verificar version del driver
nvidia-smi

# Verificar version de CUDA
nvcc --version

# Si nvcc no se encuentra, el toolkit CUDA puede no estar en tu PATH
export PATH=/usr/local/cuda/bin:$PATH

Actualizando Drivers

En Linux:

# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo reboot

En Windows, descarga el ultimo driver de nvidia.com/drivers o usa GeForce Experience.

La Forma Mas Facil: Ollama

Ollama auto-detecta las GPUs NVIDIA y maneja todo por ti. No se necesita instalacion del toolkit CUDA — Ollama incluye el suyo propio:

# Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Ejecutar Gemma 4
ollama run gemma4:12b

# Verificar que se esta usando la GPU
ollama ps
# Deberia mostrar "GPU" en la columna del procesador

Eso es todo. Ollama detecta tu GPU NVIDIA, carga el modelo en VRAM y comienza a generar. Para la mayoria de usuarios, esto es todo lo que necesitas.

Configuraciones de Offloading de GPU

Cuando tu modelo no cabe completamente en VRAM, puedes dividirlo entre GPU y CPU. Esto se llama offloading parcial:

# Ollama: controla cuantas capas van a la GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b

# llama.cpp: especifica las capas de GPU
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35

# Establece en 0 para solo CPU, o 999 para GPU completa

El punto dulce depende de tu VRAM. Una regla general:

VRAMCapas Recomendadas (12B Q4)Que Significa
6GB15-20~50% en GPU
8GB25-30~75% en GPU
12GB35-40~95% en GPU
16GB+999 (todas)Totalmente acelerado por GPU
24GB+999 (todas)Espacio para contexto mas largo

Comparacion de Rendimiento RTX

Esto es lo que puedes esperar para la velocidad de inferencia de Gemma 4 12B en diferentes tarjetas RTX:

GPUVRAMQ4_K_M (tok/s)Q8_0 (tok/s)FP16 (tok/s)Notas
RTX 306012GB~25~15OOMGran opcion economica
RTX 3060 Ti8GB~20*OOMOOM*Offload parcial
RTX 30708GB~22*OOMOOM*Offload parcial
RTX 309024GB~40~25~12Aun excelente
RTX 40608GB~28*OOMOOM*Offload parcial
RTX 4070 Ti12GB~38~22OOMBuen rango medio
RTX 408016GB~50~30OOMFuerte rendimiento
RTX 409024GB~65~40~20Rey de consumo

OOM = Out of Memory (Sin memoria) en ese nivel de cuantizacion

La RTX 3060 12GB es honestamente la mejor opcion por valor — 12GB de VRAM a una fraccion del precio de la 4090, y ejecuta modelos Q4 a velocidades perfectamente usables.

Soporte NVIDIA Jetson Orin

Gemma 4 funciona en la plataforma Jetson de NVIDIA, haciendo posible desplegar en dispositivos edge:

# En Jetson Orin (JetPack 6.x)
# Instalar build ARM64 de Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Ejecutar modelos mas pequenos
ollama run gemma4:4b

# El modelo 1B es mejor para Jetson Orin Nano
ollama run gemma4:1b
Modelo JetsonRAMMejor Modelo Gemma 4Caso de Uso
Orin Nano 8GB8GB1B o 4B Q4Asistente IA embebido
Orin NX 16GB16GB4B o 12B Q4Inferencia edge
AGX Orin 64GB64GB12B FP16 o 27B Q4IA edge con todas las funciones

DGX Spark

El DGX Spark de NVIDIA es una estacion de trabajo de IA de escritorio con 128GB de memoria unificada — ejecuta el Gemma 4 27B completo en FP16 sin sudar:

# En DGX Spark, ejecutar el modelo 27B completo
ollama run gemma4:27b

# O ejecutar a precision completa
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --dtype float16 \
  --max-model-len 32768

Optimizacion TensorRT-LLM

Para maximo rendimiento en hardware NVIDIA, TensorRT-LLM compila el modelo especificamente para tu GPU:

# Instalar TensorRT-LLM
pip install tensorrt-llm

# Convertir y optimizar el modelo
python convert_checkpoint.py \
  --model_dir google/gemma-4-12b-it \
  --output_dir ./gemma4-trt \
  --dtype float16

# Construir el motor TensorRT
trtllm-build \
  --checkpoint_dir ./gemma4-trt \
  --output_dir ./gemma4-engine \
  --max_batch_size 4 \
  --max_input_len 4096 \
  --max_seq_len 8192

# Ejecutar inferencia
python run.py --engine_dir ./gemma4-engine --max_output_len 512

TensorRT-LLM tipicamente da una mejora de rendimiento de 2-3x sobre PyTorch vanilla, pero el proceso de construccion toma 10-30 minutos y el motor esta bloqueado a tu modelo de GPU especifico.

Flash Attention

Asegurate de que Flash Attention este habilitado para mejor eficiencia de memoria y velocidad:

# Instalar Flash Attention 2
pip install flash-attn --no-build-isolation

# Verificar que se esta usando (en Python)
python -c "import flash_attn; print(flash_attn.__version__)"

La mayoria de frameworks (vLLM, SGLang, transformers) usan automaticamente Flash Attention cuando esta disponible. Reduce el uso de VRAM y aumenta la velocidad, especialmente en longitudes de contexto mas largas.

Siguientes Pasos

Las GPUs NVIDIA siguen siendo el estandar de oro para la IA local. La combinacion de drivers maduros, amplio soporte de frameworks y herramientas como TensorRT-LLM significa que pasaras menos tiempo depurando y mas tiempo realmente usando Gemma 4.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Como Ejecutar Gemma 4 en NVIDIA RTX (Configuracion CUDA y Optimizacion) | Blog