Las GPUs NVIDIA son el camino mas facil para ejecutar Gemma 4 localmente. Ya sea que tengas una RTX 3060 economica o una RTX 4090 potente, el ecosistema CUDA hace que la configuracion sea sencilla. Esta guia cubre todo desde los requisitos del driver hasta la optimizacion avanzada TensorRT-LLM.
Requisitos del Driver CUDA
Antes que nada, asegurate de que tu driver NVIDIA y toolkit CUDA estan actualizados:
| Componente | Version Minima | Recomendada |
|---|---|---|
| NVIDIA Driver | 535+ | 560+ |
| CUDA Toolkit | 12.1 | 12.4+ |
| cuDNN | 8.9 | 9.0+ |
| Python | 3.10 | 3.11+ |
Verifica tu configuracion actual:
# Verificar version del driver
nvidia-smi
# Verificar version de CUDA
nvcc --version
# Si nvcc no se encuentra, el toolkit CUDA puede no estar en tu PATH
export PATH=/usr/local/cuda/bin:$PATHActualizando Drivers
En Linux:
# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo rebootEn Windows, descarga el ultimo driver de nvidia.com/drivers o usa GeForce Experience.
La Forma Mas Facil: Ollama
Ollama auto-detecta las GPUs NVIDIA y maneja todo por ti. No se necesita instalacion del toolkit CUDA — Ollama incluye el suyo propio:
# Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Ejecutar Gemma 4
ollama run gemma4:12b
# Verificar que se esta usando la GPU
ollama ps
# Deberia mostrar "GPU" en la columna del procesadorEso es todo. Ollama detecta tu GPU NVIDIA, carga el modelo en VRAM y comienza a generar. Para la mayoria de usuarios, esto es todo lo que necesitas.
Configuraciones de Offloading de GPU
Cuando tu modelo no cabe completamente en VRAM, puedes dividirlo entre GPU y CPU. Esto se llama offloading parcial:
# Ollama: controla cuantas capas van a la GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b
# llama.cpp: especifica las capas de GPU
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35
# Establece en 0 para solo CPU, o 999 para GPU completaEl punto dulce depende de tu VRAM. Una regla general:
| VRAM | Capas Recomendadas (12B Q4) | Que Significa |
|---|---|---|
| 6GB | 15-20 | ~50% en GPU |
| 8GB | 25-30 | ~75% en GPU |
| 12GB | 35-40 | ~95% en GPU |
| 16GB+ | 999 (todas) | Totalmente acelerado por GPU |
| 24GB+ | 999 (todas) | Espacio para contexto mas largo |
Comparacion de Rendimiento RTX
Esto es lo que puedes esperar para la velocidad de inferencia de Gemma 4 12B en diferentes tarjetas RTX:
| GPU | VRAM | Q4_K_M (tok/s) | Q8_0 (tok/s) | FP16 (tok/s) | Notas |
|---|---|---|---|---|---|
| RTX 3060 | 12GB | ~25 | ~15 | OOM | Gran opcion economica |
| RTX 3060 Ti | 8GB | ~20* | OOM | OOM | *Offload parcial |
| RTX 3070 | 8GB | ~22* | OOM | OOM | *Offload parcial |
| RTX 3090 | 24GB | ~40 | ~25 | ~12 | Aun excelente |
| RTX 4060 | 8GB | ~28* | OOM | OOM | *Offload parcial |
| RTX 4070 Ti | 12GB | ~38 | ~22 | OOM | Buen rango medio |
| RTX 4080 | 16GB | ~50 | ~30 | OOM | Fuerte rendimiento |
| RTX 4090 | 24GB | ~65 | ~40 | ~20 | Rey de consumo |
OOM = Out of Memory (Sin memoria) en ese nivel de cuantizacion
La RTX 3060 12GB es honestamente la mejor opcion por valor — 12GB de VRAM a una fraccion del precio de la 4090, y ejecuta modelos Q4 a velocidades perfectamente usables.
Soporte NVIDIA Jetson Orin
Gemma 4 funciona en la plataforma Jetson de NVIDIA, haciendo posible desplegar en dispositivos edge:
# En Jetson Orin (JetPack 6.x)
# Instalar build ARM64 de Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Ejecutar modelos mas pequenos
ollama run gemma4:4b
# El modelo 1B es mejor para Jetson Orin Nano
ollama run gemma4:1b| Modelo Jetson | RAM | Mejor Modelo Gemma 4 | Caso de Uso |
|---|---|---|---|
| Orin Nano 8GB | 8GB | 1B o 4B Q4 | Asistente IA embebido |
| Orin NX 16GB | 16GB | 4B o 12B Q4 | Inferencia edge |
| AGX Orin 64GB | 64GB | 12B FP16 o 27B Q4 | IA edge con todas las funciones |
DGX Spark
El DGX Spark de NVIDIA es una estacion de trabajo de IA de escritorio con 128GB de memoria unificada — ejecuta el Gemma 4 27B completo en FP16 sin sudar:
# En DGX Spark, ejecutar el modelo 27B completo
ollama run gemma4:27b
# O ejecutar a precision completa
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-27b-it \
--dtype float16 \
--max-model-len 32768Optimizacion TensorRT-LLM
Para maximo rendimiento en hardware NVIDIA, TensorRT-LLM compila el modelo especificamente para tu GPU:
# Instalar TensorRT-LLM
pip install tensorrt-llm
# Convertir y optimizar el modelo
python convert_checkpoint.py \
--model_dir google/gemma-4-12b-it \
--output_dir ./gemma4-trt \
--dtype float16
# Construir el motor TensorRT
trtllm-build \
--checkpoint_dir ./gemma4-trt \
--output_dir ./gemma4-engine \
--max_batch_size 4 \
--max_input_len 4096 \
--max_seq_len 8192
# Ejecutar inferencia
python run.py --engine_dir ./gemma4-engine --max_output_len 512TensorRT-LLM tipicamente da una mejora de rendimiento de 2-3x sobre PyTorch vanilla, pero el proceso de construccion toma 10-30 minutos y el motor esta bloqueado a tu modelo de GPU especifico.
Flash Attention
Asegurate de que Flash Attention este habilitado para mejor eficiencia de memoria y velocidad:
# Instalar Flash Attention 2
pip install flash-attn --no-build-isolation
# Verificar que se esta usando (en Python)
python -c "import flash_attn; print(flash_attn.__version__)"La mayoria de frameworks (vLLM, SGLang, transformers) usan automaticamente Flash Attention cuando esta disponible. Reduce el uso de VRAM y aumenta la velocidad, especialmente en longitudes de contexto mas largas.
Siguientes Pasos
- ¿Necesitas consejos de compra de hardware? Consulta la Guia de Requisitos de Hardware para recomendaciones detalladas por presupuesto
- ¿Tienes errores? La Guia de Solucion de Problemas cubre problemas especificos de CUDA como desajustes de drivers y errores OOM
- ¿Quieres probar Ollama primero? Sigue nuestra Guia de Configuracion de Ollama para el camino mas simple para ejecutar Gemma 4
Las GPUs NVIDIA siguen siendo el estandar de oro para la IA local. La combinacion de drivers maduros, amplio soporte de frameworks y herramientas como TensorRT-LLM significa que pasaras menos tiempo depurando y mas tiempo realmente usando Gemma 4.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


