Comment exécuter Gemma 4 sur NVIDIA RTX (Configuration CUDA et optimisation)

Les GPU NVIDIA sont le chemin le plus facile pour exécuter Gemma 4 localement. Que vous ayez un RTX 3060 économique ou un RTX 4090 musclé, l'écosystème CUDA rend la configuration simple. Ce guide couvre tout, des exigences des pilotes à l'optimisation avancée TensorRT-LLM.

Exigences du pilote CUDA

Avant toute chose, assurez-vous que votre pilote NVIDIA et votre toolkit CUDA sont à jour :

Composant	Version minimale	Recommandée
Pilote NVIDIA	535+	560+
CUDA Toolkit	12.1	12.4+
cuDNN	8.9	9.0+
Python	3.10	3.11+

Vérifiez votre configuration actuelle :

# Vérifier la version du pilote
nvidia-smi

# Vérifier la version CUDA
nvcc --version

# Si nvcc n'est pas trouvé, le toolkit CUDA n'est peut-être pas dans votre PATH
export PATH=/usr/local/cuda/bin:$PATH

Mettre à jour les pilotes

Sur Linux :

# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo reboot

Sur Windows, téléchargez le dernier pilote depuis nvidia.com/drivers ou utilisez GeForce Experience.

Le moyen le plus simple : Ollama

Ollama détecte automatiquement les GPU NVIDIA et gère tout pour vous. Pas besoin d'installer le toolkit CUDA — Ollama embarque le sien :

# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Exécuter Gemma 4
ollama run gemma4:12b

# Vérifier que le GPU est utilisé
ollama ps
# Devrait afficher "GPU" dans la colonne processor

C'est tout. Ollama détecte votre GPU NVIDIA, charge le modèle en VRAM et commence à générer. Pour la plupart des utilisateurs, c'est tout ce dont vous avez besoin.

Paramètres d'offloading GPU

Quand votre modèle ne tient pas entièrement en VRAM, vous pouvez le répartir entre GPU et CPU. On appelle ça l'offloading partiel :

# Ollama : contrôler combien de couches vont au GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b

# llama.cpp : spécifier les couches GPU
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35

# Mettre à 0 pour CPU uniquement, ou 999 pour tout GPU

Le point optimal dépend de votre VRAM. Règle générale :

VRAM	Couches recommandées (12B Q4)	Ce que ça signifie
6 Go	15-20	~50% sur GPU
8 Go	25-30	~75% sur GPU
12 Go	35-40	~95% sur GPU
16 Go+	999 (toutes)	Entièrement accéléré GPU
24 Go+	999 (toutes)	Place pour du contexte plus long

Comparaison des performances RTX

Voici ce à quoi s'attendre pour la vitesse d'inférence de Gemma 4 12B sur différentes cartes RTX :

GPU	VRAM	Q4_K_M (tok/s)	Q8_0 (tok/s)	FP16 (tok/s)	Notes
RTX 3060	12 Go	~25	~15	OOM	Excellente option économique
RTX 3060 Ti	8 Go	~20*	OOM	OOM	*Offload partiel
RTX 3070	8 Go	~22*	OOM	OOM	*Offload partiel
RTX 3090	24 Go	~40	~25	~12	Toujours excellent
RTX 4060	8 Go	~28*	OOM	OOM	*Offload partiel
RTX 4070 Ti	12 Go	~38	~22	OOM	Bon milieu de gamme
RTX 4080	16 Go	~50	~30	OOM	Performant
RTX 4090	24 Go	~65	~40	~20	Roi du grand public

OOM = Out of Memory à ce niveau de quantification

Le RTX 3060 12 Go est honnêtement le meilleur choix rapport qualité-prix — 12 Go de VRAM à une fraction du prix du 4090, et il exécute les modèles Q4 à des vitesses parfaitement utilisables.

Support NVIDIA Jetson Orin

Gemma 4 tourne sur la plateforme Jetson de NVIDIA, ce qui rend possible le déploiement sur des appareils en périphérie :

# Sur Jetson Orin (JetPack 6.x)
# Installer la version ARM64 d'Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Exécuter des modèles plus petits
ollama run gemma4:4b

# Le modèle 1B est le meilleur pour Jetson Orin Nano
ollama run gemma4:1b

Modèle Jetson	RAM	Meilleur modèle Gemma 4	Cas d'utilisation
Orin Nano 8 Go	8 Go	1B ou 4B Q4	Assistant IA embarqué
Orin NX 16 Go	16 Go	4B ou 12B Q4	Inférence en périphérie
AGX Orin 64 Go	64 Go	12B FP16 ou 27B Q4	IA en périphérie complète

DGX Spark

Le DGX Spark de NVIDIA est une station de travail IA de bureau avec 128 Go de mémoire unifiée — il exécute le Gemma 4 27B complet en FP16 sans transpirer :

# Sur DGX Spark, exécuter le modèle 27B complet
ollama run gemma4:27b

# Ou exécuter en pleine précision
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --dtype float16 \
  --max-model-len 32768

Optimisation TensorRT-LLM

Pour un débit maximal sur du matériel NVIDIA, TensorRT-LLM compile le modèle spécifiquement pour votre GPU :

# Installer TensorRT-LLM
pip install tensorrt-llm

# Convertir et optimiser le modèle
python convert_checkpoint.py \
  --model_dir google/gemma-4-12b-it \
  --output_dir ./gemma4-trt \
  --dtype float16

# Construire le moteur TensorRT
trtllm-build \
  --checkpoint_dir ./gemma4-trt \
  --output_dir ./gemma4-engine \
  --max_batch_size 4 \
  --max_input_len 4096 \
  --max_seq_len 8192

# Exécuter l'inférence
python run.py --engine_dir ./gemma4-engine --max_output_len 512

TensorRT-LLM donne généralement une amélioration de débit 2-3x par rapport à PyTorch vanilla, mais le processus de construction prend 10-30 minutes et le moteur est verrouillé à votre modèle de GPU spécifique.

Flash Attention

Assurez-vous que Flash Attention est activé pour une meilleure efficacité mémoire et vitesse :

# Installer Flash Attention 2
pip install flash-attn --no-build-isolation

# Vérifier qu'il est utilisé (en Python)
python -c "import flash_attn; print(flash_attn.__version__)"

La plupart des frameworks (vLLM, SGLang, transformers) utilisent automatiquement Flash Attention quand disponible. Il réduit l'utilisation VRAM et augmente la vitesse, surtout à des longueurs de contexte plus longues.

Prochaines étapes

Besoin de conseils d'achat matériel ? Consultez le Guide des exigences matérielles pour des recommandations détaillées par budget
Vous rencontrez des erreurs ? Le Guide de dépannage couvre les problèmes spécifiques à CUDA comme les incompatibilités de pilotes et les erreurs OOM
Envie d'essayer Ollama d'abord ? Suivez notre Guide de configuration Ollama pour le chemin le plus simple vers Gemma 4

Les GPU NVIDIA restent la référence pour l'IA locale. La combinaison de pilotes matures, d'un support framework large et d'outils comme TensorRT-LLM signifie que vous passerez moins de temps à déboguer et plus de temps à réellement utiliser Gemma 4.

gemma4 — interact