0% read

Comment exécuter Gemma 4 sur NVIDIA RTX (Configuration CUDA et optimisation)

avr. 7, 2026

Les GPU NVIDIA sont le chemin le plus facile pour exécuter Gemma 4 localement. Que vous ayez un RTX 3060 économique ou un RTX 4090 musclé, l'écosystème CUDA rend la configuration simple. Ce guide couvre tout, des exigences des pilotes à l'optimisation avancée TensorRT-LLM.

Exigences du pilote CUDA

Avant toute chose, assurez-vous que votre pilote NVIDIA et votre toolkit CUDA sont à jour :

ComposantVersion minimaleRecommandée
Pilote NVIDIA535+560+
CUDA Toolkit12.112.4+
cuDNN8.99.0+
Python3.103.11+

Vérifiez votre configuration actuelle :

# Vérifier la version du pilote
nvidia-smi

# Vérifier la version CUDA
nvcc --version

# Si nvcc n'est pas trouvé, le toolkit CUDA n'est peut-être pas dans votre PATH
export PATH=/usr/local/cuda/bin:$PATH

Mettre à jour les pilotes

Sur Linux :

# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo reboot

Sur Windows, téléchargez le dernier pilote depuis nvidia.com/drivers ou utilisez GeForce Experience.

Le moyen le plus simple : Ollama

Ollama détecte automatiquement les GPU NVIDIA et gère tout pour vous. Pas besoin d'installer le toolkit CUDA — Ollama embarque le sien :

# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Exécuter Gemma 4
ollama run gemma4:12b

# Vérifier que le GPU est utilisé
ollama ps
# Devrait afficher "GPU" dans la colonne processor

C'est tout. Ollama détecte votre GPU NVIDIA, charge le modèle en VRAM et commence à générer. Pour la plupart des utilisateurs, c'est tout ce dont vous avez besoin.

Paramètres d'offloading GPU

Quand votre modèle ne tient pas entièrement en VRAM, vous pouvez le répartir entre GPU et CPU. On appelle ça l'offloading partiel :

# Ollama : contrôler combien de couches vont au GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b

# llama.cpp : spécifier les couches GPU
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35

# Mettre à 0 pour CPU uniquement, ou 999 pour tout GPU

Le point optimal dépend de votre VRAM. Règle générale :

VRAMCouches recommandées (12B Q4)Ce que ça signifie
6 Go15-20~50% sur GPU
8 Go25-30~75% sur GPU
12 Go35-40~95% sur GPU
16 Go+999 (toutes)Entièrement accéléré GPU
24 Go+999 (toutes)Place pour du contexte plus long

Comparaison des performances RTX

Voici ce à quoi s'attendre pour la vitesse d'inférence de Gemma 4 12B sur différentes cartes RTX :

GPUVRAMQ4_K_M (tok/s)Q8_0 (tok/s)FP16 (tok/s)Notes
RTX 306012 Go~25~15OOMExcellente option économique
RTX 3060 Ti8 Go~20*OOMOOM*Offload partiel
RTX 30708 Go~22*OOMOOM*Offload partiel
RTX 309024 Go~40~25~12Toujours excellent
RTX 40608 Go~28*OOMOOM*Offload partiel
RTX 4070 Ti12 Go~38~22OOMBon milieu de gamme
RTX 408016 Go~50~30OOMPerformant
RTX 409024 Go~65~40~20Roi du grand public

OOM = Out of Memory à ce niveau de quantification

Le RTX 3060 12 Go est honnêtement le meilleur choix rapport qualité-prix — 12 Go de VRAM à une fraction du prix du 4090, et il exécute les modèles Q4 à des vitesses parfaitement utilisables.

Support NVIDIA Jetson Orin

Gemma 4 tourne sur la plateforme Jetson de NVIDIA, ce qui rend possible le déploiement sur des appareils en périphérie :

# Sur Jetson Orin (JetPack 6.x)
# Installer la version ARM64 d'Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Exécuter des modèles plus petits
ollama run gemma4:4b

# Le modèle 1B est le meilleur pour Jetson Orin Nano
ollama run gemma4:1b
Modèle JetsonRAMMeilleur modèle Gemma 4Cas d'utilisation
Orin Nano 8 Go8 Go1B ou 4B Q4Assistant IA embarqué
Orin NX 16 Go16 Go4B ou 12B Q4Inférence en périphérie
AGX Orin 64 Go64 Go12B FP16 ou 27B Q4IA en périphérie complète

DGX Spark

Le DGX Spark de NVIDIA est une station de travail IA de bureau avec 128 Go de mémoire unifiée — il exécute le Gemma 4 27B complet en FP16 sans transpirer :

# Sur DGX Spark, exécuter le modèle 27B complet
ollama run gemma4:27b

# Ou exécuter en pleine précision
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --dtype float16 \
  --max-model-len 32768

Optimisation TensorRT-LLM

Pour un débit maximal sur du matériel NVIDIA, TensorRT-LLM compile le modèle spécifiquement pour votre GPU :

# Installer TensorRT-LLM
pip install tensorrt-llm

# Convertir et optimiser le modèle
python convert_checkpoint.py \
  --model_dir google/gemma-4-12b-it \
  --output_dir ./gemma4-trt \
  --dtype float16

# Construire le moteur TensorRT
trtllm-build \
  --checkpoint_dir ./gemma4-trt \
  --output_dir ./gemma4-engine \
  --max_batch_size 4 \
  --max_input_len 4096 \
  --max_seq_len 8192

# Exécuter l'inférence
python run.py --engine_dir ./gemma4-engine --max_output_len 512

TensorRT-LLM donne généralement une amélioration de débit 2-3x par rapport à PyTorch vanilla, mais le processus de construction prend 10-30 minutes et le moteur est verrouillé à votre modèle de GPU spécifique.

Flash Attention

Assurez-vous que Flash Attention est activé pour une meilleure efficacité mémoire et vitesse :

# Installer Flash Attention 2
pip install flash-attn --no-build-isolation

# Vérifier qu'il est utilisé (en Python)
python -c "import flash_attn; print(flash_attn.__version__)"

La plupart des frameworks (vLLM, SGLang, transformers) utilisent automatiquement Flash Attention quand disponible. Il réduit l'utilisation VRAM et augmente la vitesse, surtout à des longueurs de contexte plus longues.

Prochaines étapes

  • Besoin de conseils d'achat matériel ? Consultez le Guide des exigences matérielles pour des recommandations détaillées par budget
  • Vous rencontrez des erreurs ? Le Guide de dépannage couvre les problèmes spécifiques à CUDA comme les incompatibilités de pilotes et les erreurs OOM
  • Envie d'essayer Ollama d'abord ? Suivez notre Guide de configuration Ollama pour le chemin le plus simple vers Gemma 4

Les GPU NVIDIA restent la référence pour l'IA locale. La combinaison de pilotes matures, d'un support framework large et d'outils comme TensorRT-LLM signifie que vous passerez moins de temps à déboguer et plus de temps à réellement utiliser Gemma 4.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Comment exécuter Gemma 4 sur NVIDIA RTX (Configuration CUDA et optimisation) | Blog