Les GPU NVIDIA sont le chemin le plus facile pour exécuter Gemma 4 localement. Que vous ayez un RTX 3060 économique ou un RTX 4090 musclé, l'écosystème CUDA rend la configuration simple. Ce guide couvre tout, des exigences des pilotes à l'optimisation avancée TensorRT-LLM.
Exigences du pilote CUDA
Avant toute chose, assurez-vous que votre pilote NVIDIA et votre toolkit CUDA sont à jour :
| Composant | Version minimale | Recommandée |
|---|---|---|
| Pilote NVIDIA | 535+ | 560+ |
| CUDA Toolkit | 12.1 | 12.4+ |
| cuDNN | 8.9 | 9.0+ |
| Python | 3.10 | 3.11+ |
Vérifiez votre configuration actuelle :
# Vérifier la version du pilote
nvidia-smi
# Vérifier la version CUDA
nvcc --version
# Si nvcc n'est pas trouvé, le toolkit CUDA n'est peut-être pas dans votre PATH
export PATH=/usr/local/cuda/bin:$PATHMettre à jour les pilotes
Sur Linux :
# Ubuntu/Debian
sudo apt update
sudo apt install nvidia-driver-560
sudo rebootSur Windows, téléchargez le dernier pilote depuis nvidia.com/drivers ou utilisez GeForce Experience.
Le moyen le plus simple : Ollama
Ollama détecte automatiquement les GPU NVIDIA et gère tout pour vous. Pas besoin d'installer le toolkit CUDA — Ollama embarque le sien :
# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Exécuter Gemma 4
ollama run gemma4:12b
# Vérifier que le GPU est utilisé
ollama ps
# Devrait afficher "GPU" dans la colonne processorC'est tout. Ollama détecte votre GPU NVIDIA, charge le modèle en VRAM et commence à générer. Pour la plupart des utilisateurs, c'est tout ce dont vous avez besoin.
Paramètres d'offloading GPU
Quand votre modèle ne tient pas entièrement en VRAM, vous pouvez le répartir entre GPU et CPU. On appelle ça l'offloading partiel :
# Ollama : contrôler combien de couches vont au GPU
OLLAMA_NUM_GPU=35 ollama run gemma4:12b
# llama.cpp : spécifier les couches GPU
./llama-server -m gemma-4-12b-Q4_K_M.gguf -ngl 35
# Mettre à 0 pour CPU uniquement, ou 999 pour tout GPULe point optimal dépend de votre VRAM. Règle générale :
| VRAM | Couches recommandées (12B Q4) | Ce que ça signifie |
|---|---|---|
| 6 Go | 15-20 | ~50% sur GPU |
| 8 Go | 25-30 | ~75% sur GPU |
| 12 Go | 35-40 | ~95% sur GPU |
| 16 Go+ | 999 (toutes) | Entièrement accéléré GPU |
| 24 Go+ | 999 (toutes) | Place pour du contexte plus long |
Comparaison des performances RTX
Voici ce à quoi s'attendre pour la vitesse d'inférence de Gemma 4 12B sur différentes cartes RTX :
| GPU | VRAM | Q4_K_M (tok/s) | Q8_0 (tok/s) | FP16 (tok/s) | Notes |
|---|---|---|---|---|---|
| RTX 3060 | 12 Go | ~25 | ~15 | OOM | Excellente option économique |
| RTX 3060 Ti | 8 Go | ~20* | OOM | OOM | *Offload partiel |
| RTX 3070 | 8 Go | ~22* | OOM | OOM | *Offload partiel |
| RTX 3090 | 24 Go | ~40 | ~25 | ~12 | Toujours excellent |
| RTX 4060 | 8 Go | ~28* | OOM | OOM | *Offload partiel |
| RTX 4070 Ti | 12 Go | ~38 | ~22 | OOM | Bon milieu de gamme |
| RTX 4080 | 16 Go | ~50 | ~30 | OOM | Performant |
| RTX 4090 | 24 Go | ~65 | ~40 | ~20 | Roi du grand public |
OOM = Out of Memory à ce niveau de quantification
Le RTX 3060 12 Go est honnêtement le meilleur choix rapport qualité-prix — 12 Go de VRAM à une fraction du prix du 4090, et il exécute les modèles Q4 à des vitesses parfaitement utilisables.
Support NVIDIA Jetson Orin
Gemma 4 tourne sur la plateforme Jetson de NVIDIA, ce qui rend possible le déploiement sur des appareils en périphérie :
# Sur Jetson Orin (JetPack 6.x)
# Installer la version ARM64 d'Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Exécuter des modèles plus petits
ollama run gemma4:4b
# Le modèle 1B est le meilleur pour Jetson Orin Nano
ollama run gemma4:1b| Modèle Jetson | RAM | Meilleur modèle Gemma 4 | Cas d'utilisation |
|---|---|---|---|
| Orin Nano 8 Go | 8 Go | 1B ou 4B Q4 | Assistant IA embarqué |
| Orin NX 16 Go | 16 Go | 4B ou 12B Q4 | Inférence en périphérie |
| AGX Orin 64 Go | 64 Go | 12B FP16 ou 27B Q4 | IA en périphérie complète |
DGX Spark
Le DGX Spark de NVIDIA est une station de travail IA de bureau avec 128 Go de mémoire unifiée — il exécute le Gemma 4 27B complet en FP16 sans transpirer :
# Sur DGX Spark, exécuter le modèle 27B complet
ollama run gemma4:27b
# Ou exécuter en pleine précision
python -m vllm.entrypoints.openai.api_server \
--model google/gemma-4-27b-it \
--dtype float16 \
--max-model-len 32768Optimisation TensorRT-LLM
Pour un débit maximal sur du matériel NVIDIA, TensorRT-LLM compile le modèle spécifiquement pour votre GPU :
# Installer TensorRT-LLM
pip install tensorrt-llm
# Convertir et optimiser le modèle
python convert_checkpoint.py \
--model_dir google/gemma-4-12b-it \
--output_dir ./gemma4-trt \
--dtype float16
# Construire le moteur TensorRT
trtllm-build \
--checkpoint_dir ./gemma4-trt \
--output_dir ./gemma4-engine \
--max_batch_size 4 \
--max_input_len 4096 \
--max_seq_len 8192
# Exécuter l'inférence
python run.py --engine_dir ./gemma4-engine --max_output_len 512TensorRT-LLM donne généralement une amélioration de débit 2-3x par rapport à PyTorch vanilla, mais le processus de construction prend 10-30 minutes et le moteur est verrouillé à votre modèle de GPU spécifique.
Flash Attention
Assurez-vous que Flash Attention est activé pour une meilleure efficacité mémoire et vitesse :
# Installer Flash Attention 2
pip install flash-attn --no-build-isolation
# Vérifier qu'il est utilisé (en Python)
python -c "import flash_attn; print(flash_attn.__version__)"La plupart des frameworks (vLLM, SGLang, transformers) utilisent automatiquement Flash Attention quand disponible. Il réduit l'utilisation VRAM et augmente la vitesse, surtout à des longueurs de contexte plus longues.
Prochaines étapes
- Besoin de conseils d'achat matériel ? Consultez le Guide des exigences matérielles pour des recommandations détaillées par budget
- Vous rencontrez des erreurs ? Le Guide de dépannage couvre les problèmes spécifiques à CUDA comme les incompatibilités de pilotes et les erreurs OOM
- Envie d'essayer Ollama d'abord ? Suivez notre Guide de configuration Ollama pour le chemin le plus simple vers Gemma 4
Les GPU NVIDIA restent la référence pour l'IA locale. La combinaison de pilotes matures, d'un support framework large et d'outils comme TensorRT-LLM signifie que vous passerez moins de temps à déboguer et plus de temps à réellement utiliser Gemma 4.
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


