"Est-ce que ça tourne sur ma machine ?" — c'est la première question que tout le monde se pose. La réponse dépend du modèle Gemma 4 que vous essayez d'exécuter et du matériel dont vous disposez. Coupons court à la confusion et donnons des chiffres concrets.
Tableau complet de la configuration matérielle
Voici ce dont chaque modèle a besoin à différents niveaux de quantification :
| Modèle | 4-bit (Q4) | 8-bit (Q8) | 16-bit (FP16) | RAM/VRAM minimum |
|---|---|---|---|---|
| E2B (2B) | ~1,5 Go | ~2,5 Go | ~4 Go | 4 Go de RAM |
| E4B (4B) | ~3 Go | ~5 Go | ~8 Go | 6 Go de RAM |
| 26B MoE | ~8 Go | ~18 Go | ~28 Go | 8 Go de VRAM |
| 31B Dense | ~20 Go | ~34 Go | ~62 Go | 20 Go de VRAM |
Que signifie "quantification" ? C'est une méthode pour compresser le modèle en utilisant moins de précision pour les nombres. Le 4-bit est le plus compressé (plus petit, plus rapide, légèrement moins précis). Le 16-bit est la pleine précision (le plus grand, le plus précis, nécessite le plus de mémoire). Pour la plupart des gens, le 4-bit est le compromis idéal — la différence de qualité est à peine perceptible.
Le piège du cache KV
Voici quelque chose que la plupart des guides ne mentionnent pas. Les poids du modèle ne sont qu'une partie de l'histoire mémoire. Quand Gemma 4 traite de longues conversations, il construit un cache KV (cache clé-valeur) qui stocke les informations d'attention des tokens précédents.
Pour le modèle 31B à sa pleine longueur de contexte de 262K, le cache KV seul peut consommer ~22 Go de mémoire — en plus des poids du modèle. Cela signifie que même si vous avez 24 Go de VRAM pour le modèle, vous pourriez manquer de mémoire pendant de longues conversations.
Conseils pratiques :
- Réduisez la longueur de contexte si vous avez des erreurs OOM. Vous n'avez pas toujours besoin de 262K tokens.
- Avec Ollama, utilisez
num_ctxpour limiter le contexte :ollama run gemma4:31b --num-ctx 4096 - Pour la plupart des tâches, un contexte de 4K-8K est amplement suffisant.
Ça tournera sur MA machine ?
Passons en revue des configurations spécifiques :
MacBook Air M2 (8 Go)
| Modèle | Ça marche ? | Notes |
|---|---|---|
| E2B | Oui | Tourne très bien, réponses rapides |
| E4B | Oui | Bonne performance, le choix idéal |
| 26B | Non | Pas assez de mémoire unifiée |
| 31B | Non | Pas du tout suffisant |
Verdict : E4B est votre meilleur choix. Étonnamment capable pour une machine à 8 Go.
MacBook Pro M3/M4 (16 Go)
| Modèle | Ça marche ? | Notes |
|---|---|---|
| E2B | Oui | Surpuissant mais rapide |
| E4B | Oui | Excellentes performances |
| 26B | Oui (4-bit) | Ça marche mais c'est serré. Fermez les autres apps. |
| 31B | Non | Nécessite plus de mémoire |
Verdict : Vous pouvez effectivement faire tourner le modèle 26B MoE en quantification 4-bit. C'est un modèle sérieux sur un portable — consultez notre comparaison 26B vs 31B pour comprendre les compromis. Ne vous attendez pas à avoir Chrome ouvert avec 50 onglets en même temps.
MacBook Pro M3/M4 (36 Go/48 Go)
| Modèle | Ça marche ? | Notes |
|---|---|---|
| E2B | Oui | Largement surpuissant |
| E4B | Oui | Rapide et fluide |
| 26B | Oui | Confortable en 8-bit |
| 31B | Oui (4-bit, 36 Go) | Serré mais ça marche |
Verdict : C'est le point idéal pour exécuter les grands modèles. 36 Go gère tout jusqu'au 31B en 4-bit. 48 Go vous donne de la marge.
Mac Studio M2 Ultra (64 Go+)
| Modèle | Ça marche ? | Notes |
|---|---|---|
| Tous les modèles | Oui | Aucun compromis |
Verdict : Vous pouvez exécuter chaque modèle Gemma 4 confortablement, y compris le 31B en 8-bit. L'architecture mémoire unifiée du M2 Ultra gère ces charges de travail parfaitement.
PC Gaming — RTX 3060 (12 Go de VRAM)
| Modèle | Ça marche ? | Notes |
|---|---|---|
| E2B | Oui | Accéléré par GPU, très rapide |
| E4B | Oui | Inférence rapide |
| 26B | Oui (4-bit) | Rentre dans 12 Go de VRAM |
| 31B | Non | Nécessite 20+ Go de VRAM |
Verdict : La RTX 3060 est en fait une très bonne carte IA pour son prix. 12 Go de VRAM font tourner le modèle 26B correctement en 4-bit.
PC Gaming — RTX 4090 (24 Go de VRAM)
| Modèle | Ça marche ? | Notes |
|---|---|---|
| E2B | Oui | Ultra rapide |
| E4B | Oui | Ultra rapide |
| 26B | Oui | Confortable même en 8-bit |
| 31B | Oui (4-bit) | Rentre avec de la marge pour le cache KV |
Verdict : Le roi des GPU grand public pour l'IA. Fait tourner tout ce que Gemma 4 propose. Le modèle 31B rentre en 4-bit avec assez de marge pour des longueurs de contexte raisonnables.
Cloud — A100 (80 Go de VRAM)
| Modèle | Ça marche ? | Notes |
|---|---|---|
| Tous les modèles | Oui | Pleine vitesse, pleine précision |
Verdict : Si vous avez besoin de performances maximales ou de modèles en pleine précision, louez un A100. Disponible sur Google Cloud, AWS, Lambda Labs et RunPod.
CPU uniquement : possible mais pénible
Pas de GPU ? Vous pouvez quand même exécuter Gemma 4, juste sur CPU. Voici à quoi vous attendre :
- E2B sur CPU : ~5-10 tokens/s. Tout à fait utilisable.
- E4B sur CPU : ~2-5 tokens/s. Utilisable mais il faudra être patient.
- 26B sur CPU : ~0,5-2 tokens/s. Douloureusement lent mais techniquement ça marche.
- 31B sur CPU : N'essayez même pas. Moins de 1 token/s sur la plupart des machines.
L'inférence sur CPU est environ 2-10x plus lente que l'inférence sur GPU, selon votre CPU et la taille du modèle. Apple Silicon gère mieux l'inférence CPU qu'Intel/AMD grâce à l'architecture mémoire unifiée et au Neural Engine.
Quantification : quel format utiliser
Si vous utilisez Ollama, il gère la quantification automatiquement. Mais si vous téléchargez des fichiers GGUF depuis Hugging Face, voici quoi choisir :
| Format | Taille vs FP16 | Qualité | Vitesse | Quand l'utiliser |
|---|---|---|---|---|
| Q4_K_M | ~25 % | 95-97 % | La plus rapide | Défaut recommandé. Meilleur équilibre. |
| Q5_K_M | ~35 % | 97-98 % | Rapide | Légère amélioration de qualité, toujours petit |
| Q6_K | ~50 % | 98-99 % | Moyen | Quand la qualité compte plus |
| Q8_0 | ~65 % | 99 %+ | Plus lent | Quasi sans perte, nécessite plus de RAM |
| FP16 | 100 % | 100 % | Le plus lent | Uniquement si vous avez énormément de VRAM |
Ma recommandation : Q4_K_M. C'est le point de convergence de la communauté. La perte de qualité est minimale et vous obtenez les meilleures performances avec la plus petite taille de fichier. Si vous avez de la VRAM en rab, Q5_K_M est un petit cran au-dessus.
Astuces pour gagner en performance
Pour un guide d'optimisation complet sur toutes les plateformes, consultez notre guide d'optimisation de la vitesse.
Fermez les autres applications. Surtout les navigateurs. Chrome seul peut consommer 2-4 Go de RAM. Quand vous exécutez les modèles 26B+, chaque Go compte.
Réduisez la longueur de contexte. Si vous avez des erreurs de mémoire insuffisante, limitez la fenêtre de contexte. La plupart des conversations n'ont pas besoin de 262K tokens. Réglez num_ctx sur 4096 ou 8192.
Utilisez Metal (Mac) ou CUDA (NVIDIA). Assurez-vous que l'accélération GPU est bien activée. Ollama le fait automatiquement, mais si vous utilisez d'autres outils, vérifiez vos paramètres de backend.
Surveillez l'utilisation mémoire. Sur Mac, utilisez le Moniteur d'activité. Sur Linux, nvidia-smi pour la mémoire GPU. Surveillez l'utilisation du swap — si vous tapez dans le swap, les performances s'effondrent.
Envisagez le déchargement partiel de couches. Certains outils comme llama.cpp vous permettent de mettre certaines couches sur le GPU et le reste sur le CPU. Cela permet d'exécuter des modèles légèrement trop grands pour votre GPU, bien que ce soit plus lent que l'inférence complète sur GPU.
Que faut-il acheter ?
Si vous cherchez du matériel pour l'IA, voici mes recommandations selon le budget :
| Budget | Recommandation | Peut exécuter |
|---|---|---|
| 0 € | Utilisez votre portable actuel + E4B | E2B, E4B |
| 200-400 € | RTX 3060 12 Go d'occasion | Jusqu'au 26B (4-bit) |
| 500-800 € | RTX 4060 Ti 16 Go | Jusqu'au 26B (8-bit) |
| 1 000-1 500 € | RTX 4090 24 Go | Jusqu'au 31B (4-bit) |
| 2 000-4 000 € | Mac Studio M2 Pro/Max 32-64 Go | Tous les modèles confortablement |
| 5 000 €+ | Mac Studio M2 Ultra 64 Go+ | Tout, sans compromis |
| À l'usage | Cloud A100 (~1-2 $/h) | Tout à pleine vitesse |
Meilleur rapport qualité-prix : une RTX 3060 12 Go d'occasion. Elle est incroyablement abordable maintenant et fait tourner le modèle 26B. Pour la plupart des gens, c'est suffisant.
Meilleur choix Mac : MacBook Pro avec 36 Go de mémoire unifiée. Fait tourner tout jusqu'au 31B (serré en 4-bit) et c'est un excellent portable pour tout le reste aussi.
Pas besoin de local ? Oubliez le matériel et utilisez l'API Gemma 4. Google AI Studio vous donne un accès gratuit sans exigence matérielle.
Organigramme de décision rapide
- Avez-vous 4 Go de RAM ? → Vous pouvez exécuter E2B. C'est déjà quelque chose.
- Avez-vous 8 Go de RAM ? → Exécutez E4B. C'est vraiment bien.
- Avez-vous un GPU avec 8+ Go de VRAM ? → Exécutez le 26B en 4-bit. C'est le saut de qualité.
- Avez-vous 20+ Go de VRAM ? → Exécutez le 31B. IA locale haut de gamme.
- Rien de tout ça ? → Utilisez l'API cloud. Aucune honte à ça.
Pas sûr de la taille de modèle adaptée à votre cas d'usage ? Consultez notre guide de comparaison des modèles.
Étapes suivantes
- Prêt à installer ? Suivez notre guide de configuration Ollama
- Choisir un modèle ? Lisez Gemma 4 : quel modèle choisir ?
- Des problèmes ? Consultez notre guide de dépannage
- Vous voulez éviter l'installation locale ? Essayez l'approche API



