Mon portable peut-il faire tourner Gemma 4 ? (RAM et GPU requis)

avr. 7, 2026

"Est-ce que ça tourne sur ma machine ?" — c'est la première question que tout le monde se pose. La réponse dépend du modèle Gemma 4 que vous essayez d'exécuter et du matériel dont vous disposez. Coupons court à la confusion et donnons des chiffres concrets.

Tableau complet de la configuration matérielle

Voici ce dont chaque modèle a besoin à différents niveaux de quantification :

Modèle4-bit (Q4)8-bit (Q8)16-bit (FP16)RAM/VRAM minimum
E2B (2B)~1,5 Go~2,5 Go~4 Go4 Go de RAM
E4B (4B)~3 Go~5 Go~8 Go6 Go de RAM
26B MoE~8 Go~18 Go~28 Go8 Go de VRAM
31B Dense~20 Go~34 Go~62 Go20 Go de VRAM

Que signifie "quantification" ? C'est une méthode pour compresser le modèle en utilisant moins de précision pour les nombres. Le 4-bit est le plus compressé (plus petit, plus rapide, légèrement moins précis). Le 16-bit est la pleine précision (le plus grand, le plus précis, nécessite le plus de mémoire). Pour la plupart des gens, le 4-bit est le compromis idéal — la différence de qualité est à peine perceptible.

Le piège du cache KV

Voici quelque chose que la plupart des guides ne mentionnent pas. Les poids du modèle ne sont qu'une partie de l'histoire mémoire. Quand Gemma 4 traite de longues conversations, il construit un cache KV (cache clé-valeur) qui stocke les informations d'attention des tokens précédents.

Pour le modèle 31B à sa pleine longueur de contexte de 262K, le cache KV seul peut consommer ~22 Go de mémoire — en plus des poids du modèle. Cela signifie que même si vous avez 24 Go de VRAM pour le modèle, vous pourriez manquer de mémoire pendant de longues conversations.

Conseils pratiques :

  • Réduisez la longueur de contexte si vous avez des erreurs OOM. Vous n'avez pas toujours besoin de 262K tokens.
  • Avec Ollama, utilisez num_ctx pour limiter le contexte : ollama run gemma4:31b --num-ctx 4096
  • Pour la plupart des tâches, un contexte de 4K-8K est amplement suffisant.

Ça tournera sur MA machine ?

Passons en revue des configurations spécifiques :

MacBook Air M2 (8 Go)

ModèleÇa marche ?Notes
E2BOuiTourne très bien, réponses rapides
E4BOuiBonne performance, le choix idéal
26BNonPas assez de mémoire unifiée
31BNonPas du tout suffisant

Verdict : E4B est votre meilleur choix. Étonnamment capable pour une machine à 8 Go.

MacBook Pro M3/M4 (16 Go)

ModèleÇa marche ?Notes
E2BOuiSurpuissant mais rapide
E4BOuiExcellentes performances
26BOui (4-bit)Ça marche mais c'est serré. Fermez les autres apps.
31BNonNécessite plus de mémoire

Verdict : Vous pouvez effectivement faire tourner le modèle 26B MoE en quantification 4-bit. C'est un modèle sérieux sur un portable — consultez notre comparaison 26B vs 31B pour comprendre les compromis. Ne vous attendez pas à avoir Chrome ouvert avec 50 onglets en même temps.

MacBook Pro M3/M4 (36 Go/48 Go)

ModèleÇa marche ?Notes
E2BOuiLargement surpuissant
E4BOuiRapide et fluide
26BOuiConfortable en 8-bit
31BOui (4-bit, 36 Go)Serré mais ça marche

Verdict : C'est le point idéal pour exécuter les grands modèles. 36 Go gère tout jusqu'au 31B en 4-bit. 48 Go vous donne de la marge.

Mac Studio M2 Ultra (64 Go+)

ModèleÇa marche ?Notes
Tous les modèlesOuiAucun compromis

Verdict : Vous pouvez exécuter chaque modèle Gemma 4 confortablement, y compris le 31B en 8-bit. L'architecture mémoire unifiée du M2 Ultra gère ces charges de travail parfaitement.

PC Gaming — RTX 3060 (12 Go de VRAM)

ModèleÇa marche ?Notes
E2BOuiAccéléré par GPU, très rapide
E4BOuiInférence rapide
26BOui (4-bit)Rentre dans 12 Go de VRAM
31BNonNécessite 20+ Go de VRAM

Verdict : La RTX 3060 est en fait une très bonne carte IA pour son prix. 12 Go de VRAM font tourner le modèle 26B correctement en 4-bit.

PC Gaming — RTX 4090 (24 Go de VRAM)

ModèleÇa marche ?Notes
E2BOuiUltra rapide
E4BOuiUltra rapide
26BOuiConfortable même en 8-bit
31BOui (4-bit)Rentre avec de la marge pour le cache KV

Verdict : Le roi des GPU grand public pour l'IA. Fait tourner tout ce que Gemma 4 propose. Le modèle 31B rentre en 4-bit avec assez de marge pour des longueurs de contexte raisonnables.

Cloud — A100 (80 Go de VRAM)

ModèleÇa marche ?Notes
Tous les modèlesOuiPleine vitesse, pleine précision

Verdict : Si vous avez besoin de performances maximales ou de modèles en pleine précision, louez un A100. Disponible sur Google Cloud, AWS, Lambda Labs et RunPod.

CPU uniquement : possible mais pénible

Pas de GPU ? Vous pouvez quand même exécuter Gemma 4, juste sur CPU. Voici à quoi vous attendre :

  • E2B sur CPU : ~5-10 tokens/s. Tout à fait utilisable.
  • E4B sur CPU : ~2-5 tokens/s. Utilisable mais il faudra être patient.
  • 26B sur CPU : ~0,5-2 tokens/s. Douloureusement lent mais techniquement ça marche.
  • 31B sur CPU : N'essayez même pas. Moins de 1 token/s sur la plupart des machines.

L'inférence sur CPU est environ 2-10x plus lente que l'inférence sur GPU, selon votre CPU et la taille du modèle. Apple Silicon gère mieux l'inférence CPU qu'Intel/AMD grâce à l'architecture mémoire unifiée et au Neural Engine.

Quantification : quel format utiliser

Si vous utilisez Ollama, il gère la quantification automatiquement. Mais si vous téléchargez des fichiers GGUF depuis Hugging Face, voici quoi choisir :

FormatTaille vs FP16QualitéVitesseQuand l'utiliser
Q4_K_M~25 %95-97 %La plus rapideDéfaut recommandé. Meilleur équilibre.
Q5_K_M~35 %97-98 %RapideLégère amélioration de qualité, toujours petit
Q6_K~50 %98-99 %MoyenQuand la qualité compte plus
Q8_0~65 %99 %+Plus lentQuasi sans perte, nécessite plus de RAM
FP16100 %100 %Le plus lentUniquement si vous avez énormément de VRAM

Ma recommandation : Q4_K_M. C'est le point de convergence de la communauté. La perte de qualité est minimale et vous obtenez les meilleures performances avec la plus petite taille de fichier. Si vous avez de la VRAM en rab, Q5_K_M est un petit cran au-dessus.

Astuces pour gagner en performance

Pour un guide d'optimisation complet sur toutes les plateformes, consultez notre guide d'optimisation de la vitesse.

Fermez les autres applications. Surtout les navigateurs. Chrome seul peut consommer 2-4 Go de RAM. Quand vous exécutez les modèles 26B+, chaque Go compte.

Réduisez la longueur de contexte. Si vous avez des erreurs de mémoire insuffisante, limitez la fenêtre de contexte. La plupart des conversations n'ont pas besoin de 262K tokens. Réglez num_ctx sur 4096 ou 8192.

Utilisez Metal (Mac) ou CUDA (NVIDIA). Assurez-vous que l'accélération GPU est bien activée. Ollama le fait automatiquement, mais si vous utilisez d'autres outils, vérifiez vos paramètres de backend.

Surveillez l'utilisation mémoire. Sur Mac, utilisez le Moniteur d'activité. Sur Linux, nvidia-smi pour la mémoire GPU. Surveillez l'utilisation du swap — si vous tapez dans le swap, les performances s'effondrent.

Envisagez le déchargement partiel de couches. Certains outils comme llama.cpp vous permettent de mettre certaines couches sur le GPU et le reste sur le CPU. Cela permet d'exécuter des modèles légèrement trop grands pour votre GPU, bien que ce soit plus lent que l'inférence complète sur GPU.

Que faut-il acheter ?

Si vous cherchez du matériel pour l'IA, voici mes recommandations selon le budget :

BudgetRecommandationPeut exécuter
0 €Utilisez votre portable actuel + E4BE2B, E4B
200-400 €RTX 3060 12 Go d'occasionJusqu'au 26B (4-bit)
500-800 €RTX 4060 Ti 16 GoJusqu'au 26B (8-bit)
1 000-1 500 €RTX 4090 24 GoJusqu'au 31B (4-bit)
2 000-4 000 €Mac Studio M2 Pro/Max 32-64 GoTous les modèles confortablement
5 000 €+Mac Studio M2 Ultra 64 Go+Tout, sans compromis
À l'usageCloud A100 (~1-2 $/h)Tout à pleine vitesse

Meilleur rapport qualité-prix : une RTX 3060 12 Go d'occasion. Elle est incroyablement abordable maintenant et fait tourner le modèle 26B. Pour la plupart des gens, c'est suffisant.

Meilleur choix Mac : MacBook Pro avec 36 Go de mémoire unifiée. Fait tourner tout jusqu'au 31B (serré en 4-bit) et c'est un excellent portable pour tout le reste aussi.

Pas besoin de local ? Oubliez le matériel et utilisez l'API Gemma 4. Google AI Studio vous donne un accès gratuit sans exigence matérielle.

Organigramme de décision rapide

  1. Avez-vous 4 Go de RAM ? → Vous pouvez exécuter E2B. C'est déjà quelque chose.
  2. Avez-vous 8 Go de RAM ? → Exécutez E4B. C'est vraiment bien.
  3. Avez-vous un GPU avec 8+ Go de VRAM ? → Exécutez le 26B en 4-bit. C'est le saut de qualité.
  4. Avez-vous 20+ Go de VRAM ? → Exécutez le 31B. IA locale haut de gamme.
  5. Rien de tout ça ? → Utilisez l'API cloud. Aucune honte à ça.

Pas sûr de la taille de modèle adaptée à votre cas d'usage ? Consultez notre guide de comparaison des modèles.

Étapes suivantes

Gemma 4 AI

Gemma 4 AI

Related Guides

Mon portable peut-il faire tourner Gemma 4 ? (RAM et GPU requis) | Blog