Mon portable peut-il faire tourner Gemma 4 ? (RAM et GPU requis)

"Est-ce que ça tourne sur ma machine ?" — c'est la première question que tout le monde se pose. La réponse dépend du modèle Gemma 4 que vous essayez d'exécuter et du matériel dont vous disposez. Coupons court à la confusion et donnons des chiffres concrets.

Tableau complet de la configuration matérielle

Voici ce dont chaque modèle a besoin à différents niveaux de quantification :

Modèle	4-bit (Q4)	8-bit (Q8)	16-bit (FP16)	RAM/VRAM minimum
E2B (2B)	~1,5 Go	~2,5 Go	~4 Go	4 Go de RAM
E4B (4B)	~3 Go	~5 Go	~8 Go	6 Go de RAM
26B MoE	~8 Go	~18 Go	~28 Go	8 Go de VRAM
31B Dense	~20 Go	~34 Go	~62 Go	20 Go de VRAM

Que signifie "quantification" ? C'est une méthode pour compresser le modèle en utilisant moins de précision pour les nombres. Le 4-bit est le plus compressé (plus petit, plus rapide, légèrement moins précis). Le 16-bit est la pleine précision (le plus grand, le plus précis, nécessite le plus de mémoire). Pour la plupart des gens, le 4-bit est le compromis idéal — la différence de qualité est à peine perceptible.

Le piège du cache KV

Voici quelque chose que la plupart des guides ne mentionnent pas. Les poids du modèle ne sont qu'une partie de l'histoire mémoire. Quand Gemma 4 traite de longues conversations, il construit un cache KV (cache clé-valeur) qui stocke les informations d'attention des tokens précédents.

Pour le modèle 31B à sa pleine longueur de contexte de 262K, le cache KV seul peut consommer ~22 Go de mémoire — en plus des poids du modèle. Cela signifie que même si vous avez 24 Go de VRAM pour le modèle, vous pourriez manquer de mémoire pendant de longues conversations.

Conseils pratiques :

Réduisez la longueur de contexte si vous avez des erreurs OOM. Vous n'avez pas toujours besoin de 262K tokens.
Avec Ollama, utilisez num_ctx pour limiter le contexte : ollama run gemma4:31b --num-ctx 4096
Pour la plupart des tâches, un contexte de 4K-8K est amplement suffisant.

Ça tournera sur MA machine ?

Passons en revue des configurations spécifiques :

MacBook Air M2 (8 Go)

Modèle	Ça marche ?	Notes
E2B	Oui	Tourne très bien, réponses rapides
E4B	Oui	Bonne performance, le choix idéal
26B	Non	Pas assez de mémoire unifiée
31B	Non	Pas du tout suffisant

Verdict : E4B est votre meilleur choix. Étonnamment capable pour une machine à 8 Go.

MacBook Pro M3/M4 (16 Go)

Modèle	Ça marche ?	Notes
E2B	Oui	Surpuissant mais rapide
E4B	Oui	Excellentes performances
26B	Oui (4-bit)	Ça marche mais c'est serré. Fermez les autres apps.
31B	Non	Nécessite plus de mémoire

Verdict : Vous pouvez effectivement faire tourner le modèle 26B MoE en quantification 4-bit. C'est un modèle sérieux sur un portable — consultez notre comparaison 26B vs 31B pour comprendre les compromis. Ne vous attendez pas à avoir Chrome ouvert avec 50 onglets en même temps.

MacBook Pro M3/M4 (36 Go/48 Go)

Modèle	Ça marche ?	Notes
E2B	Oui	Largement surpuissant
E4B	Oui	Rapide et fluide
26B	Oui	Confortable en 8-bit
31B	Oui (4-bit, 36 Go)	Serré mais ça marche

Verdict : C'est le point idéal pour exécuter les grands modèles. 36 Go gère tout jusqu'au 31B en 4-bit. 48 Go vous donne de la marge.

Mac Studio M2 Ultra (64 Go+)

Modèle	Ça marche ?	Notes
Tous les modèles	Oui	Aucun compromis

Verdict : Vous pouvez exécuter chaque modèle Gemma 4 confortablement, y compris le 31B en 8-bit. L'architecture mémoire unifiée du M2 Ultra gère ces charges de travail parfaitement.

PC Gaming — RTX 3060 (12 Go de VRAM)

Modèle	Ça marche ?	Notes
E2B	Oui	Accéléré par GPU, très rapide
E4B	Oui	Inférence rapide
26B	Oui (4-bit)	Rentre dans 12 Go de VRAM
31B	Non	Nécessite 20+ Go de VRAM

Verdict : La RTX 3060 est en fait une très bonne carte IA pour son prix. 12 Go de VRAM font tourner le modèle 26B correctement en 4-bit.

PC Gaming — RTX 4090 (24 Go de VRAM)

Modèle	Ça marche ?	Notes
E2B	Oui	Ultra rapide
E4B	Oui	Ultra rapide
26B	Oui	Confortable même en 8-bit
31B	Oui (4-bit)	Rentre avec de la marge pour le cache KV

Verdict : Le roi des GPU grand public pour l'IA. Fait tourner tout ce que Gemma 4 propose. Le modèle 31B rentre en 4-bit avec assez de marge pour des longueurs de contexte raisonnables.

Cloud — A100 (80 Go de VRAM)

Modèle	Ça marche ?	Notes
Tous les modèles	Oui	Pleine vitesse, pleine précision

Verdict : Si vous avez besoin de performances maximales ou de modèles en pleine précision, louez un A100. Disponible sur Google Cloud, AWS, Lambda Labs et RunPod.

CPU uniquement : possible mais pénible

Pas de GPU ? Vous pouvez quand même exécuter Gemma 4, juste sur CPU. Voici à quoi vous attendre :

E2B sur CPU : ~5-10 tokens/s. Tout à fait utilisable.
E4B sur CPU : ~2-5 tokens/s. Utilisable mais il faudra être patient.
26B sur CPU : ~0,5-2 tokens/s. Douloureusement lent mais techniquement ça marche.
31B sur CPU : N'essayez même pas. Moins de 1 token/s sur la plupart des machines.

L'inférence sur CPU est environ 2-10x plus lente que l'inférence sur GPU, selon votre CPU et la taille du modèle. Apple Silicon gère mieux l'inférence CPU qu'Intel/AMD grâce à l'architecture mémoire unifiée et au Neural Engine.

Quantification : quel format utiliser

Si vous utilisez Ollama, il gère la quantification automatiquement. Mais si vous téléchargez des fichiers GGUF depuis Hugging Face, voici quoi choisir :

Format	Taille vs FP16	Qualité	Vitesse	Quand l'utiliser
Q4_K_M	~25 %	95-97 %	La plus rapide	Défaut recommandé. Meilleur équilibre.
Q5_K_M	~35 %	97-98 %	Rapide	Légère amélioration de qualité, toujours petit
Q6_K	~50 %	98-99 %	Moyen	Quand la qualité compte plus
Q8_0	~65 %	99 %+	Plus lent	Quasi sans perte, nécessite plus de RAM
FP16	100 %	100 %	Le plus lent	Uniquement si vous avez énormément de VRAM

Ma recommandation : Q4_K_M. C'est le point de convergence de la communauté. La perte de qualité est minimale et vous obtenez les meilleures performances avec la plus petite taille de fichier. Si vous avez de la VRAM en rab, Q5_K_M est un petit cran au-dessus.

Astuces pour gagner en performance

Pour un guide d'optimisation complet sur toutes les plateformes, consultez notre guide d'optimisation de la vitesse.

Fermez les autres applications. Surtout les navigateurs. Chrome seul peut consommer 2-4 Go de RAM. Quand vous exécutez les modèles 26B+, chaque Go compte.

Réduisez la longueur de contexte. Si vous avez des erreurs de mémoire insuffisante, limitez la fenêtre de contexte. La plupart des conversations n'ont pas besoin de 262K tokens. Réglez num_ctx sur 4096 ou 8192.

Utilisez Metal (Mac) ou CUDA (NVIDIA). Assurez-vous que l'accélération GPU est bien activée. Ollama le fait automatiquement, mais si vous utilisez d'autres outils, vérifiez vos paramètres de backend.

Surveillez l'utilisation mémoire. Sur Mac, utilisez le Moniteur d'activité. Sur Linux, nvidia-smi pour la mémoire GPU. Surveillez l'utilisation du swap — si vous tapez dans le swap, les performances s'effondrent.

Envisagez le déchargement partiel de couches. Certains outils comme llama.cpp vous permettent de mettre certaines couches sur le GPU et le reste sur le CPU. Cela permet d'exécuter des modèles légèrement trop grands pour votre GPU, bien que ce soit plus lent que l'inférence complète sur GPU.

Que faut-il acheter ?

Si vous cherchez du matériel pour l'IA, voici mes recommandations selon le budget :

Budget	Recommandation	Peut exécuter
0 €	Utilisez votre portable actuel + E4B	E2B, E4B
200-400 €	RTX 3060 12 Go d'occasion	Jusqu'au 26B (4-bit)
500-800 €	RTX 4060 Ti 16 Go	Jusqu'au 26B (8-bit)
1 000-1 500 €	RTX 4090 24 Go	Jusqu'au 31B (4-bit)
2 000-4 000 €	Mac Studio M2 Pro/Max 32-64 Go	Tous les modèles confortablement
5 000 €+	Mac Studio M2 Ultra 64 Go+	Tout, sans compromis
À l'usage	Cloud A100 (~1-2 $/h)	Tout à pleine vitesse

Meilleur rapport qualité-prix : une RTX 3060 12 Go d'occasion. Elle est incroyablement abordable maintenant et fait tourner le modèle 26B. Pour la plupart des gens, c'est suffisant.

Meilleur choix Mac : MacBook Pro avec 36 Go de mémoire unifiée. Fait tourner tout jusqu'au 31B (serré en 4-bit) et c'est un excellent portable pour tout le reste aussi.

Pas besoin de local ? Oubliez le matériel et utilisez l'API Gemma 4. Google AI Studio vous donne un accès gratuit sans exigence matérielle.

Organigramme de décision rapide

Avez-vous 4 Go de RAM ? → Vous pouvez exécuter E2B. C'est déjà quelque chose.
Avez-vous 8 Go de RAM ? → Exécutez E4B. C'est vraiment bien.
Avez-vous un GPU avec 8+ Go de VRAM ? → Exécutez le 26B en 4-bit. C'est le saut de qualité.
Avez-vous 20+ Go de VRAM ? → Exécutez le 31B. IA locale haut de gamme.
Rien de tout ça ? → Utilisez l'API cloud. Aucune honte à ça.

Pas sûr de la taille de modèle adaptée à votre cas d'usage ? Consultez notre guide de comparaison des modèles.

Étapes suivantes

Prêt à installer ? Suivez notre guide de configuration Ollama
Choisir un modèle ? Lisez Gemma 4 : quel modèle choisir ?
Des problèmes ? Consultez notre guide de dépannage
Vous voulez éviter l'installation locale ? Essayez l'approche API