0% read

Gemma 4 sur Mac : performances M1, M2, M3, M4 testées

avr. 7, 2026

Les Mac Apple Silicon sont vraiment l'une des meilleures plateformes pour exécuter des modèles d'IA locaux. L'architecture à mémoire unifiée signifie que le GPU et le CPU partagent le même pool de RAM — donc un Mac avec 32 Go de mémoire peut charger des modèles qui nécessiteraient un GPU dédié de 32 Go sur PC.

J'ai testé Gemma 4 sur toute la gamme Apple Silicon. Voici exactement ce à quoi vous pouvez vous attendre.

Pourquoi les Mac sont excellents pour l'IA locale

Trois choses rendent Apple Silicon spécial pour ça :

  1. Mémoire unifiée : Pas de copie de données entre la mémoire CPU et GPU. Un Mac 24 Go a 24 Go disponibles pour le modèle — point.
  2. Accélération Metal : Ollama et llama.cpp utilisent automatiquement Metal pour l'accélération GPU. Aucune configuration nécessaire.
  3. Bande passante mémoire : La bande passante mémoire d'Apple est excellente par rapport au prix, et c'est le goulot d'étranglement pour l'inférence LLM.

Pas de pilotes NVIDIA, pas d'installation CUDA, pas de bricolage avec le passthrough GPU Docker. Installez Ollama, exécutez ollama run gemma4, et l'accélération Metal fonctionne déjà.

Performance par puce

Voici ce que j'ai mesuré avec Ollama, en utilisant un prompt de 512 tokens et une génération de 256 tokens :

M1 (2020)

ConfigRAMMeilleur modèleTokens/sUtilisable ?
M1 8 Go8 GoGemma 4 E2B (Q4)15-20 tok/sOui, pour tâches simples
M1 16 Go16 GoGemma 4 E4B (Q4)12-16 tok/sOui, bon pour usage quotidien
M1 Pro 16 Go16 GoGemma 4 E4B (Q4)18-22 tok/sOui, confortable
M1 Max 32 Go32 GoGemma 4 26B (Q4)8-12 tok/sUtilisable, un peu lent
M1 Ultra 64 Go64 GoGemma 4 31B (Q4)10-14 tok/sOui

Le M1 de base avec 8 Go est serré. Vous pouvez exécuter E2B, mais n'attendez pas de multitâcher beaucoup pendant que le modèle est chargé. Le M1 Pro et Max sont bien meilleurs — plus de cœurs GPU et une bande passante mémoire plus élevée font une vraie différence.

M2 (2022)

ConfigRAMMeilleur modèleTokens/sUtilisable ?
M2 8 Go8 GoGemma 4 E4B (Q4)14-18 tok/sSerré mais fonctionne
M2 16 Go16 GoGemma 4 E4B (Q8)16-20 tok/sBon
M2 Pro 16 Go16 GoGemma 4 26B (Q4)10-14 tok/sOui
M2 Max 32 Go32 GoGemma 4 26B (Q4)14-18 tok/sFluide
M2 Ultra 64 Go64 GoGemma 4 31B (Q8)12-16 tok/sTrès bon

Le M2 Pro à 16 Go est le point optimal pour la plupart des gens. Vous pouvez exécuter le modèle 26B MoE confortablement. Rappelez-vous, le modèle 26B n'utilise que ~3,8B de paramètres actifs par token — voir notre guide d'architecture pour les détails.

M3 (2023)

ConfigRAMMeilleur modèleTokens/sUtilisable ?
M3 8 Go8 GoGemma 4 E4B (Q4)16-20 tok/sFonctionne
M3 16 Go16 GoGemma 4 E4B (Q8)18-24 tok/sBon
M3 Pro 18 Go18 GoGemma 4 26B (Q4)12-16 tok/sBon
M3 Max 36 Go36 GoGemma 4 31B (Q4)14-18 tok/sFluide
M3 Max 48 Go48 GoGemma 4 31B (Q5)16-20 tok/sExcellent

Le M3 Max avec 36 Go est une fantastique machine à IA. Vous pouvez exécuter le modèle 31B complet avec quantification Q4 et avoir encore de la marge pour d'autres applications. La variante 48 Go vous permet d'utiliser une quantification Q5 de meilleure qualité.

M4 (2024-2025)

ConfigRAMMeilleur modèleTokens/sUtilisable ?
M4 16 Go16 GoGemma 4 E4B (Q8)20-26 tok/sExcellent
M4 Pro 24 Go24 GoGemma 4 26B (Q4)16-22 tok/sFluide
M4 Max 36 Go36 GoGemma 4 31B (Q4)18-24 tok/sExcellent
M4 Max 64 Go64 GoGemma 4 31B (Q8)20-26 tok/sMeilleure expérience

La génération M4 apporte des améliorations de vitesse notables. Le M4 Max avec 64 Go est la configuration de rêve — exécutez le modèle Gemma 4 de la plus haute qualité à des vitesses qui semblent interactives.

Recommandations de modèle par RAM

Référence rapide si vous voulez juste savoir quoi exécuter :

RAM disponibleModèle recommandéCommande
8 GoGemma 4 E2B ou E4B (Q4)ollama run gemma4:e4b
16 GoGemma 4 E4B (Q8) ou 26B (Q4)ollama run gemma4:26b
24 GoGemma 4 26B (Q4)ollama run gemma4:26b
32 Go+Gemma 4 31B (Q4)ollama run gemma4:31b
48 Go+Gemma 4 31B (Q5/Q8)ollama run gemma4:31b

Pour plus de détails sur le choix entre les modèles, consultez notre guide de sélection de modèle.

Mac Mini comme serveur IA toujours allumé

Voici quelque chose que beaucoup de gens font : utiliser un Mac Mini comme serveur IA dédié. C'est brillant parce que :

  • Faible consommation : Le Mac Mini M4 est au repos à ~5 W, tourne l'inférence IA à ~30-40 W
  • Silencieux : Pas de ventilateurs à charge faible à moyenne
  • Petit : Tient partout
  • Abordable : Le Mac Mini M4 avec 24 Go commence à 799 $

Configuration :

# Installer Ollama
brew install ollama

# Démarrer Ollama comme service (tourne au démarrage)
brew services start ollama

# Télécharger votre modèle
ollama pull gemma4:26b

# Ollama sert maintenant sur le port 11434
# Accès depuis n'importe quel appareil sur votre réseau :
# http://mac-mini-ip:11434

Pour accéder depuis d'autres appareils sur votre réseau, définissez l'hôte :

# Dans votre profil shell (~/.zshrc)
export OLLAMA_HOST=0.0.0.0

# Redémarrer Ollama
brew services restart ollama

Maintenant n'importe quel appareil sur votre LAN peut utiliser votre serveur IA Mac Mini — votre téléphone, tablette, autres ordinateurs. Mettez une interface web comme Open WebUI devant et vous avez une alternative ChatGPT privée pour tout votre foyer.

Conseils d'optimisation pour Mac

1. Fermer les applications gourmandes en mémoire avant d'exécuter de grands modèles

Safari, Chrome et Xcode peuvent engloutir des gigaoctets de RAM. Si vous êtes serré en mémoire, quittez-les avant de charger un modèle.

# Vérifier la mémoire disponible
memory_pressure

2. Utiliser la bonne quantification

Ne passez pas à Q8 par défaut si Q4_K_M vous donne 95% de la qualité à la moitié de la mémoire. Pour la plupart des tâches, Q4_K_M est le point optimal.

3. Réduire la longueur du contexte pour des réponses plus rapides

# Le contexte par défaut est généralement 4096-8192
# Si vous n'avez pas besoin de contexte long :
ollama run gemma4:26b --num-ctx 2048

4. Surveiller l'utilisation du GPU

# Surveiller l'utilisation du GPU Metal
sudo powermetrics --samplers gpu_power -i 1000

5. Garder Ollama à jour

Des améliorations d'accélération Metal sortent régulièrement. Mettez à jour avec brew upgrade ollama.

6. Envisagez LM Studio si vous préférez une interface graphique

LM Studio vous donne une interface visuelle propre, des paramètres ajustables et fonctionne très bien sur Mac.

Mac vs PC pour Gemma 4 ?

La comparaison est nuancée :

Mac (Apple Silicon)PC (GPU NVIDIA)
Difficulté de configurationFacile (brew + ollama)Moyenne (pilotes CUDA)
Efficacité mémoireExcellente (unifiée)Bonne (VRAM dédiée)
Prix par GoPlus élevéPlus bas
Vitesse brute (même prix)ComparableLégèrement plus rapide
Consommation d'énergieBeaucoup plus bassePlus élevée
BruitTrès silencieuxDépend du refroidissement
Support GPU DockerNon nécessaireNécessite le toolkit NVIDIA

Pour la plupart des utilisateurs individuels, Mac est l'expérience la plus facile et la plus agréable. Pour les serveurs de production, les GPU NVIDIA tournant dans Docker avec vLLM donnent un meilleur débit par dollar.

Prochaines étapes

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 sur Mac : performances M1, M2, M3, M4 testées | Blog