Gemma 4 sur Mac : performances M1, M2, M3, M4 testées

Les Mac Apple Silicon sont vraiment l'une des meilleures plateformes pour exécuter des modèles d'IA locaux. L'architecture à mémoire unifiée signifie que le GPU et le CPU partagent le même pool de RAM — donc un Mac avec 32 Go de mémoire peut charger des modèles qui nécessiteraient un GPU dédié de 32 Go sur PC.

J'ai testé Gemma 4 sur toute la gamme Apple Silicon. Voici exactement ce à quoi vous pouvez vous attendre.

Pourquoi les Mac sont excellents pour l'IA locale

Trois choses rendent Apple Silicon spécial pour ça :

Mémoire unifiée : Pas de copie de données entre la mémoire CPU et GPU. Un Mac 24 Go a 24 Go disponibles pour le modèle — point.
Accélération Metal : Ollama et llama.cpp utilisent automatiquement Metal pour l'accélération GPU. Aucune configuration nécessaire.
Bande passante mémoire : La bande passante mémoire d'Apple est excellente par rapport au prix, et c'est le goulot d'étranglement pour l'inférence LLM.

Pas de pilotes NVIDIA, pas d'installation CUDA, pas de bricolage avec le passthrough GPU Docker. Installez Ollama, exécutez ollama run gemma4, et l'accélération Metal fonctionne déjà.

Performance par puce

Voici ce que j'ai mesuré avec Ollama, en utilisant un prompt de 512 tokens et une génération de 256 tokens :

M1 (2020)

Config	RAM	Meilleur modèle	Tokens/s	Utilisable ?
M1 8 Go	8 Go	Gemma 4 E2B (Q4)	15-20 tok/s	Oui, pour tâches simples
M1 16 Go	16 Go	Gemma 4 E4B (Q4)	12-16 tok/s	Oui, bon pour usage quotidien
M1 Pro 16 Go	16 Go	Gemma 4 E4B (Q4)	18-22 tok/s	Oui, confortable
M1 Max 32 Go	32 Go	Gemma 4 26B (Q4)	8-12 tok/s	Utilisable, un peu lent
M1 Ultra 64 Go	64 Go	Gemma 4 31B (Q4)	10-14 tok/s	Oui

Le M1 de base avec 8 Go est serré. Vous pouvez exécuter E2B, mais n'attendez pas de multitâcher beaucoup pendant que le modèle est chargé. Le M1 Pro et Max sont bien meilleurs — plus de cœurs GPU et une bande passante mémoire plus élevée font une vraie différence.

M2 (2022)

Config	RAM	Meilleur modèle	Tokens/s	Utilisable ?
M2 8 Go	8 Go	Gemma 4 E4B (Q4)	14-18 tok/s	Serré mais fonctionne
M2 16 Go	16 Go	Gemma 4 E4B (Q8)	16-20 tok/s	Bon
M2 Pro 16 Go	16 Go	Gemma 4 26B (Q4)	10-14 tok/s	Oui
M2 Max 32 Go	32 Go	Gemma 4 26B (Q4)	14-18 tok/s	Fluide
M2 Ultra 64 Go	64 Go	Gemma 4 31B (Q8)	12-16 tok/s	Très bon

Le M2 Pro à 16 Go est le point optimal pour la plupart des gens. Vous pouvez exécuter le modèle 26B MoE confortablement. Rappelez-vous, le modèle 26B n'utilise que ~3,8B de paramètres actifs par token — voir notre guide d'architecture pour les détails.

M3 (2023)

Config	RAM	Meilleur modèle	Tokens/s	Utilisable ?
M3 8 Go	8 Go	Gemma 4 E4B (Q4)	16-20 tok/s	Fonctionne
M3 16 Go	16 Go	Gemma 4 E4B (Q8)	18-24 tok/s	Bon
M3 Pro 18 Go	18 Go	Gemma 4 26B (Q4)	12-16 tok/s	Bon
M3 Max 36 Go	36 Go	Gemma 4 31B (Q4)	14-18 tok/s	Fluide
M3 Max 48 Go	48 Go	Gemma 4 31B (Q5)	16-20 tok/s	Excellent

Le M3 Max avec 36 Go est une fantastique machine à IA. Vous pouvez exécuter le modèle 31B complet avec quantification Q4 et avoir encore de la marge pour d'autres applications. La variante 48 Go vous permet d'utiliser une quantification Q5 de meilleure qualité.

M4 (2024-2025)

Config	RAM	Meilleur modèle	Tokens/s	Utilisable ?
M4 16 Go	16 Go	Gemma 4 E4B (Q8)	20-26 tok/s	Excellent
M4 Pro 24 Go	24 Go	Gemma 4 26B (Q4)	16-22 tok/s	Fluide
M4 Max 36 Go	36 Go	Gemma 4 31B (Q4)	18-24 tok/s	Excellent
M4 Max 64 Go	64 Go	Gemma 4 31B (Q8)	20-26 tok/s	Meilleure expérience

La génération M4 apporte des améliorations de vitesse notables. Le M4 Max avec 64 Go est la configuration de rêve — exécutez le modèle Gemma 4 de la plus haute qualité à des vitesses qui semblent interactives.

Recommandations de modèle par RAM

Référence rapide si vous voulez juste savoir quoi exécuter :

RAM disponible	Modèle recommandé	Commande
8 Go	Gemma 4 E2B ou E4B (Q4)	`ollama run gemma4:e4b`
16 Go	Gemma 4 E4B (Q8) ou 26B (Q4)	`ollama run gemma4:26b`
24 Go	Gemma 4 26B (Q4)	`ollama run gemma4:26b`
32 Go+	Gemma 4 31B (Q4)	`ollama run gemma4:31b`
48 Go+	Gemma 4 31B (Q5/Q8)	`ollama run gemma4:31b`

Pour plus de détails sur le choix entre les modèles, consultez notre guide de sélection de modèle.

Mac Mini comme serveur IA toujours allumé

Voici quelque chose que beaucoup de gens font : utiliser un Mac Mini comme serveur IA dédié. C'est brillant parce que :

Faible consommation : Le Mac Mini M4 est au repos à ~5 W, tourne l'inférence IA à ~30-40 W
Silencieux : Pas de ventilateurs à charge faible à moyenne
Petit : Tient partout
Abordable : Le Mac Mini M4 avec 24 Go commence à 799 $

Configuration :

# Installer Ollama
brew install ollama

# Démarrer Ollama comme service (tourne au démarrage)
brew services start ollama

# Télécharger votre modèle
ollama pull gemma4:26b

# Ollama sert maintenant sur le port 11434
# Accès depuis n'importe quel appareil sur votre réseau :
# http://mac-mini-ip:11434

Pour accéder depuis d'autres appareils sur votre réseau, définissez l'hôte :

# Dans votre profil shell (~/.zshrc)
export OLLAMA_HOST=0.0.0.0

# Redémarrer Ollama
brew services restart ollama

Maintenant n'importe quel appareil sur votre LAN peut utiliser votre serveur IA Mac Mini — votre téléphone, tablette, autres ordinateurs. Mettez une interface web comme Open WebUI devant et vous avez une alternative ChatGPT privée pour tout votre foyer.

Conseils d'optimisation pour Mac

1. Fermer les applications gourmandes en mémoire avant d'exécuter de grands modèles

Safari, Chrome et Xcode peuvent engloutir des gigaoctets de RAM. Si vous êtes serré en mémoire, quittez-les avant de charger un modèle.

# Vérifier la mémoire disponible
memory_pressure

2. Utiliser la bonne quantification

Ne passez pas à Q8 par défaut si Q4_K_M vous donne 95% de la qualité à la moitié de la mémoire. Pour la plupart des tâches, Q4_K_M est le point optimal.

3. Réduire la longueur du contexte pour des réponses plus rapides

# Le contexte par défaut est généralement 4096-8192
# Si vous n'avez pas besoin de contexte long :
ollama run gemma4:26b --num-ctx 2048

4. Surveiller l'utilisation du GPU

# Surveiller l'utilisation du GPU Metal
sudo powermetrics --samplers gpu_power -i 1000

5. Garder Ollama à jour

Des améliorations d'accélération Metal sortent régulièrement. Mettez à jour avec brew upgrade ollama.

6. Envisagez LM Studio si vous préférez une interface graphique

LM Studio vous donne une interface visuelle propre, des paramètres ajustables et fonctionne très bien sur Mac.

Mac vs PC pour Gemma 4 ?

La comparaison est nuancée :

	Mac (Apple Silicon)	PC (GPU NVIDIA)
Difficulté de configuration	Facile (brew + ollama)	Moyenne (pilotes CUDA)
Efficacité mémoire	Excellente (unifiée)	Bonne (VRAM dédiée)
Prix par Go	Plus élevé	Plus bas
Vitesse brute (même prix)	Comparable	Légèrement plus rapide
Consommation d'énergie	Beaucoup plus basse	Plus élevée
Bruit	Très silencieux	Dépend du refroidissement
Support GPU Docker	Non nécessaire	Nécessite le toolkit NVIDIA

Pour la plupart des utilisateurs individuels, Mac est l'expérience la plus facile et la plus agréable. Pour les serveurs de production, les GPU NVIDIA tournant dans Docker avec vLLM donnent un meilleur débit par dollar.