Comment exécuter Gemma 4 sur Raspberry Pi (oui, vraiment)

Oui, vous pouvez exécuter Gemma 4 sur un Raspberry Pi. Non, ça ne sera pas rapide. Mais ça fonctionne, et il y a des raisons vraiment valables de le faire. Je vais vous montrer comment, et être honnête sur ce à quoi s'attendre.

Ce qui est réaliste

Fixons les attentes avant de commencer :

	Raspberry Pi 5 (8 Go)	MacBook M2 16 Go
Modèle	Gemma 4 E2B (Q4)	Gemma 4 26B (Q4)
Vitesse	2-5 tokens/s	14-18 tokens/s
Ressenti	Lent mais fonctionnel	Fluide et interactif
Coût	~80 $	~1200 $+
Puissance	5-15 W	20-50 W

À 2-5 tokens par seconde, vous attendez quelques secondes pour une réponse courte et peut-être 30 secondes pour une réponse plus longue. Ce n'est pas une vitesse de chat interactif. Mais pour les tâches automatisées, les assistants hors ligne et le bricolage ? Totalement viable.

Prérequis

Raspberry Pi 5 avec 8 Go de RAM (requis — 4 Go ne suffiront pas)
Carte microSD (au moins 32 Go, idéalement 64 Go) ou SSD USB
Refroidissement actif (ventilateur ou dissipateur — le CPU va chauffer)
Raspberry Pi OS 64-bit (Bookworm ou plus récent)

Le Pi 4 avec 8 Go peut techniquement exécuter E2B aussi, mais le Pi 5 est significativement plus rapide (~2x) et je le recommanderais si vous achetez du matériel neuf.

Installer Ollama sur ARM

Ollama supporte ARM64 nativement, donc l'installation sur le Pi est simple :

# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Vérifier l'installation
ollama --version

# Démarrer le service
sudo systemctl enable ollama
sudo systemctl start ollama

Maintenant téléchargez le plus petit modèle Gemma 4 :

# Télécharger E2B — le seul modèle qui tient dans 8 Go
ollama pull gemma4:e2b

# L'exécuter
ollama run gemma4:e2b

Le téléchargement initial prend un certain temps sur Pi (le modèle fait environ 1,5 Go). Une fois chargé, vous devriez voir un prompt. Tapez quelque chose et attendez — votre première réponse prendra quelques secondes pour commencer à se générer.

Contrôle de réalité sur la performance

J'ai exécuté quelques benchmarks sur un Raspberry Pi 5 8 Go avec refroidissement actif :

Modèle : gemma4:e2b (quantification Q4_K_M)
Prompt : "Explique ce qu'est une API en 3 phrases."

Évaluation du prompt : ~1,5 secondes
Vitesse de génération : 3,2 tokens/seconde
Temps total pour une réponse d'environ 50 tokens : ~17 secondes

Modèle : gemma4:e2b (quantification Q4_K_M)
Prompt : "Écris une fonction Python pour inverser une chaîne."

Évaluation du prompt : ~2 secondes
Vitesse de génération : 2,8 tokens/seconde
Temps total pour une réponse d'environ 80 tokens : ~30 secondes

C'est lent. Pas moyen d'y échapper. Le CPU ARM du Pi fait tout le travail — il n'y a pas d'accélération GPU ici. Mais les réponses sont correctes et cohérentes. Le modèle est le même Gemma 4 qui tourne sur un Mac à 3000 $ — juste plus lent.

Cas d'utilisation pratiques

À cette vitesse, le chat interactif n'est pas idéal. Mais ces cas d'utilisation fonctionnent très bien :

Assistant personnel hors ligne

import requests

def ask_gemma(question):
    response = requests.post("http://localhost:11434/api/chat", json={
        "model": "gemma4:e2b",
        "messages": [{"role": "user", "content": question}],
        "stream": False,
    })
    return response.json()["message"]["content"]

# Traite une question pendant la nuit, ait la réponse au matin
answer = ask_gemma("Résume les points clés de cet article : ...")

Cerveau de domotique

Connectez-le à Home Assistant pour un contrôle en langage naturel :

# Parser les commandes vocales en actions structurées
command = "Allume les lumières du salon et règle-les à 50%"

response = ask_gemma(f"""Parse cette commande domotique en JSON :
Commande : {command}
Format : {{"device": "...", "action": "...", "value": "..."}}""")

À 2-5 tok/s, parser une commande simple prend ~5 secondes. C'est bien pour la domotique — vous n'êtes pas pressé d'allumer une lumière.

IA axée sur la confidentialité

Le plus grand argument de vente : vos données ne quittent jamais votre maison. Pas de cloud, pas de clés API, pas de conditions d'utilisation. Juste un ordinateur à 80 $ qui exécute de l'IA sur votre bureau.

Pour les personnes qui veulent un assistant IA privé pour les entrées de journal, les notes personnelles ou les questions sensibles — un Pi exécutant Gemma 4 est difficile à battre sur le prix.

Apprentissage et éducation

Un Raspberry Pi exécutant Gemma 4 est un outil d'enseignement incroyable :

Les étudiants peuvent expérimenter avec l'IA sans avoir besoin de comptes cloud
Les écoles peuvent mettre en place des postes de travail IA pour moins de 100 $ chacun
Apprenez sur l'inférence LLM, la tokenisation et la quantification de manière pratique

Conseils d'optimisation

1. Utilisez la quantification Q4 (ou plus basse)

Q4_K_M donne le meilleur rapport vitesse-qualité sur le Pi. N'essayez pas Q8 — ce sera trop lent et pourrait ne pas tenir en mémoire.

2. Gardez le contexte court

# Réduire la fenêtre de contexte pour économiser la mémoire et accélérer le traitement
ollama run gemma4:e2b --num-ctx 1024

La fenêtre de contexte par défaut grignote votre RAM limitée. Pour un simple Q&R, 1024 tokens suffisent amplement.

3. Utilisez un SSD au lieu d'une microSD

Un SSD USB 3.0 accélère dramatiquement le chargement du modèle. La carte microSD est le goulot d'étranglement quand le modèle se charge initialement en mémoire.

# Vérifier si votre modèle est sur un stockage lent
ls -la ~/.ollama/models/

4. Ajoutez de l'espace de swap

Si vous êtes serré en mémoire :

# Ajouter 4 Go de swap
sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

# Le rendre permanent
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

Attention : le swap sur microSD sera très lent. Utilisez un SSD si possible.

5. Fermez tout le reste

Le Pi n'a que 8 Go. Fermez l'environnement de bureau si vous tournez en headless :

# Passer en CLI uniquement
sudo systemctl set-default multi-user.target
sudo reboot

Cela libère ~500 Mo de RAM — ce qui compte quand vous travaillez avec des marges serrées.

6. Baissez la température

Je parle de la température physique. Le Pi 5 throttle quand il chauffe. Assurez-vous d'avoir :

Un dissipateur approprié
Un refroidissement actif (ventilateur)
Une bonne ventilation

Qu'en est-il du Pi 4 ?

Le Raspberry Pi 4 avec 8 Go peut exécuter Gemma 4 E2B, mais :

~1,5-3 tok/s (environ 40% plus lent que le Pi 5)
Pas d'extensions crypto pour une inférence plus rapide
Fonctionne toujours pour les mêmes cas d'utilisation, juste avec plus de patience

Si vous avez déjà un Pi 4 8 Go, essayez-le. Si vous achetez du neuf, prenez le Pi 5.

Le facteur fun

Soyons réalistes : exécuter de l'IA sur un ordinateur de la taille d'une carte de crédit, c'est juste cool. C'est un sujet de conversation, un projet de week-end et une vraie expérience d'apprentissage. Le fait qu'il produise du texte cohérent et utile est tout simplement remarquable.

Arrivez à une rencontre avec un Raspberry Pi exécutant Gemma 4 et les gens voudront vous parler.

Pour une configuration plus pratique, consultez l'exécution de Gemma 4 sur un Mac ou dans Docker. Et si vous voulez comprendre pourquoi le modèle E2B tient sur un matériel si petit, notre guide d'architecture explique les différentes tailles de modèle.