Tout le monde n'aime pas la ligne de commande. Si vous voulez exécuter Gemma 4 localement avec une interface visuelle soignée, LM Studio est l'outil parfait. Il vous offre une expérience de type ChatGPT — complètement hors ligne, complètement gratuite et complètement privée.
Ce guide vous accompagne dans chaque étape, du téléchargement de LM Studio à votre première conversation avec Gemma 4.
Qu'est-ce que LM Studio ?
LM Studio est une application de bureau gratuite qui vous permet de télécharger et d'exécuter des modèles d'IA sur votre propre ordinateur. Pensez-y comme un app store pour les modèles d'IA open-source combiné à une belle interface de chat.
Fonctionnalités clés :
- Pas de ligne de commande requise — tout se passe via une interface graphique
- Recherche de modèles intégrée — trouvez et téléchargez des modèles directement depuis l'application
- Interface de chat de style ChatGPT — interface de conversation familière et facile à utiliser
- Paramètres ajustables — température, longueur de contexte, system prompts et plus
- Serveur API local — compatible avec le format API OpenAI pour les développeurs
Ce dont vous avez besoin
- Un ordinateur avec au moins 8 Go de RAM (16 Go recommandé)
- macOS, Windows ou Linux
- Environ 3-6 Go d'espace disque libre (selon la taille du modèle Gemma 4)
- Pas de connexion internet requise après le téléchargement du modèle
Étape 1 : Télécharger et installer LM Studio
Visitez lmstudio.ai et téléchargez l'installeur pour votre système d'exploitation.
macOS : Téléchargez le fichier .dmg, ouvrez-le et faites glisser LM Studio vers votre dossier Applications.
Windows : Téléchargez l'installeur .exe et exécutez-le. Suivez l'assistant d'installation standard.
Linux : Téléchargez le fichier .AppImage. Rendez-le exécutable et lancez-le :
chmod +x LM-Studio-*.AppImage
./LM-Studio-*.AppImageLancez LM Studio après l'installation. Vous verrez un écran d'accueil propre avec une barre de recherche en haut.
Étape 2 : Rechercher et télécharger Gemma 4
Une fois LM Studio ouvert :
- Cliquez sur la barre de recherche en haut de l'application (ou naviguez vers l'onglet Discover/Models)
- Tapez « gemma 4 » dans le champ de recherche
- Parcourez les résultats — vous verrez diverses versions quantifiées de Gemma 4
Choisir la bonne version
LM Studio propose plusieurs versions quantifiées de chaque modèle. La quantification réduit la taille du modèle et l'utilisation mémoire avec une perte de qualité minimale.
| Quantification | Taille fichier | RAM nécessaire | Qualité | Idéal pour |
|---|---|---|---|---|
| Q4_K_M | ~2,5 Go | ~5 Go | Bonne | La plupart des utilisateurs, équilibré |
| Q5_K_M | ~3 Go | ~6 Go | Meilleure | Axé qualité |
| Q6_K | ~3,5 Go | ~7 Go | Excellente | Réponses haute qualité |
| Q8_0 | ~4,5 Go | ~8 Go | Proche de l'original | Qualité maximale |
Recommandation : Commencez avec la version Q4_K_M de Gemma 4 E4B. C'est le point optimal entre qualité et performance pour la plupart des laptops.
- Cliquez sur le bouton de téléchargement à côté de votre version choisie
- Attendez le téléchargement — la progression est affichée dans l'application. Cela prend généralement 2-10 minutes selon votre vitesse internet.
Étape 3 : Commencer à discuter
Une fois le modèle téléchargé :
- Allez dans l'onglet Chat (icône de bulle de chat dans la barre latérale gauche)
- Sélectionnez Gemma 4 dans le menu déroulant du modèle en haut
- Attendez que le modèle se charge — cela prend quelques secondes pendant que LM Studio charge le modèle en mémoire
- Tapez votre message dans la zone de texte en bas et appuyez sur Entrée
C'est tout — vous discutez maintenant avec Gemma 4 localement sur votre propre machine.
Votre première conversation
Essayez ces prompts pour tester les capacités de Gemma 4 :
Explique l'informatique quantique à un enfant de 10 ans.Écris une fonction Python qui trouve le plus long palindrome dans une chaîne.Résume les avantages et inconvénients du travail à distance dans un format tableau.Étape 4 : Personnaliser les paramètres
LM Studio vous donne un contrôle fin sur le comportement du modèle. Cliquez sur l'icône des paramètres (engrenage) dans le panneau de chat pour accéder à :
Paramètres clés à connaître
Température (0,0 - 2,0)
- Valeurs basses (0,1-0,3) : Réponses plus ciblées, déterministes. Idéal pour le code et les questions factuelles.
- Valeurs hautes (0,7-1,0) : Réponses plus créatives, variées. Idéal pour l'écriture et le brainstorming.
- Défaut : 0,7
Longueur de contexte
- Gemma 4 supporte jusqu'à 128K tokens de contexte
- LM Studio vous permet de régler cela selon votre RAM disponible
- Commencez avec 4096 et augmentez si vous avez besoin de conversations plus longues
System Prompt
- Définissez un system prompt personnalisé pour définir le comportement de Gemma 4
- Exemple : « Tu es un assistant de code serviable. Fournis toujours des exemples de code avec des explications. »
Offloading GPU
- Si vous avez un GPU compatible, LM Studio peut décharger des couches vers lui pour une inférence plus rapide
- Ajustez le nombre de couches GPU dans les paramètres
Étape 5 : Utiliser le serveur API local
LM Studio inclut un serveur API intégré compatible avec le format API d'OpenAI. Cela signifie que vous pouvez utiliser Gemma 4 avec n'importe quel outil qui supporte l'API OpenAI.
- Allez dans l'onglet Developer (icône de code dans la barre latérale)
- Sélectionnez votre modèle Gemma 4 dans le menu déroulant
- Cliquez sur « Start Server »
- Le serveur tourne sur
http://localhost:1234par défaut
Maintenant vous pouvez connecter n'importe quelle application compatible OpenAI à votre Gemma 4 local :
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lm-studio" # N'importe quelle chaîne fonctionne
)
response = client.chat.completions.create(
model="gemma-4",
messages=[
{"role": "user", "content": "Quelle est la capitale de la France ?"}
]
)
print(response.choices[0].message.content)// Node.js / JavaScript
const response = await fetch("http://localhost:1234/v1/chat/completions", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({
model: "gemma-4",
messages: [{ role: "user", content: "Hello, Gemma 4!" }]
})
});
const data = await response.json();
console.log(data.choices[0].message.content);LM Studio vs Ollama : lequel choisir ?
Les deux sont d'excellents outils pour exécuter Gemma 4 localement. Voici comment ils se comparent :
| Fonctionnalité | LM Studio | Ollama |
|---|---|---|
| Interface | Application GUI complète | Ligne de commande |
| Facilité d'usage | Pointer et cliquer | Taper des commandes |
| Recherche de modèles | Navigateur intégré | Recherche manuelle ou CLI |
| Paramètres | Curseurs et interrupteurs visuels | Fichiers de config |
| Serveur API | Démarrage en un clic | Démarrage auto à l'installation |
| Utilisation ressources | Légèrement plus de RAM (surcharge GUI) | Empreinte plus légère |
| Idéal pour | Débutants, apprenants visuels | Développeurs, automatisation |
| Format de modèle | GGUF | Format Ollama (basé sur GGUF) |
| Prix | Gratuit | Gratuit |
Choisissez LM Studio si :
- Vous préférez une interface visuelle au terminal
- Vous voulez facilement comparer différentes versions de modèles
- Vous êtes nouveau dans l'exécution de modèles d'IA localement
- Vous voulez une expérience de type ChatGPT sur votre bureau
Choisissez Ollama si :
- Vous êtes à l'aise avec la ligne de commande
- Vous voulez intégrer des modèles dans des scripts et de l'automatisation
- Vous avez besoin d'une surcharge ressources moindre
- Vous voulez un service d'arrière-plan plus simple
Conseil pro : Vous pouvez utiliser les deux. Beaucoup de développeurs utilisent LM Studio pour le chat interactif et l'expérimentation, puis passent à Ollama pour les scripts de production et l'automatisation.
Dépannage des problèmes courants
Le modèle ne se charge pas
- Vérifiez que vous avez assez de RAM libre. Fermez les autres applications gourmandes en mémoire.
- Essayez une quantification plus petite (Q4_K_M au lieu de Q8_0).
- Redémarrez LM Studio.
Réponses lentes
- Réduisez la longueur de contexte dans les paramètres.
- Utilisez une variante de modèle plus petite (E2B au lieu de 26B).
- Activez l'offloading GPU si vous avez un GPU compatible.
- Fermez les autres applications pour libérer de la RAM.
Erreur « Out of memory »
- Passez à une quantification plus petite.
- Réduisez la longueur de contexte à 2048 ou 4096.
- Utilisez Gemma 4 E2B au lieu des variantes plus grandes.
Le serveur API ne se connecte pas
- Assurez-vous que le serveur est démarré (indicateur vert dans l'onglet Developer).
- Vérifiez que vous utilisez
http://localhost:1234comme base URL. - Vérifiez qu'aucun pare-feu ne bloque le port 1234.
Et après ?
Maintenant que vous avez Gemma 4 qui tourne dans LM Studio, essayez ces prochaines étapes :
- Expérimentez avec différentes tailles de modèle — essayez E2B pour les tâches rapides et 26B pour le raisonnement complexe
- Créez des system prompts personnalisés pour différents cas d'utilisation (assistant de code, aide à la rédaction, traducteur)
- Connectez vos outils préférés en utilisant le serveur API local
- Comparez Gemma 4 avec d'autres modèles — LM Studio facilite le passage entre modèles
Exécuter l'IA localement vous met en contrôle complet. Pas d'abonnements, pas de partage de données, pas de limites de débit — juste vous et Gemma 4 sur votre propre matériel.
Lectures complémentaires
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


