0% read

Comment exécuter Gemma 4 avec LM Studio : Guide adapté aux débutants (2026)

avr. 6, 2026
|Updated: avr. 7, 2026

Tout le monde n'aime pas la ligne de commande. Si vous voulez exécuter Gemma 4 localement avec une interface visuelle soignée, LM Studio est l'outil parfait. Il vous offre une expérience de type ChatGPT — complètement hors ligne, complètement gratuite et complètement privée.

Ce guide vous accompagne dans chaque étape, du téléchargement de LM Studio à votre première conversation avec Gemma 4.

Qu'est-ce que LM Studio ?

LM Studio est une application de bureau gratuite qui vous permet de télécharger et d'exécuter des modèles d'IA sur votre propre ordinateur. Pensez-y comme un app store pour les modèles d'IA open-source combiné à une belle interface de chat.

Fonctionnalités clés :

  • Pas de ligne de commande requise — tout se passe via une interface graphique
  • Recherche de modèles intégrée — trouvez et téléchargez des modèles directement depuis l'application
  • Interface de chat de style ChatGPT — interface de conversation familière et facile à utiliser
  • Paramètres ajustables — température, longueur de contexte, system prompts et plus
  • Serveur API local — compatible avec le format API OpenAI pour les développeurs

Ce dont vous avez besoin

  • Un ordinateur avec au moins 8 Go de RAM (16 Go recommandé)
  • macOS, Windows ou Linux
  • Environ 3-6 Go d'espace disque libre (selon la taille du modèle Gemma 4)
  • Pas de connexion internet requise après le téléchargement du modèle

Étape 1 : Télécharger et installer LM Studio

Visitez lmstudio.ai et téléchargez l'installeur pour votre système d'exploitation.

macOS : Téléchargez le fichier .dmg, ouvrez-le et faites glisser LM Studio vers votre dossier Applications.

Windows : Téléchargez l'installeur .exe et exécutez-le. Suivez l'assistant d'installation standard.

Linux : Téléchargez le fichier .AppImage. Rendez-le exécutable et lancez-le :

chmod +x LM-Studio-*.AppImage
./LM-Studio-*.AppImage

Lancez LM Studio après l'installation. Vous verrez un écran d'accueil propre avec une barre de recherche en haut.

Étape 2 : Rechercher et télécharger Gemma 4

Une fois LM Studio ouvert :

  1. Cliquez sur la barre de recherche en haut de l'application (ou naviguez vers l'onglet Discover/Models)
  2. Tapez « gemma 4 » dans le champ de recherche
  3. Parcourez les résultats — vous verrez diverses versions quantifiées de Gemma 4

Choisir la bonne version

LM Studio propose plusieurs versions quantifiées de chaque modèle. La quantification réduit la taille du modèle et l'utilisation mémoire avec une perte de qualité minimale.

QuantificationTaille fichierRAM nécessaireQualitéIdéal pour
Q4_K_M~2,5 Go~5 GoBonneLa plupart des utilisateurs, équilibré
Q5_K_M~3 Go~6 GoMeilleureAxé qualité
Q6_K~3,5 Go~7 GoExcellenteRéponses haute qualité
Q8_0~4,5 Go~8 GoProche de l'originalQualité maximale

Recommandation : Commencez avec la version Q4_K_M de Gemma 4 E4B. C'est le point optimal entre qualité et performance pour la plupart des laptops.

  1. Cliquez sur le bouton de téléchargement à côté de votre version choisie
  2. Attendez le téléchargement — la progression est affichée dans l'application. Cela prend généralement 2-10 minutes selon votre vitesse internet.

Étape 3 : Commencer à discuter

Une fois le modèle téléchargé :

  1. Allez dans l'onglet Chat (icône de bulle de chat dans la barre latérale gauche)
  2. Sélectionnez Gemma 4 dans le menu déroulant du modèle en haut
  3. Attendez que le modèle se charge — cela prend quelques secondes pendant que LM Studio charge le modèle en mémoire
  4. Tapez votre message dans la zone de texte en bas et appuyez sur Entrée

C'est tout — vous discutez maintenant avec Gemma 4 localement sur votre propre machine.

Votre première conversation

Essayez ces prompts pour tester les capacités de Gemma 4 :

Explique l'informatique quantique à un enfant de 10 ans.
Écris une fonction Python qui trouve le plus long palindrome dans une chaîne.
Résume les avantages et inconvénients du travail à distance dans un format tableau.

Étape 4 : Personnaliser les paramètres

LM Studio vous donne un contrôle fin sur le comportement du modèle. Cliquez sur l'icône des paramètres (engrenage) dans le panneau de chat pour accéder à :

Paramètres clés à connaître

Température (0,0 - 2,0)

  • Valeurs basses (0,1-0,3) : Réponses plus ciblées, déterministes. Idéal pour le code et les questions factuelles.
  • Valeurs hautes (0,7-1,0) : Réponses plus créatives, variées. Idéal pour l'écriture et le brainstorming.
  • Défaut : 0,7

Longueur de contexte

  • Gemma 4 supporte jusqu'à 128K tokens de contexte
  • LM Studio vous permet de régler cela selon votre RAM disponible
  • Commencez avec 4096 et augmentez si vous avez besoin de conversations plus longues

System Prompt

  • Définissez un system prompt personnalisé pour définir le comportement de Gemma 4
  • Exemple : « Tu es un assistant de code serviable. Fournis toujours des exemples de code avec des explications. »

Offloading GPU

  • Si vous avez un GPU compatible, LM Studio peut décharger des couches vers lui pour une inférence plus rapide
  • Ajustez le nombre de couches GPU dans les paramètres

Étape 5 : Utiliser le serveur API local

LM Studio inclut un serveur API intégré compatible avec le format API d'OpenAI. Cela signifie que vous pouvez utiliser Gemma 4 avec n'importe quel outil qui supporte l'API OpenAI.

  1. Allez dans l'onglet Developer (icône de code dans la barre latérale)
  2. Sélectionnez votre modèle Gemma 4 dans le menu déroulant
  3. Cliquez sur « Start Server »
  4. Le serveur tourne sur http://localhost:1234 par défaut

Maintenant vous pouvez connecter n'importe quelle application compatible OpenAI à votre Gemma 4 local :

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio"  # N'importe quelle chaîne fonctionne
)

response = client.chat.completions.create(
    model="gemma-4",
    messages=[
        {"role": "user", "content": "Quelle est la capitale de la France ?"}
    ]
)

print(response.choices[0].message.content)
// Node.js / JavaScript
const response = await fetch("http://localhost:1234/v1/chat/completions", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "gemma-4",
    messages: [{ role: "user", content: "Hello, Gemma 4!" }]
  })
});

const data = await response.json();
console.log(data.choices[0].message.content);

LM Studio vs Ollama : lequel choisir ?

Les deux sont d'excellents outils pour exécuter Gemma 4 localement. Voici comment ils se comparent :

FonctionnalitéLM StudioOllama
InterfaceApplication GUI complèteLigne de commande
Facilité d'usagePointer et cliquerTaper des commandes
Recherche de modèlesNavigateur intégréRecherche manuelle ou CLI
ParamètresCurseurs et interrupteurs visuelsFichiers de config
Serveur APIDémarrage en un clicDémarrage auto à l'installation
Utilisation ressourcesLégèrement plus de RAM (surcharge GUI)Empreinte plus légère
Idéal pourDébutants, apprenants visuelsDéveloppeurs, automatisation
Format de modèleGGUFFormat Ollama (basé sur GGUF)
PrixGratuitGratuit

Choisissez LM Studio si :

  • Vous préférez une interface visuelle au terminal
  • Vous voulez facilement comparer différentes versions de modèles
  • Vous êtes nouveau dans l'exécution de modèles d'IA localement
  • Vous voulez une expérience de type ChatGPT sur votre bureau

Choisissez Ollama si :

  • Vous êtes à l'aise avec la ligne de commande
  • Vous voulez intégrer des modèles dans des scripts et de l'automatisation
  • Vous avez besoin d'une surcharge ressources moindre
  • Vous voulez un service d'arrière-plan plus simple

Conseil pro : Vous pouvez utiliser les deux. Beaucoup de développeurs utilisent LM Studio pour le chat interactif et l'expérimentation, puis passent à Ollama pour les scripts de production et l'automatisation.

Dépannage des problèmes courants

Le modèle ne se charge pas

  • Vérifiez que vous avez assez de RAM libre. Fermez les autres applications gourmandes en mémoire.
  • Essayez une quantification plus petite (Q4_K_M au lieu de Q8_0).
  • Redémarrez LM Studio.

Réponses lentes

  • Réduisez la longueur de contexte dans les paramètres.
  • Utilisez une variante de modèle plus petite (E2B au lieu de 26B).
  • Activez l'offloading GPU si vous avez un GPU compatible.
  • Fermez les autres applications pour libérer de la RAM.

Erreur « Out of memory »

  • Passez à une quantification plus petite.
  • Réduisez la longueur de contexte à 2048 ou 4096.
  • Utilisez Gemma 4 E2B au lieu des variantes plus grandes.

Le serveur API ne se connecte pas

  • Assurez-vous que le serveur est démarré (indicateur vert dans l'onglet Developer).
  • Vérifiez que vous utilisez http://localhost:1234 comme base URL.
  • Vérifiez qu'aucun pare-feu ne bloque le port 1234.

Et après ?

Maintenant que vous avez Gemma 4 qui tourne dans LM Studio, essayez ces prochaines étapes :

  • Expérimentez avec différentes tailles de modèle — essayez E2B pour les tâches rapides et 26B pour le raisonnement complexe
  • Créez des system prompts personnalisés pour différents cas d'utilisation (assistant de code, aide à la rédaction, traducteur)
  • Connectez vos outils préférés en utilisant le serveur API local
  • Comparez Gemma 4 avec d'autres modèles — LM Studio facilite le passage entre modèles

Exécuter l'IA localement vous met en contrôle complet. Pas d'abonnements, pas de partage de données, pas de limites de débit — juste vous et Gemma 4 sur votre propre matériel.


Lectures complémentaires

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Comment exécuter Gemma 4 avec LM Studio : Guide adapté aux débutants (2026) | Blog