0% read

Comment analyser des images avec Gemma 4 (Guide multimodal)

avr. 7, 2026

La plupart des tutoriels Gemma 4 ne vous montrent que comment l'utiliser pour le texte. Mais voilà le truc — le multimodal est la plus grande amélioration de Gemma 4 par rapport aux versions précédentes. Chaque modèle Gemma 4 peut comprendre des images, et les modèles plus petits E2B/E4B gèrent même l'audio. Si vous n'envoyez pas d'images à Gemma 4, vous n'utilisez que la moitié du modèle.

Corrigeons ça.

Que peut « voir » Gemma 4 ?

Les capacités de vision de Gemma 4 couvrent beaucoup de terrain :

  • Photos — décrire des scènes, identifier des objets, lire des panneaux
  • Captures d'écran — extraire du texte, analyser les mises en page d'interface
  • Graphiques et diagrammes — interpréter les visualisations de données
  • Documents — lire du texte imprimé ou scanné (OCR)
  • Écriture manuscrite — lire des notes manuscrites (la qualité dépend de la lisibilité)
  • Images vidéo — analyser des images individuelles d'une vidéo
  • Diagrammes — comprendre les organigrammes, diagrammes d'architecture, wireframes
  • Captures d'écran de code — lire et expliquer du code depuis des images

Une chose importante à comprendre : Gemma 4 fait de la compréhension d'image, pas de la génération d'image. Il peut regarder une image et vous dire ce qui s'y trouve, mais il ne peut pas créer d'images. Si vous voulez de la génération d'image, c'est un modèle entièrement différent (comme Imagen).

Envoyer des images via l'interface CLI d'Ollama

Si vous avez Ollama qui tourne localement, envoyer des images est extrêmement simple :

ollama run gemma4 "Décris cette image en détail" --image /chemin/vers/photo.jpg

Plusieurs images fonctionnent aussi :

ollama run gemma4 "Compare ces deux captures d'écran" --image before.png --image after.png

C'est tout. Un seul flag. Ollama gère l'encodage et tout le reste en coulisses.

Envoyer des images via l'API (Python)

Pour l'utilisation programmatique, vous devez encoder l'image en base64 et l'inclure dans votre appel API. Voici comment avec l'API locale d'Ollama :

import requests
import base64

# Lire et encoder l'image
with open("screenshot.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode("utf-8")

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "gemma4",
    "prompt": "Quel texte est visible dans cette capture d'écran ?",
    "images": [image_data],
    "stream": False
})

print(response.json()["response"])

Utiliser l'API Chat avec des images

Pour des conversations multi-tours sur des images :

import requests
import base64

with open("chart.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode("utf-8")

response = requests.post("http://localhost:11434/api/chat", json={
    "model": "gemma4",
    "messages": [
        {
            "role": "user",
            "content": "Quelles tendances vois-tu dans ce graphique ?",
            "images": [image_data]
        }
    ],
    "stream": False
})

print(response.json()["message"]["content"])

Utiliser le SDK Google AI Studio

import google.generativeai as genai
from pathlib import Path

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemma-4-27b-it")

image = genai.upload_file(Path("diagram.png"))
response = model.generate_content([
    "Explique ce diagramme d'architecture. Quels sont les composants principaux et comment se connectent-ils ?",
    image
])

print(response.text)

Pour plus d'options d'API, consultez notre tutoriel API complet.

5 cas d'utilisation pratiques (avec exemples de prompts)

1. OCR : extraire du texte des captures d'écran

Extrais tout le texte visible de cette capture d'écran. Formate-le en texte brut, en préservant la mise en page autant que possible.

Cela fonctionne étonnamment bien pour les captures d'écran d'applications, les pages web, les reçus et les cartes de visite. Ce n'est pas parfait avec du texte très petit ou des polices inhabituelles, mais pour la plupart des cas d'utilisation, ça fait le travail.

2. Analyse de graphiques et de données

Analyse ce graphique. De quel type de graphique s'agit-il ? Quels sont les points de données clés ? Quelles tendances ou patterns remarques-tu ? Résume l'idée principale en une phrase.

Gemma 4 peut lire des graphiques à barres, des courbes, des camemberts et des nuages de points. Il identifiera les axes, les étiquettes et les valeurs approximatives. Excellent pour comprendre rapidement des visualisations de données sans creuser dans les données brutes.

3. Revue de design d'interface

Examine cette capture d'écran d'interface en tant que designer UX. Identifie : 1) Problèmes de hiérarchie visuelle, 2) Préoccupations d'accessibilité (contraste, taille de texte), 3) Incohérences de mise en page, 4) Suggestions d'amélioration. Sois spécifique et fais référence aux éléments exacts.

C'est un workflow vraiment utile. Déposez une capture d'écran de votre application et obtenez une critique de design rapide. Il repère des choses comme un mauvais contraste, un espacement incohérent et des CTA peu clairs.

4. Description de photo (accessibilité)

Écris une description alt-text détaillée pour cette image, adaptée aux lecteurs d'écran. Inclus : le sujet principal, le cadre, les couleurs, l'ambiance et tout texte visible. Garde-la en dessous de 150 mots.

Parfait pour générer du texte alt pour des sites web. Ce n'est pas un remplacement pour des descriptions écrites à la main pour le contenu critique, mais c'est excellent pour le traitement en masse.

5. Transcription de notes manuscrites

Transcris le texte manuscrit dans cette image. Si des mots sont peu clairs, indique-les avec [peu clair]. Préserve la structure originale (puces, listes numérotées, etc.).

La qualité dépend fortement de l'écriture. Une écriture en caractères d'imprimerie claire fonctionne bien. Une écriture cursive désordonnée ? Pas toujours. Mais même une transcription imparfaite est plus rapide que de retaper.

Quels modèles supportent quoi ?

CapacitéE2BE4B26B31B
Entrée texteOuiOuiOuiOui
Entrée imageOuiOuiOuiOui
Entrée audioOuiOuiNonNon
Images vidéoOuiOuiOuiOui
Génération d'imageNonNonNonNon

Points clés à noter :

  • Tous les modèles supportent l'entrée d'image. Même le plus petit E2B peut analyser des images.
  • L'entrée audio est E2B/E4B uniquement. Les plus grands modèles ne supportent pas nativement l'audio.
  • Pas de génération d'image. Gemma 4 est un modèle de compréhension, pas un modèle génératif d'image.
  • Vidéo = images. Vous envoyez des images individuelles, pas des fichiers vidéo. Extrayez d'abord les images clés et envoyez-les comme images.

Conseils pour une meilleure analyse d'image

Soyez spécifique dans vos prompts. « Décris cette image » donne une sortie générique. « Liste chaque produit visible sur cette étagère avec les prix approximatifs » donne des données utiles.

La qualité de l'image compte. Une photo floue donne des réponses floues. Rognez à la zone pertinente avant d'envoyer — moins de bruit signifie de meilleurs résultats.

Utilisez la bonne taille de modèle. Pour de l'OCR simple, E2B convient. Pour une compréhension de scène complexe ou une analyse nuancée, les modèles 26B ou 31B sont notablement meilleurs.

Plusieurs images fonctionnent. Vous pouvez envoyer 2-3 images et demander des comparaisons, différences ou analyses combinées. N'exagérez pas — plus d'images signifie plus de temps de traitement et d'utilisation mémoire.

Limitations

  • Pas de génération d'image. Ne peut pas dessiner, créer ou modifier d'images.
  • Les hallucinations arrivent. Gemma 4 pourrait « lire » du texte qui n'y est pas ou mal identifier des objets. Vérifiez toujours les informations critiques.
  • Le texte petit est difficile. Si vous pouvez à peine le lire, Gemma 4 probablement non plus. Zoomez et rognez.
  • Diagrammes complexes. Des diagrammes techniques très denses avec beaucoup d'éléments qui se chevauchent peuvent confondre le modèle. Divisez-les en sections si nécessaire.

Prochaines étapes

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Comment analyser des images avec Gemma 4 (Guide multimodal) | Blog