Gemma 4で画像を分析する方法（マルチモーダルガイド）

ほとんどのGemma 4チュートリアルはテキストでの使い方しか示しません。しかし、マルチモーダルこそがGemma 4の前世代からの最大のアップグレードです。すべてのGemma 4モデルは画像を理解でき、小さいE2B/E4Bモデルは音声さえ処理できます。Gemma 4に画像を送信していないなら、モデルの半分しか使っていないことになります。

それを直しましょう。

Gemma 4は何を「見る」ことができる？

Gemma 4のビジョン機能は多くの範囲をカバーしています：

写真 — シーンの説明、オブジェクトの識別、標識の読み取り
スクリーンショット — テキスト抽出、UIレイアウトの分析
チャートとグラフ — データビジュアライゼーションの解釈
ドキュメント — 印刷またはスキャンされたテキストの読み取り（OCR）
手書き — 手書きメモの読み取り（品質は判読性に依存）
動画フレーム — 動画の個々のフレームの分析
ダイアグラム — フローチャート、アーキテクチャダイアグラム、ワイヤーフレームの理解
コードスクリーンショット — 画像からコードを読み取り説明

重要な理解：Gemma 4は画像理解を行い、画像生成は行いません。写真を見て何があるか教えてくれますが、画像を作成することはできません。画像生成が欲しい場合は、それは完全に別のモデル（Imagenなど）です。

Ollama CLIで画像を送信

Ollamaをローカルで動かしているなら、画像の送信はとてもシンプル：

ollama run gemma4 "Describe this image in detail" --image /path/to/photo.jpg

複数の画像も動作：

ollama run gemma4 "Compare these two screenshots" --image before.png --image after.png

これだけ。フラグ1つ。Ollamaが背後でエンコーディングとすべてを処理します。

API経由で画像を送信（Python）

プログラム的使用には、画像をbase64エンコードしてAPI呼び出しに含める必要があります。OllamaのローカルAPIでの方法：

import requests
import base64

# 画像を読み込んでエンコード
with open("screenshot.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode("utf-8")

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "gemma4",
    "prompt": "What text is visible in this screenshot?",
    "images": [image_data],
    "stream": False
})

print(response.json()["response"])

画像付きChat APIの使用

画像についてのマルチターン会話：

import requests
import base64

with open("chart.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode("utf-8")

response = requests.post("http://localhost:11434/api/chat", json={
    "model": "gemma4",
    "messages": [
        {
            "role": "user",
            "content": "What trends do you see in this chart?",
            "images": [image_data]
        }
    ],
    "stream": False
})

print(response.json()["message"]["content"])

Google AI Studio SDKの使用

import google.generativeai as genai
from pathlib import Path

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemma-4-27b-it")

image = genai.upload_file(Path("diagram.png"))
response = model.generate_content([
    "Explain this architecture diagram. What are the main components and how do they connect?",
    image
])

print(response.text)

その他のAPIオプションについては、完全なAPIチュートリアルをご覧ください。

5つの実用的ユースケース（例プロンプト付き）

1. OCR：スクリーンショットからテキストを抽出

Extract all visible text from this screenshot. Format it as plain text, preserving the layout as much as possible.

アプリのスクリーンショット、ウェブページ、レシート、名刺で驚くほどうまく動作します。非常に小さなテキストや珍しいフォントには完璧ではありませんが、ほとんどのユースケースで仕事を成し遂げます。

2. チャートとデータの分析

Analyze this chart. What type of chart is it? What are the key data points? What trends or patterns do you notice? Summarize the main takeaway in one sentence.

Gemma 4は棒グラフ、折れ線グラフ、円グラフ、散布図を読めます。軸、ラベル、概算値を識別します。生データに踏み込まずにデータビジュアライゼーションを素早く理解するのに最適。

3. UIデザインレビュー

Review this UI screenshot as a UX designer. Identify: 1) Visual hierarchy issues, 2) Accessibility concerns (contrast, text size), 3) Layout inconsistencies, 4) Suggestions for improvement. Be specific and reference exact elements.

これは真に有用なワークフローです。アプリのスクリーンショットを入れて、素早いデザイン批評を得ます。コントラスト不足、不一致なスペーシング、不明確なCTAなどを捉えます。

4. 写真の説明（アクセシビリティ）

Write a detailed alt-text description for this image suitable for screen readers. Include: the main subject, setting, colors, mood, and any text visible. Keep it under 150 words.

ウェブサイトの代替テキスト生成に最適。重要コンテンツの手書き説明の代替にはなりませんが、バルク処理には最適。

5. 手書きノートの転写

Transcribe the handwritten text in this image. If any words are unclear, indicate them with [unclear]. Preserve the original structure (bullet points, numbered lists, etc.).

品質は手書きに大きく依存します。きれいな印刷スタイルの書き方はうまく動作。乱雑な筆記体？当たり外れです。しかし不完全な転写でも再タイプより速いです。

どのモデルが何をサポート？

機能	E2B	E4B	26B	31B
テキスト入力	あり	あり	あり	あり
画像入力	あり	あり	あり	あり
音声入力	あり	あり	なし	なし
動画フレーム	あり	あり	あり	あり
画像生成	なし	なし	なし	なし

重要なポイント：

すべてのモデルが画像入力をサポート。 最小のE2Bでも画像を分析できます。
音声入力はE2B/E4Bのみ。 大きいモデルは音声をネイティブにサポートしません。
画像生成はなし。 Gemma 4は理解モデルであり、生成画像モデルではありません。
動画=フレーム。 動画ファイルではなく、個々のフレームを送信します。最初にキーフレームを抽出し、画像として送信します。

より良い画像分析のヒント

プロンプトを具体的に。 「この画像を説明して」は汎用的な出力を提供します。「この棚に見えるすべての商品を概算価格付きでリストアップ」は有用なデータを提供します。

画像品質が重要。 ぼやけた写真はぼやけた答えを提供します。送信前に関連エリアにクロップしましょう — ノイズが少ない方が良い結果を意味します。

適切なモデルサイズを使用。 簡単なOCRにはE2Bで十分。複雑なシーン理解やニュアンスのある分析には、26Bまたは31Bモデルが目に見えて優れています。

複数の画像も動作。 2-3枚の画像を送信して、比較、違い、または組み合わせた分析を求められます。やりすぎないでください — 画像が多いほど処理時間とメモリ使用量が増えます。

制限事項

画像生成なし。 描画、作成、画像編集はできません。
幻覚は発生する。 Gemma 4はそこにないテキストを「読んだり」、オブジェクトを誤認したりする可能性があります。重要な情報は常に検証してください。
小さなテキストは難しい。 あなたがほとんど読めないなら、Gemma 4もおそらく読めません。ズームしてクロップしてください。
複雑なダイアグラム。 オーバーラップ要素が多い非常に密なテクニカルダイアグラムはモデルを混乱させる可能性があります。必要ならセクションに分割してください。