Gemma 4 怎么看图？多模态使用教程

大部分 Gemma 4 教程只教你怎么打字聊天。但说真的，多模态才是 Gemma 4 相比前几代最大的升级。所有 Gemma 4 模型都能看图，小号的 E2B/E4B 甚至还能听音频。如果你一直只拿它处理文字，那你只用了一半的能力。

来，把另一半补上。

Gemma 4 能「看」什么？

它的视觉能力覆盖面很广：

照片 ——描述场景、识别物体、读标志牌
截图 ——提取文字、分析 UI 布局
图表 ——解读数据可视化
文档 ——读印刷体或扫描件（OCR）
手写 ——识别手写笔记（效果取决于字迹）
视频帧 ——分析从视频中截取的帧
示意图 ——理解流程图、架构图、线框图
代码截图 ——读图中的代码并解释

有一点要搞清楚：Gemma 4 只能看图理解，不能生成图片。它能告诉你图里有什么，但画不了图。要生图是另一回事（比如 Imagen）。

用 Ollama 命令行发送图片

如果你已经在本地跑了 Ollama，发图片超级简单：

ollama run gemma4 "详细描述这张图片" --image /path/to/photo.jpg

发多张图也没问题：

ollama run gemma4 "对比这两张截图的差异" --image before.png --image after.png

就这样。一个参数搞定。编码什么的 Ollama 在后台自动处理了。

用 API 发送图片（Python）

要在代码里调用，需要把图片 base64 编码后放到请求里。以下是 Ollama 本地 API 的写法：

import requests
import base64

# 读取并编码图片
with open("screenshot.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode("utf-8")

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "gemma4",
    "prompt": "这张截图里有哪些文字？",
    "images": [image_data],
    "stream": False
})

print(response.json()["response"])

Chat API 多轮对话看图

需要围绕一张图展开多轮对话的：

import requests
import base64

with open("chart.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode("utf-8")

response = requests.post("http://localhost:11434/api/chat", json={
    "model": "gemma4",
    "messages": [
        {
            "role": "user",
            "content": "这张图表反映了什么趋势？",
            "images": [image_data]
        }
    ],
    "stream": False
})

print(response.json()["message"]["content"])

Google AI Studio SDK

import google.generativeai as genai
from pathlib import Path

genai.configure(api_key="你的_API_KEY")
model = genai.GenerativeModel("gemma-4-27b-it")

image = genai.upload_file(Path("diagram.png"))
response = model.generate_content([
    "解释这张架构图。主要组件有哪些？它们之间怎么连接的？",
    image
])

print(response.text)

更多 API 调用方式可以看我们的 API 完整教程。

5 个实用场景（附示例提示词）

1. OCR：从截图中提取文字

提取这张截图中所有可见的文字。输出纯文本格式，尽量保留原始布局。

对应用截图、网页、收据、名片的效果出奇地好。特别小的字或怪字体可能不太行，但大部分场景足够用。

2. 图表数据分析

分析这张图表。它是什么类型的图表？关键数据点有哪些？你发现了什么趋势或规律？用一句话总结核心结论。

Gemma 4 能读柱状图、折线图、饼图、散点图。它会识别坐标轴、标签和大致数值。想快速理解一张数据可视化，不用去翻原始数据。

3. UI 设计审查

以 UX 设计师的视角审查这张 UI 截图。指出：1）视觉层级问题 2）可访问性问题（对比度、字号） 3）布局不一致的地方 4）改进建议。要具体，指出是哪个元素。

这个工作流真的挺实用的。把你的应用截个图扔进去，就能拿到一份快速的设计审查。对比度不够、间距不一致、CTA 不清晰之类的问题它都能抓到。

4. 图片描述（无障碍）

为这张图片撰写详细的 alt-text 描述，适合屏幕阅读器使用。包含：主体、场景、颜色、氛围和任何可见文字。控制在 150 字以内。

批量给网站图片生成 alt 文本特别好用。关键内容还是建议手写，但日常处理用它效率很高。

5. 手写笔记转文字

转录这张图片中的手写文字。如果有看不清的字，用 [不确定] 标注。保留原有结构（要点列表、编号等）。

效果很看字迹。工整的正楷没问题，龙飞凤舞的草书就看运气了。不过就算转得不完美，也比重新手打快。

各模型多模态能力对比

能力	E2B	E4B	26B	31B
文字输入	支持	支持	支持	支持
图片输入	支持	支持	支持	支持
音频输入	支持	支持	不支持	不支持
视频帧	支持	支持	支持	支持
图片生成	不支持	不支持	不支持	不支持