Gemma 4 怎么看图?多模态使用教程

2026/04/07

大部分 Gemma 4 教程只教你怎么打字聊天。但说真的,多模态才是 Gemma 4 相比前几代最大的升级。所有 Gemma 4 模型都能看图,小号的 E2B/E4B 甚至还能听音频。如果你一直只拿它处理文字,那你只用了一半的能力。

来,把另一半补上。

Gemma 4 能「看」什么?

它的视觉能力覆盖面很广:

  • 照片 ——描述场景、识别物体、读标志牌
  • 截图 ——提取文字、分析 UI 布局
  • 图表 ——解读数据可视化
  • 文档 ——读印刷体或扫描件(OCR)
  • 手写 ——识别手写笔记(效果取决于字迹)
  • 视频帧 ——分析从视频中截取的帧
  • 示意图 ——理解流程图、架构图、线框图
  • 代码截图 ——读图中的代码并解释

有一点要搞清楚:Gemma 4 只能看图理解,不能生成图片。它能告诉你图里有什么,但画不了图。要生图是另一回事(比如 Imagen)。

用 Ollama 命令行发送图片

如果你已经在本地跑了 Ollama,发图片超级简单:

ollama run gemma4 "详细描述这张图片" --image /path/to/photo.jpg

发多张图也没问题:

ollama run gemma4 "对比这两张截图的差异" --image before.png --image after.png

就这样。一个参数搞定。编码什么的 Ollama 在后台自动处理了。

用 API 发送图片(Python)

要在代码里调用,需要把图片 base64 编码后放到请求里。以下是 Ollama 本地 API 的写法:

import requests
import base64

# 读取并编码图片
with open("screenshot.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode("utf-8")

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "gemma4",
    "prompt": "这张截图里有哪些文字?",
    "images": [image_data],
    "stream": False
})

print(response.json()["response"])

Chat API 多轮对话看图

需要围绕一张图展开多轮对话的:

import requests
import base64

with open("chart.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode("utf-8")

response = requests.post("http://localhost:11434/api/chat", json={
    "model": "gemma4",
    "messages": [
        {
            "role": "user",
            "content": "这张图表反映了什么趋势?",
            "images": [image_data]
        }
    ],
    "stream": False
})

print(response.json()["message"]["content"])

Google AI Studio SDK

import google.generativeai as genai
from pathlib import Path

genai.configure(api_key="你的_API_KEY")
model = genai.GenerativeModel("gemma-4-27b-it")

image = genai.upload_file(Path("diagram.png"))
response = model.generate_content([
    "解释这张架构图。主要组件有哪些?它们之间怎么连接的?",
    image
])

print(response.text)

更多 API 调用方式可以看我们的 API 完整教程

5 个实用场景(附示例提示词)

1. OCR:从截图中提取文字

提取这张截图中所有可见的文字。输出纯文本格式,尽量保留原始布局。

对应用截图、网页、收据、名片的效果出奇地好。特别小的字或怪字体可能不太行,但大部分场景足够用。

2. 图表数据分析

分析这张图表。它是什么类型的图表?关键数据点有哪些?你发现了什么趋势或规律?用一句话总结核心结论。

Gemma 4 能读柱状图、折线图、饼图、散点图。它会识别坐标轴、标签和大致数值。想快速理解一张数据可视化,不用去翻原始数据。

3. UI 设计审查

以 UX 设计师的视角审查这张 UI 截图。指出:1)视觉层级问题 2)可访问性问题(对比度、字号) 3)布局不一致的地方 4)改进建议。要具体,指出是哪个元素。

这个工作流真的挺实用的。把你的应用截个图扔进去,就能拿到一份快速的设计审查。对比度不够、间距不一致、CTA 不清晰之类的问题它都能抓到。

4. 图片描述(无障碍)

为这张图片撰写详细的 alt-text 描述,适合屏幕阅读器使用。包含:主体、场景、颜色、氛围和任何可见文字。控制在 150 字以内。

批量给网站图片生成 alt 文本特别好用。关键内容还是建议手写,但日常处理用它效率很高。

5. 手写笔记转文字

转录这张图片中的手写文字。如果有看不清的字,用 [不确定] 标注。保留原有结构(要点列表、编号等)。

效果很看字迹。工整的正楷没问题,龙飞凤舞的草书就看运气了。不过就算转得不完美,也比重新手打快。

各模型多模态能力对比

能力E2BE4B26B31B
文字输入支持支持支持支持
图片输入支持支持支持支持
音频输入支持支持不支持不支持
视频帧支持支持支持支持
图片生成不支持不支持不支持不支持

重点记住:

  • 所有模型都能看图。 最小的 E2B 也行。
  • 音频输入只有 E2B/E4B 支持。 大模型不支持原生音频输入。
  • 不能生图。 Gemma 4 是理解型模型,不是生成型的。
  • 视频 = 截帧。 你得先把视频截成关键帧,再一帧帧当图片发过去。

看图效果优化技巧

提示词要具体。「描述这张图」给你泛泛的结果。「列出货架上所有商品及大致价格」才能拿到有用信息。

图片质量很重要。 糊图给糊结果。发之前先裁剪到关键区域——噪音少了,结果就好了。

用对模型大小。 简单 OCR,E2B 足够。复杂场景理解或细致分析,26B 或 31B 明显更好。

可以发多张图。 发 2-3 张让它做对比、找差异、综合分析都行。但别太贪——图越多,处理越慢越吃内存。

局限性

  • 不能生图。 不能画、不能创建、不能编辑图片。
  • 会产生幻觉。 可能「读出」不存在的文字或认错物体。关键信息一定要人工核实。
  • 小字看不清。 你自己都要眯着眼看的,它大概率也看不清。先放大裁剪。
  • 复杂图表可能混乱。 元素太多重叠太密的技术图可能出错。必要时分区域处理。

下一步

Gemma 4 AI

Gemma 4 AI

相关教程