La mayoria de los tutoriales de Gemma 4 solo te muestran como usarlo para texto. Pero aqui esta la cosa — multimodal es la mayor mejora de Gemma 4 sobre versiones anteriores. Cada modelo Gemma 4 puede entender imagenes, y los modelos mas pequenos E2B/E4B incluso manejan audio. Si no estas enviando imagenes a Gemma 4, solo estas usando la mitad del modelo.
Arreglemos eso.
¿Que Puede "Ver" Gemma 4?
Las capacidades de vision de Gemma 4 cubren mucho terreno:
- Fotos — describe escenas, identifica objetos, lee senales
- Capturas de pantalla — extrae texto, analiza layouts de UI
- Graficos y diagramas — interpreta visualizaciones de datos
- Documentos — lee texto impreso o escaneado (OCR)
- Escritura a mano — lee notas escritas a mano (la calidad depende de la legibilidad)
- Fotogramas de video — analiza fotogramas individuales de video
- Diagramas — entiende diagramas de flujo, diagramas de arquitectura, wireframes
- Capturas de codigo — lee y explica codigo de imagenes
Una cosa importante a entender: Gemma 4 hace comprension de imagenes, no generacion de imagenes. Puede mirar una imagen y decirte que hay en ella, pero no puede crear imagenes. Si quieres generacion de imagenes, ese es un modelo completamente diferente (como Imagen).
Enviar Imagenes via CLI de Ollama
Si tienes Ollama ejecutandose localmente, enviar imagenes es increiblemente simple:
ollama run gemma4 "Describe this image in detail" --image /path/to/photo.jpgMultiples imagenes tambien funcionan:
ollama run gemma4 "Compare these two screenshots" --image before.png --image after.pngEso es todo. Una bandera. Ollama maneja la codificacion y todo lo demas detras de escenas.
Enviar Imagenes via API (Python)
Para uso programatico, necesitas codificar la imagen en base64 e incluirla en tu llamada API. Asi es como con la API local de Ollama:
import requests
import base64
# Read and encode the image
with open("screenshot.png", "rb") as f:
image_data = base64.b64encode(f.read()).decode("utf-8")
response = requests.post("http://localhost:11434/api/generate", json={
"model": "gemma4",
"prompt": "What text is visible in this screenshot?",
"images": [image_data],
"stream": False
})
print(response.json()["response"])Usando la API de Chat con Imagenes
Para conversaciones de multiples turnos sobre imagenes:
import requests
import base64
with open("chart.png", "rb") as f:
image_data = base64.b64encode(f.read()).decode("utf-8")
response = requests.post("http://localhost:11434/api/chat", json={
"model": "gemma4",
"messages": [
{
"role": "user",
"content": "What trends do you see in this chart?",
"images": [image_data]
}
],
"stream": False
})
print(response.json()["message"]["content"])Usando el SDK de Google AI Studio
import google.generativeai as genai
from pathlib import Path
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemma-4-27b-it")
image = genai.upload_file(Path("diagram.png"))
response = model.generate_content([
"Explain this architecture diagram. What are the main components and how do they connect?",
image
])
print(response.text)Para mas opciones de API, consulta nuestro tutorial completo de API.
5 Casos de Uso Practicos (con Prompts de Ejemplo)
1. OCR: Extraer Texto de Capturas de Pantalla
Extract all visible text from this screenshot. Format it as plain text, preserving the layout as much as possible.Esto funciona sorprendentemente bien para capturas de apps, paginas web, recibos y tarjetas de negocios. No es perfecto con texto muy pequeno o fuentes inusuales, pero para la mayoria de casos de uso hace el trabajo.
2. Analisis de Graficos y Datos
Analyze this chart. What type of chart is it? What are the key data points? What trends or patterns do you notice? Summarize the main takeaway in one sentence.Gemma 4 puede leer graficos de barras, graficos de lineas, graficos circulares y graficos de dispersion. Identificara ejes, etiquetas y valores aproximados. Genial para entender rapidamente visualizaciones de datos sin cavar en los datos brutos.
3. Revision de Diseno UI
Review this UI screenshot as a UX designer. Identify: 1) Visual hierarchy issues, 2) Accessibility concerns (contrast, text size), 3) Layout inconsistencies, 4) Suggestions for improvement. Be specific and reference exact elements.Este es un flujo de trabajo genuinamente util. Suelta una captura de tu app y obtén una critica de diseno rapida. Captura cosas como contraste pobre, espaciado inconsistente y CTAs poco claras.
4. Descripcion de Fotos (Accesibilidad)
Write a detailed alt-text description for this image suitable for screen readers. Include: the main subject, setting, colors, mood, and any text visible. Keep it under 150 words.Perfecto para generar texto alt para sitios web. No es un reemplazo para descripciones escritas a mano para contenido critico, pero es genial para procesamiento en masa.
5. Transcripcion de Notas Escritas a Mano
Transcribe the handwritten text in this image. If any words are unclear, indicate them with [unclear]. Preserve the original structure (bullet points, numbered lists, etc.).La calidad depende mucho de la escritura a mano. La escritura tipo imprenta limpia funciona bien. ¿Cursiva desordenada? Acertado o fallado. Pero incluso una transcripcion imperfecta es mas rapida que volver a escribir.
¿Que Modelos Soportan Que?
| Capacidad | E2B | E4B | 26B | 31B |
|---|---|---|---|---|
| Entrada de texto | Si | Si | Si | Si |
| Entrada de imagen | Si | Si | Si | Si |
| Entrada de audio | Si | Si | No | No |
| Fotogramas de video | Si | Si | Si | Si |
| Generacion de imagen | No | No | No | No |
Cosas clave a notar:
- Todos los modelos soportan entrada de imagen. Incluso el mas pequeno E2B puede analizar imagenes.
- La entrada de audio es solo E2B/E4B. Los modelos mas grandes no soportan audio nativamente.
- Sin generacion de imagen. Gemma 4 es un modelo de comprension, no un modelo generativo de imagen.
- Video = fotogramas. Envias fotogramas individuales, no archivos de video. Extrae fotogramas clave primero y envialos como imagenes.
Consejos para Mejor Analisis de Imagenes
Se especifico en tus prompts. "Describe this image" te da salida generica. "List every product visible on this shelf with approximate prices" te da datos utiles.
La calidad de imagen importa. Una foto borrosa da respuestas borrosas. Recorta al area relevante antes de enviar — menos ruido significa mejores resultados.
Usa el tamano de modelo correcto. Para OCR simple, E2B esta bien. Para comprension compleja de escenas o analisis matizado, los modelos 26B o 31B son notablemente mejores.
Multiples imagenes funcionan. Puedes enviar 2-3 imagenes y pedir comparaciones, diferencias o analisis combinado. No te vuelvas loco — mas imagenes significan mas tiempo de procesamiento y uso de memoria.
Limitaciones
- Sin generacion de imagen. No puede dibujar, crear o editar imagenes.
- Las alucinaciones ocurren. Gemma 4 puede "leer" texto que no esta alli o identificar mal objetos. Siempre verifica informacion critica.
- El texto pequeno es dificil. Si apenas puedes leerlo, Gemma 4 probablemente tampoco puede. Haz zoom y recorta.
- Diagramas complejos. Diagramas tecnicos muy densos con muchos elementos superpuestos pueden confundir al modelo. Divide en secciones si es necesario.
Siguientes Pasos
- ¿Necesitas los prompts correctos para tareas de imagen? Consulta 50 Mejores Prompts de Gemma 4
- ¿Quieres llamar a la API de imagen programaticamente? Ve nuestro tutorial de API
- ¿No sabes que modelo usar para tus tareas de vision? Lee Gemma 4: ¿Cual Modelo?
- ¿Ejecutando localmente? Comienza con nuestra guia de configuracion de Ollama
Stop reading. Start building.
~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.
Launch Playground />


