0% read

Arquitectura de Gemma 4 Explicada: MoE, Dense y Por Que Importa

abr. 7, 2026

No necesitas un doctorado para entender como funciona Gemma 4. Pero conocer lo basico de su arquitectura te ayudara a elegir el modelo correcto, entender por que es rapido (o lento) en tu hardware y obtener mejores resultados.

Vamos a desglosarlo sin la jerga academica.

La Base del Transformer (Version de 30 Segundos)

Cada modelo de lenguaje moderno, incluyendo Gemma 4, esta construido sobre la arquitectura Transformer. Aqui tienes todo lo que necesitas saber:

  1. El texto entra como tokens (piezas de palabras)
  2. Las capas de atencion determinan que tokens se relacionan entre si
  3. Las capas feed-forward procesan esas relaciones
  4. El texto sale un token a la vez

Gemma 4 apila docenas de estas capas una encima de otra. Cuantas mas capas y mas anchas sean, mas inteligente es el modelo — pero tambien mas grande y mas lento.

Dense vs. MoE: Las Dos Arquitecturas

Gemma 4 viene en dos sabores, y esto es lo mas importante que debes entender sobre la linea de modelos.

Modelos Dense (E2B, E4B)

En un modelo Dense, cada parametro se usa para cada token. Si el modelo tiene 4 mil millones de parametros, los 4 mil millones se activan para cada palabra que generas.

Piensalo como un equipo pequeno donde todos trabajan en cada tarea:

  • Rendimiento simple y predecible
  • Todos los parametros contribuyen a cada respuesta
  • Tamano total mas pequeno, facil de ejecutar

Modelos MoE (26B, 31B)

MoE significa Mixture of Experts (Mezcla de Expertos). La idea clave: no necesitas cada parametro para cada token. En su lugar, el modelo tiene una coleccion de "expertos" especializados, y un enrutador decide cuales activar para cada token.

Asi es como se ve en la practica:

Token de Entrada → Enrutador → selecciona 2 de 16 expertos → Salida

Parametros totales:      26 mil millones
Activos por token:       ~3.8 mil millones (modelo 26B)

Es como un hospital con especialistas. Cuando llegas con un brazo roto, no necesitas a todos los doctores — necesitas un cirujano ortopedico y quiza un radiologo. La recepcion (enrutador) te envia a los expertos correctos.

Por Que el Modelo 26B Solo Usa 3.8B Parametros Activos

Esta es el arma secreta de Gemma 4. El modelo MoE 26B tiene 26 mil millones de parametros totales, pero solo unos 3.8 mil millones estan activos para cualquier token dado. Eso significa:

Metrica26B MoEDense Equivalente
Parametros totales26B26B
Activos por token~3.8B26B
VelocidadRapido (como un modelo de 4B)Lento (7x mas computo)
CalidadCerca del nivel Dense 26BCalidad completa de 26B
VRAM necesariaMenos de lo esperadoMucho mas

Obtienes el conocimiento de un modelo de 26B con la velocidad de un modelo de ~4B. Por eso MoE es tan importante — rompe el compromiso tradicional entre calidad y velocidad.

Para una comparacion practica de que modelo elegir, consulta nuestra guia de seleccion de modelos.

Como Funciona el Enrutador

El enrutador es una red neuronal pequena que se situa al inicio de cada capa MoE. Para cada token entrante:

  1. Mira la representacion del token
  2. Puntua cada experto (¿que tan relevante es este experto para este token?)
  3. Elige los top-K expertos (generalmente 2)
  4. Combina sus salidas usando las puntuaciones como pesos

El enrutador aprende durante el entrenamiento que expertos son buenos en que. Con el tiempo, diferentes expertos se especializan — algunos se vuelven buenos en codigo, otros en razonamiento, otros en escritura creativa. El enrutador determina la mezcla correcta sobre la marcha.

El balanceo de carga es critico en el entrenamiento MoE. Si un experto recibe todos los tokens (un enrutador "colapsado"), has desperdiciado los otros expertos. Gemma 4 usa funciones de perdida auxiliares para mantener la carga balanceada entre expertos.

El Mecanismo de Atencion

Gemma 4 usa Grouped Query Attention (GQA), que es un punto medio entre la atencion multi-cabeza original (costosa pero alta calidad) y la atencion multi-consulta (barata pero menor calidad).

En GQA:

  • Las cabezas de consulta se agrupan
  • Cada grupo comparte un conjunto de cabezas clave-valor
  • Esto reduce la memoria para la cache KV sin perjudicar mucho la calidad

Por que esto te importa: la cache KV es lo que crece cuando usas contextos largos. GQA la mantiene manejable, que es como Gemma 4 puede manejar entradas muy largas sin agotar tu VRAM.

Ventana de Contexto de 256K

Gemma 4 soporta hasta 256K tokens de contexto — aproximadamente 200,000 palabras o un libro de 400 paginas. Asi es como funciona:

RoPE (Rotary Position Embeddings): En lugar de IDs de posicion fijos que se agotan a cierta longitud, RoPE codifica posiciones como rotaciones. Esto escala naturalmente a secuencias mas largas y generaliza mejor a longitudes que el modelo no ha visto mucho durante el entrenamiento.

Longitudes de contexto practicas:

Longitud de ContextoAproximadamente EquivaleImpacto en VRAM
8K tokensDocumento de 10-15 paginasBase
32K tokensDocumento de 50 paginas~2x base
128K tokensBase de codigo completa~4x base
256K tokensLibro completo~8x base

Advertencia importante: Solo porque el modelo soporte 256K no significa que siempre debas usarlos. La cache KV crece linealmente con la longitud del contexto, y el computo de atencion crece cuadraticamente. Para la mayoria de tareas, 8K-32K es suficiente. Reserva el contexto largo para cuando genuinamente lo necesites — como analizar una base de codigo completa o un contrato legal completo.

Por Que Gemma 4 es Eficiente por Parametro

Varias decisiones arquitectonicas hacen que Gemma 4 rinda por encima de su peso:

  1. Enrutamiento MoE: Solo 15-20% de parametros activos por token
  2. GQA: Memoria de cache KV reducida
  3. Activacion SwiGLU: Mejor flujo de informacion en capas feed-forward
  4. RMSNorm: Normalizacion mas rapida que LayerNorm
  5. Tokenizador optimizado: Vocabulario de 256K cubre mas idiomas eficientemente

El resultado: el modelo MoE 26B frecuentemente iguala o supera a modelos Dense con 2-3x mas parametros activos en benchmarks estandar.

Resumen de Arquitectura

CaracteristicaE2BE4B26B31B
TipoDenseDenseMoEMoE
Params Totales~2B~4B~26B~31B
Params Activos~2B~4B~3.8B~4.5B
ExpertosN/AN/A16 (top-2)16 (top-2)
AtencionGQAGQAGQAGQA
Contexto Max256K256K256K256K
Mejor ParaDispositivos edgeLaptopsMayoria de usuariosMaxima calidad

Que Significa Esto Para Ti

  • Elegir un modelo: Si estas indeciso entre el MoE 26B y un modelo Dense de tamano total similar, el MoE sera mas rapido con calidad comparable. Ve nuestra comparacion de arquitectura con Llama 4.
  • Estimar VRAM: Los modelos MoE necesitan VRAM para todos los parametros (estan todos en memoria), pero el computo escala con los parametros activos. Consulta nuestra guia de hardware.
  • Tareas de contexto largo: Empieza con contextos mas cortos y expande solo cuando sea necesario. Tu VRAM te lo agradecera.
  • Fine-tuning: Los modelos MoE se pueden ajustar con LoRA, apuntando a las capas de atencion y/o las capas de expertos.

Siguientes Pasos

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Arquitectura de Gemma 4 Explicada: MoE, Dense y Por Que Importa | Blog