Arquitectura de Gemma 4 Explicada: MoE, Dense y Por Que Importa

No necesitas un doctorado para entender como funciona Gemma 4. Pero conocer lo basico de su arquitectura te ayudara a elegir el modelo correcto, entender por que es rapido (o lento) en tu hardware y obtener mejores resultados.

Vamos a desglosarlo sin la jerga academica.

La Base del Transformer (Version de 30 Segundos)

Cada modelo de lenguaje moderno, incluyendo Gemma 4, esta construido sobre la arquitectura Transformer. Aqui tienes todo lo que necesitas saber:

El texto entra como tokens (piezas de palabras)
Las capas de atencion determinan que tokens se relacionan entre si
Las capas feed-forward procesan esas relaciones
El texto sale un token a la vez

Gemma 4 apila docenas de estas capas una encima de otra. Cuantas mas capas y mas anchas sean, mas inteligente es el modelo — pero tambien mas grande y mas lento.

Dense vs. MoE: Las Dos Arquitecturas

Gemma 4 viene en dos sabores, y esto es lo mas importante que debes entender sobre la linea de modelos.

Modelos Dense (E2B, E4B)

En un modelo Dense, cada parametro se usa para cada token. Si el modelo tiene 4 mil millones de parametros, los 4 mil millones se activan para cada palabra que generas.

Piensalo como un equipo pequeno donde todos trabajan en cada tarea:

Rendimiento simple y predecible
Todos los parametros contribuyen a cada respuesta
Tamano total mas pequeno, facil de ejecutar

Modelos MoE (26B, 31B)

MoE significa Mixture of Experts (Mezcla de Expertos). La idea clave: no necesitas cada parametro para cada token. En su lugar, el modelo tiene una coleccion de "expertos" especializados, y un enrutador decide cuales activar para cada token.

Asi es como se ve en la practica:

Token de Entrada → Enrutador → selecciona 2 de 16 expertos → Salida

Parametros totales:      26 mil millones
Activos por token:       ~3.8 mil millones (modelo 26B)

Es como un hospital con especialistas. Cuando llegas con un brazo roto, no necesitas a todos los doctores — necesitas un cirujano ortopedico y quiza un radiologo. La recepcion (enrutador) te envia a los expertos correctos.

Por Que el Modelo 26B Solo Usa 3.8B Parametros Activos

Esta es el arma secreta de Gemma 4. El modelo MoE 26B tiene 26 mil millones de parametros totales, pero solo unos 3.8 mil millones estan activos para cualquier token dado. Eso significa:

Metrica	26B MoE	Dense Equivalente
Parametros totales	26B	26B
Activos por token	~3.8B	26B
Velocidad	Rapido (como un modelo de 4B)	Lento (7x mas computo)
Calidad	Cerca del nivel Dense 26B	Calidad completa de 26B
VRAM necesaria	Menos de lo esperado	Mucho mas

Obtienes el conocimiento de un modelo de 26B con la velocidad de un modelo de ~4B. Por eso MoE es tan importante — rompe el compromiso tradicional entre calidad y velocidad.

Para una comparacion practica de que modelo elegir, consulta nuestra guia de seleccion de modelos.

Como Funciona el Enrutador

El enrutador es una red neuronal pequena que se situa al inicio de cada capa MoE. Para cada token entrante:

Mira la representacion del token
Puntua cada experto (¿que tan relevante es este experto para este token?)
Elige los top-K expertos (generalmente 2)
Combina sus salidas usando las puntuaciones como pesos

El enrutador aprende durante el entrenamiento que expertos son buenos en que. Con el tiempo, diferentes expertos se especializan — algunos se vuelven buenos en codigo, otros en razonamiento, otros en escritura creativa. El enrutador determina la mezcla correcta sobre la marcha.

El balanceo de carga es critico en el entrenamiento MoE. Si un experto recibe todos los tokens (un enrutador "colapsado"), has desperdiciado los otros expertos. Gemma 4 usa funciones de perdida auxiliares para mantener la carga balanceada entre expertos.

El Mecanismo de Atencion

Gemma 4 usa Grouped Query Attention (GQA), que es un punto medio entre la atencion multi-cabeza original (costosa pero alta calidad) y la atencion multi-consulta (barata pero menor calidad).

En GQA:

Las cabezas de consulta se agrupan
Cada grupo comparte un conjunto de cabezas clave-valor
Esto reduce la memoria para la cache KV sin perjudicar mucho la calidad

Por que esto te importa: la cache KV es lo que crece cuando usas contextos largos. GQA la mantiene manejable, que es como Gemma 4 puede manejar entradas muy largas sin agotar tu VRAM.

Ventana de Contexto de 256K

Gemma 4 soporta hasta 256K tokens de contexto — aproximadamente 200,000 palabras o un libro de 400 paginas. Asi es como funciona:

RoPE (Rotary Position Embeddings): En lugar de IDs de posicion fijos que se agotan a cierta longitud, RoPE codifica posiciones como rotaciones. Esto escala naturalmente a secuencias mas largas y generaliza mejor a longitudes que el modelo no ha visto mucho durante el entrenamiento.

Longitudes de contexto practicas:

Longitud de Contexto	Aproximadamente Equivale	Impacto en VRAM
8K tokens	Documento de 10-15 paginas	Base
32K tokens	Documento de 50 paginas	~2x base
128K tokens	Base de codigo completa	~4x base
256K tokens	Libro completo	~8x base

Advertencia importante: Solo porque el modelo soporte 256K no significa que siempre debas usarlos. La cache KV crece linealmente con la longitud del contexto, y el computo de atencion crece cuadraticamente. Para la mayoria de tareas, 8K-32K es suficiente. Reserva el contexto largo para cuando genuinamente lo necesites — como analizar una base de codigo completa o un contrato legal completo.

Por Que Gemma 4 es Eficiente por Parametro

Varias decisiones arquitectonicas hacen que Gemma 4 rinda por encima de su peso:

Enrutamiento MoE: Solo 15-20% de parametros activos por token
GQA: Memoria de cache KV reducida
Activacion SwiGLU: Mejor flujo de informacion en capas feed-forward
RMSNorm: Normalizacion mas rapida que LayerNorm
Tokenizador optimizado: Vocabulario de 256K cubre mas idiomas eficientemente

El resultado: el modelo MoE 26B frecuentemente iguala o supera a modelos Dense con 2-3x mas parametros activos en benchmarks estandar.

Resumen de Arquitectura

Caracteristica	E2B	E4B	26B	31B
Tipo	Dense	Dense	MoE	MoE
Params Totales	~2B	~4B	~26B	~31B
Params Activos	~2B	~4B	~3.8B	~4.5B
Expertos	N/A	N/A	16 (top-2)	16 (top-2)
Atencion	GQA	GQA	GQA	GQA
Contexto Max	256K	256K	256K	256K
Mejor Para	Dispositivos edge	Laptops	Mayoria de usuarios	Maxima calidad

Que Significa Esto Para Ti

Elegir un modelo: Si estas indeciso entre el MoE 26B y un modelo Dense de tamano total similar, el MoE sera mas rapido con calidad comparable. Ve nuestra comparacion de arquitectura con Llama 4.
Estimar VRAM: Los modelos MoE necesitan VRAM para todos los parametros (estan todos en memoria), pero el computo escala con los parametros activos. Consulta nuestra guia de hardware.
Tareas de contexto largo: Empieza con contextos mas cortos y expande solo cuando sea necesario. Tu VRAM te lo agradecera.
Fine-tuning: Los modelos MoE se pueden ajustar con LoRA, apuntando a las capas de atencion y/o las capas de expertos.