Gemma 4 26B vs 31B: MoE vs Dense — ¿Cual es mejor?

Gemma 4 te da dos opciones en la gama alta: un modelo 26B Mixture of Experts (MoE) y un modelo 31B Dense. Son sorprendentemente diferentes en como funcionan, y la eleccion correcta depende de que estes optimizando. Vamos a desglosarlo.

MoE explicado de forma sencilla

El modelo 26B MoE tiene 26 mil millones de parametros totales, pero aqui esta el truco — no los usa todos a la vez. En su lugar, tiene multiples subredes "expertos", y un mecanismo de enrutamiento elige que expertos activar para cada token. Solo unos 3.8 mil millones de parametros estan activos durante cualquier pasada.

Piensalo como un hospital con 20 especialistas. Cuando llega un paciente, no ve a los 20 medicos — es derivado a los 2-3 especialistas relevantes para su condicion. El hospital tiene conocimiento de 20 medicos, pero cada visita solo usa una fraccion del personal.

Arquitectura MoE 26B:
┌─────────────────────────────┐
│  Router: "¿Que expertos?"   │
├──────┬──────┬──────┬───────┤
│ Exp1 │ Exp2 │ Exp3 │ ...   │  ← 26B parametros totales
├──────┴──────┴──────┴───────┤
│  Solo ~3.8B activos/token   │  ← Coste computacional real
└─────────────────────────────┘

Dense explicado

El modelo 31B Dense es directo — los 31 mil millones de parametros estan activos para cada token. Sin enrutamiento, sin expertos, solo una red grande haciendo todo el trabajo cada vez.

Arquitectura Dense 31B:
┌─────────────────────────────┐
│  Los 31B parametros activos │  ← Cada token usa todo
│  para cada token            │
└─────────────────────────────┘

Comparacion cara a cara

Metrica	26B MoE	31B Dense
Parametros totales	26B	31B
Parametros activos	~3.8B	31B
VRAM (FP16)	~52 GB	~62 GB
VRAM (Q4_K_M)	~15 GB	~18 GB
Velocidad (tok/s, RTX 4090)	~45	~18
Velocidad (tok/s, M3 Max 36GB)	~25	~10

Comparacion de benchmarks

Benchmark	26B MoE	31B Dense	Ganador
MMLU	79.5	81.3	Dense (+1.8)
HumanEval	75.2	77.1	Dense (+1.9)
GSM8K	87.0	88.9	Dense (+1.9)
MATH	52.1	54.8	Dense (+2.7)
ARC-Challenge	68.3	69.1	Dense (+0.8)
Promedio	72.4	74.2	Dense (+1.8 prom.)

El modelo Dense gana en calidad bruta en todos los ambitos, pero los margenes son pequenos — tipicamente 1-3 puntos. La pregunta es si esa pequena ventaja de calidad justifica la enorme diferencia de velocidad.

Comparacion de velocidad

Aqui es donde MoE brilla. Como solo 3.8B parametros estan activos por token, la velocidad de inferencia es dramaticamente mayor:

Hardware	26B MoE Q4 (tok/s)	31B Dense Q4 (tok/s)	Ventaja MoE
RTX 4090 24GB	~45	~18	2.5x mas rapido
RTX 3090 24GB	~30	~12	2.5x mas rapido
M3 Max 36GB	~25	~10	2.5x mas rapido
M4 Max 48GB	~32	~14	2.3x mas rapido

El modelo MoE es consistentemente 2-2.5x mas rapido. Para casos de uso interactivos donde estas esperando respuestas, esta diferencia es enorme.

Comparacion de VRAM

Aqui esta la trampa con MoE — aunque solo 3.8B parametros estan activos, todos los 26B necesitan estar cargados en memoria:

Formato	26B MoE	31B Dense	Diferencia
FP16	~52 GB	~62 GB	MoE ahorra ~10 GB
Q8_0	~28 GB	~33 GB	MoE ahorra ~5 GB
Q5_K_M	~19 GB	~22 GB	MoE ahorra ~3 GB
Q4_K_M	~15 GB	~18 GB	MoE ahorra ~3 GB

MoE usa menos VRAM que Dense en cada nivel de cuantizacion, pero el ahorro no es tan dramatico como la diferencia de velocidad. Ambos modelos necesitan hardware serio a precision completa.

Recomendaciones por caso de uso

Elige el 26B MoE cuando:

Chat interactivo y asistencia de codigo — la ventaja de velocidad 2.5x hace que las conversaciones se sientan naturales
Servir API con multiples usuarios — inferencia mas rapida significa mayor rendimiento y menor coste por consulta
El hardware es el cuello de botella — cabe en ligeramente menos VRAM y funciona mucho mas rapido
La calidad es "suficientemente buena" — para la mayoria de tareas practicas, la diferencia de 1-2 puntos en benchmarks no importa
Ejecutas en hardware de consumo — Q4 MoE en una GPU de 16GB es realmente usable

Elige el 31B Dense cuando:

Fine-tuning — Los modelos Dense son mas directos de hacer fine-tuning que MoE; el enrutamiento de expertos anade complejidad
Calidad maxima en tareas dificiles — cuando necesitas cada ultimo punto en matematicas, razonamiento o generacion de codigo
Procesamiento por lotes — si procesas sin conexion y no te importa la velocidad por token
Investigacion y evaluacion — cuando necesitas la mejor linea base absoluta
Despliegue simple — Los modelos Dense tienen soporte mas amplio de frameworks y menos casos extremos

Tabla de decision rapida

Tu prioridad	Elige
Velocidad	26B MoE
Calidad	31B Dense
Eficiencia de coste	26B MoE
Fine-tuning	31B Dense
Uso interactivo	26B MoE
Procesamiento por lotes sin conexion	31B Dense

Soporte de frameworks

No todos los frameworks manejan los modelos MoE igual de bien:

Framework	Soporte MoE	Soporte Dense
Ollama	Si	Si
llama.cpp	Si	Si
vLLM	Si	Si
SGLang	Si	Si
LM Studio	Parcial	Si
TensorRT-LLM	Si	Si
transformers	Si	Si

El soporte de MoE ha madurado significativamente, pero si encuentras problemas con un framework especifico, Dense es la apuesta mas segura.

Siguientes pasos

¿Aun decidiendo el tamano del modelo? Lee ¿Que modelo de Gemma 4 deberia elegir? para la gama completa incluyendo modelos mas pequenos
¿Quieres entender las opciones de cuantizacion? Consulta la guia GGUF para comparaciones Q4/Q5/Q8
¿Listo para ejecutar uno de estos? Sigue nuestro tutorial de Ollama para empezar en minutos

Para la mayoria de personas, el 26B MoE es la mejor opcion. Es 2.5x mas rapido con solo una pequena concesion de calidad. Reserva el 31B Dense para fine-tuning o cuando genuinamente necesites calidad maxima y puedas permitirte esperar por las respuestas.