Gemma 4 te da dos opciones en la gama alta: un modelo 26B Mixture of Experts (MoE) y un modelo 31B Dense. Son sorprendentemente diferentes en como funcionan, y la eleccion correcta depende de que estes optimizando. Vamos a desglosarlo.
MoE explicado de forma sencilla
El modelo 26B MoE tiene 26 mil millones de parametros totales, pero aqui esta el truco — no los usa todos a la vez. En su lugar, tiene multiples subredes "expertos", y un mecanismo de enrutamiento elige que expertos activar para cada token. Solo unos 3.8 mil millones de parametros estan activos durante cualquier pasada.
Piensalo como un hospital con 20 especialistas. Cuando llega un paciente, no ve a los 20 medicos — es derivado a los 2-3 especialistas relevantes para su condicion. El hospital tiene conocimiento de 20 medicos, pero cada visita solo usa una fraccion del personal.
Arquitectura MoE 26B:
┌─────────────────────────────┐
│ Router: "¿Que expertos?" │
├──────┬──────┬──────┬───────┤
│ Exp1 │ Exp2 │ Exp3 │ ... │ ← 26B parametros totales
├──────┴──────┴──────┴───────┤
│ Solo ~3.8B activos/token │ ← Coste computacional real
└─────────────────────────────┘Dense explicado
El modelo 31B Dense es directo — los 31 mil millones de parametros estan activos para cada token. Sin enrutamiento, sin expertos, solo una red grande haciendo todo el trabajo cada vez.
Arquitectura Dense 31B:
┌─────────────────────────────┐
│ Los 31B parametros activos │ ← Cada token usa todo
│ para cada token │
└─────────────────────────────┘Comparacion cara a cara
| Metrica | 26B MoE | 31B Dense |
|---|---|---|
| Parametros totales | 26B | 31B |
| Parametros activos | ~3.8B | 31B |
| VRAM (FP16) | ~52 GB | ~62 GB |
| VRAM (Q4_K_M) | ~15 GB | ~18 GB |
| Velocidad (tok/s, RTX 4090) | ~45 | ~18 |
| Velocidad (tok/s, M3 Max 36GB) | ~25 | ~10 |
Comparacion de benchmarks
| Benchmark | 26B MoE | 31B Dense | Ganador |
|---|---|---|---|
| MMLU | 79.5 | 81.3 | Dense (+1.8) |
| HumanEval | 75.2 | 77.1 | Dense (+1.9) |
| GSM8K | 87.0 | 88.9 | Dense (+1.9) |
| MATH | 52.1 | 54.8 | Dense (+2.7) |
| ARC-Challenge | 68.3 | 69.1 | Dense (+0.8) |
| Promedio | 72.4 | 74.2 | Dense (+1.8 prom.) |
El modelo Dense gana en calidad bruta en todos los ambitos, pero los margenes son pequenos — tipicamente 1-3 puntos. La pregunta es si esa pequena ventaja de calidad justifica la enorme diferencia de velocidad.
Comparacion de velocidad
Aqui es donde MoE brilla. Como solo 3.8B parametros estan activos por token, la velocidad de inferencia es dramaticamente mayor:
| Hardware | 26B MoE Q4 (tok/s) | 31B Dense Q4 (tok/s) | Ventaja MoE |
|---|---|---|---|
| RTX 4090 24GB | ~45 | ~18 | 2.5x mas rapido |
| RTX 3090 24GB | ~30 | ~12 | 2.5x mas rapido |
| M3 Max 36GB | ~25 | ~10 | 2.5x mas rapido |
| M4 Max 48GB | ~32 | ~14 | 2.3x mas rapido |
El modelo MoE es consistentemente 2-2.5x mas rapido. Para casos de uso interactivos donde estas esperando respuestas, esta diferencia es enorme.
Comparacion de VRAM
Aqui esta la trampa con MoE — aunque solo 3.8B parametros estan activos, todos los 26B necesitan estar cargados en memoria:
| Formato | 26B MoE | 31B Dense | Diferencia |
|---|---|---|---|
| FP16 | ~52 GB | ~62 GB | MoE ahorra ~10 GB |
| Q8_0 | ~28 GB | ~33 GB | MoE ahorra ~5 GB |
| Q5_K_M | ~19 GB | ~22 GB | MoE ahorra ~3 GB |
| Q4_K_M | ~15 GB | ~18 GB | MoE ahorra ~3 GB |
MoE usa menos VRAM que Dense en cada nivel de cuantizacion, pero el ahorro no es tan dramatico como la diferencia de velocidad. Ambos modelos necesitan hardware serio a precision completa.
Recomendaciones por caso de uso
Elige el 26B MoE cuando:
- Chat interactivo y asistencia de codigo — la ventaja de velocidad 2.5x hace que las conversaciones se sientan naturales
- Servir API con multiples usuarios — inferencia mas rapida significa mayor rendimiento y menor coste por consulta
- El hardware es el cuello de botella — cabe en ligeramente menos VRAM y funciona mucho mas rapido
- La calidad es "suficientemente buena" — para la mayoria de tareas practicas, la diferencia de 1-2 puntos en benchmarks no importa
- Ejecutas en hardware de consumo — Q4 MoE en una GPU de 16GB es realmente usable
Elige el 31B Dense cuando:
- Fine-tuning — Los modelos Dense son mas directos de hacer fine-tuning que MoE; el enrutamiento de expertos anade complejidad
- Calidad maxima en tareas dificiles — cuando necesitas cada ultimo punto en matematicas, razonamiento o generacion de codigo
- Procesamiento por lotes — si procesas sin conexion y no te importa la velocidad por token
- Investigacion y evaluacion — cuando necesitas la mejor linea base absoluta
- Despliegue simple — Los modelos Dense tienen soporte mas amplio de frameworks y menos casos extremos
Tabla de decision rapida
| Tu prioridad | Elige |
|---|---|
| Velocidad | 26B MoE |
| Calidad | 31B Dense |
| Eficiencia de coste | 26B MoE |
| Fine-tuning | 31B Dense |
| Uso interactivo | 26B MoE |
| Procesamiento por lotes sin conexion | 31B Dense |
Soporte de frameworks
No todos los frameworks manejan los modelos MoE igual de bien:
| Framework | Soporte MoE | Soporte Dense |
|---|---|---|
| Ollama | Si | Si |
| llama.cpp | Si | Si |
| vLLM | Si | Si |
| SGLang | Si | Si |
| LM Studio | Parcial | Si |
| TensorRT-LLM | Si | Si |
| transformers | Si | Si |
El soporte de MoE ha madurado significativamente, pero si encuentras problemas con un framework especifico, Dense es la apuesta mas segura.
Siguientes pasos
- ¿Aun decidiendo el tamano del modelo? Lee ¿Que modelo de Gemma 4 deberia elegir? para la gama completa incluyendo modelos mas pequenos
- ¿Quieres entender las opciones de cuantizacion? Consulta la guia GGUF para comparaciones Q4/Q5/Q8
- ¿Listo para ejecutar uno de estos? Sigue nuestro tutorial de Ollama para empezar en minutos
Para la mayoria de personas, el 26B MoE es la mejor opcion. Es 2.5x mas rapido con solo una pequena concesion de calidad. Reserva el 31B Dense para fine-tuning o cuando genuinamente necesites calidad maxima y puedas permitirte esperar por las respuestas.



