Gemma 4 E2B vs E4B : Quel petit modèle choisir ?

La gamme de petits modèles Gemma 4 propose deux options : E2B (2 milliards de paramètres) et E4B (4 milliards de paramètres). Les deux sont conçus pour tourner sur du matériel limité, mais l'écart entre eux est plus important que le nombre de paramètres ne le suggère. Voyons comment ils se comparent.

Que sont E2B et E4B ?

Ce sont deux modèles denses et légers, optimisés pour l'inférence sur l'appareil. Pas de routage MoE, pas d'experts — juste des réseaux compacts conçus pour tenir dans des budgets mémoire restreints.

E2B est le plus petit modèle de la famille Gemma 4. Avec 2 milliards de paramètres, il est conçu pour les scénarios où chaque mégaoctet de RAM compte — téléphones, Raspberry Pi, appareils IoT et systèmes embarqués.

E4B double le nombre de paramètres à 4 milliards. Il reste assez petit pour être exécuté localement sur un laptop ou un bon téléphone, mais ses performances dépassent largement les attentes en raisonnement, programmation et tâches multimodales.

Petits Modèles Gemma 4 :
┌──────────────────────────────────────┐
│  E2B (2B paramètres)                 │
│  Ultra-compact · Téléphones · Edge   │
│  ~250 Mo RAM (CoreML) · 11 tok/s     │
├──────────────────────────────────────┤
│  E4B (4B paramètres)                 │
│  Compact · Laptops · Usage quotidien │
│  ~1.5 Go RAM (Q4) · 35 tok/s         │
└──────────────────────────────────────┘

Comparaison directe

Métrique	E2B (2B)	E4B (4B)
Paramètres	2B	4B
Taille du modèle (FP16)	~4 Go	~8 Go
Taille du modèle (Q4_K_M)	~1.2 Go	~2.5 Go
RAM (Q4_K_M)	~1.5 Go	~3 Go
RAM (CoreML, iPhone)	~250 Mo	~800 Mo
Fenêtre de contexte	8K	32K
Multimodal	Texte uniquement	Texte + Image

Les différences de taille de fichier et de RAM sont d'environ 2x, ce qui est logique vu le nombre de paramètres. Mais l'essentiel réside dans la longueur de contexte et le support multimodal — E4B offre 4x plus de contexte et peut traiter des images.

Comparaison de vitesse

E2B est plus rapide sur le même matériel, mais E4B reste suffisamment rapide pour un usage interactif :

Matériel	E2B (tok/s)	E4B (tok/s)	Avantage E2B
iPhone 15 Pro (CoreML)	~11	~5	2.2x
iPhone 16 Pro (CoreML)	~15	~7	2.1x
Raspberry Pi 5 (8 Go)	~8	~4	2x
M3 MacBook Air (Q4)	~65	~35	1.9x
RTX 3060 12 Go (Q4)	~120	~70	1.7x

Sur un iPhone avec CoreML-LLM, E2B tourne à environ 11 tokens par seconde en n'utilisant que 250 Mo de RAM et environ 2W de puissance. C'est véritablement utilisable pour du chat en temps réel sur téléphone sans vider la batterie.

E4B est environ deux fois plus lent sur mobile, mais sur un laptop ou un ordinateur de bureau, il reste assez rapide pour que la différence soit imperceptible en pratique.

Comparaison de qualité

C'est ici qu'E4B creuse l'écart de manière significative :

Benchmark	E2B (2B)	E4B (4B)	Gagnant
MMLU	52.1	61.8	E4B (+9.7)
HumanEval	38.4	52.6	E4B (+14.2)
GSM8K	45.2	62.1	E4B (+16.9)
MATH	18.3	28.7	E4B (+10.4)
ARC-Challenge	48.9	57.3	E4B (+8.4)
Moyenne	40.6	52.5	E4B (+11.9)

Contrairement à la comparaison 26B vs 31B où l'écart de qualité était de 1-2 points, ici l'écart est massif — presque 12 points en moyenne. E4B est nettement plus intelligent, surtout en mathématiques et en code.

Où vous remarquerez la différence

Q&A et chat simples : Les deux gèrent les conversations basiques correctement. E2B produit parfois des réponses longues moins cohérentes.
Raisonnement et mathématiques : E4B est nettement meilleur. E2B peine avec les problèmes à plusieurs étapes.
Génération de code : E4B écrit des snippets de code utilisables. E2B peut autocompléter mais peine avec les implémentations de fonctions complètes.
Multilingue : E4B gère le chinois, le japonais, le coréen et les langues européennes bien mieux. E2B est principalement limité à l'anglais.
Compréhension d'images : Seul E4B le supporte. Si vous avez besoin de la vision, le choix est fait.

Quand choisir E2B

E2B est le bon choix quand vous opérez à la limite absolue de ce que le matériel peut supporter :

Téléphones avec RAM limitée — anciens iPhones, appareils Android d'entrée de gamme où 250 Mo est le maximum disponible
Raspberry Pi et SBCs — fonctionne bien sur un Pi 5 avec 4 Go de RAM
IoT et embarqué — appareils domotiques, assistants permanents avec un budget énergie minimal
Extraction de mots-clés et classification hors ligne — quand vous avez juste besoin de NLP basique, pas de raisonnement complet
CoreML-LLM sur iPhone — 11 tok/s avec 250 Mo de RAM et 2W de consommation, c'est remarquable pour de l'IA embarquée
Traitement par lots à grande échelle — quand vous devez traiter des millions d'éléments et que le coût par inférence compte

Si votre besoin est "répondre à des requêtes simples sur un appareil avec très peu de RAM", E2B fait le travail.

Quand choisir E4B

E4B est le meilleur choix pour la plupart des gens qui veulent un petit modèle local :

Laptops pour usage quotidien — assez rapide pour du chat interactif, assez intelligent pour du vrai travail
Meilleurs téléphones — iPhone 14 Pro et plus récent, Android haut de gamme avec 6 Go+ de RAM
Assistant de programmation — véritablement utile pour la complétion et la génération de code
Tâches multimodales — sous-titrage d'images, Q&A visuel, compréhension de documents
Conversations plus longues — 32K de contexte vs 8K pour E2B, peut gérer des fils beaucoup plus longs
Usage multilingue — si vous travaillez dans des langues autres que l'anglais, E4B est nettement supérieur
Serveurs edge — assez petit pour un mini PC, assez intelligent pour être utile

Pour plus de détails sur l'exécution de ces modèles sur téléphone, consultez le Guide de Déploiement Mobile.

Tableau de décision rapide

Votre situation	Choix
Téléphone avec RAM libre <1 Go	E2B
Raspberry Pi / embarqué	E2B
Toujours allumé, ultra basse consommation	E2B
Laptop ou ordinateur de bureau	E4B
Besoin de compréhension d'images	E4B
Aide à la programmation	E4B
Usage multilingue	E4B
Conversations longues (>8K tokens)	E4B
Classification de texte simple	E2B
IA locale polyvalente	E4B

E2B et E4B vs modèles plus grands

Où se situent ces petits modèles dans la gamme complète Gemma 4 ?

Modèle	Paramètres	RAM (Q4)	Vitesse (M3 Air)	Qualité (moy.)
E2B	2B	~1.5 Go	~65 tok/s	40.6
E4B	4B	~3 Go	~35 tok/s	52.5
12B	12B	~7 Go	~20 tok/s	67.8
26B MoE	26B	~15 Go	~12 tok/s	72.4

Il y a un escalier de qualité clair. Chaque marche vers le haut double environ la RAM et divise la vitesse par deux. Pour le tableau complet, consultez Quel modèle Gemma 4 choisir ?

Configuration matérielle requise

Pour des recommandations matérielles détaillées, consultez le Guide Matériel. Voici la version rapide pour les petits modèles :

Matériel minimum E2B

iPhone : iPhone 12 ou plus récent (CoreML)
Android : 4 Go+ de RAM, Snapdragon 8 Gen 1+
Raspberry Pi : Pi 5 avec 4 Go de RAM
PC/Mac : N'importe quel appareil des 5 dernières années

Matériel minimum E4B

iPhone : iPhone 14 Pro ou plus récent (CoreML)
Android : 6 Go+ de RAM, Snapdragon 8 Gen 2+
Raspberry Pi : Pi 5 avec 8 Go de RAM
PC/Mac : 8 Go de RAM, tout CPU/GPU récent

Prochaines étapes

Envie de les exécuter sur votre téléphone ? Lisez le Guide de Déploiement Mobile pour la configuration CoreML et Android
Besoin d'aide pour choisir dans toute la gamme ? Consultez Quel modèle Gemma 4 choisir ?
Choix du matériel ? Consultez le Guide Matériel pour les recommandations GPU/CPU

Pour la plupart des gens, E4B est le choix idéal — assez petit pour exécuter localement avec quelques Go de RAM, mais assez intelligent pour être réellement utile en programmation, conversation et tâches multimodales. Réservez E2B aux environnements véritablement contraints où 250 Mo de RAM est tout ce dont vous disposez.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />