0% read

Gemma 4 E2B vs E4B : Quel petit modèle choisir ?

avr. 10, 2026

La gamme de petits modèles Gemma 4 propose deux options : E2B (2 milliards de paramètres) et E4B (4 milliards de paramètres). Les deux sont conçus pour tourner sur du matériel limité, mais l'écart entre eux est plus important que le nombre de paramètres ne le suggère. Voyons comment ils se comparent.

Que sont E2B et E4B ?

Ce sont deux modèles denses et légers, optimisés pour l'inférence sur l'appareil. Pas de routage MoE, pas d'experts — juste des réseaux compacts conçus pour tenir dans des budgets mémoire restreints.

E2B est le plus petit modèle de la famille Gemma 4. Avec 2 milliards de paramètres, il est conçu pour les scénarios où chaque mégaoctet de RAM compte — téléphones, Raspberry Pi, appareils IoT et systèmes embarqués.

E4B double le nombre de paramètres à 4 milliards. Il reste assez petit pour être exécuté localement sur un laptop ou un bon téléphone, mais ses performances dépassent largement les attentes en raisonnement, programmation et tâches multimodales.

Petits Modèles Gemma 4 :
┌──────────────────────────────────────┐
│  E2B (2B paramètres)                 │
│  Ultra-compact · Téléphones · Edge   │
│  ~250 Mo RAM (CoreML) · 11 tok/s     │
├──────────────────────────────────────┤
│  E4B (4B paramètres)                 │
│  Compact · Laptops · Usage quotidien │
│  ~1.5 Go RAM (Q4) · 35 tok/s         │
└──────────────────────────────────────┘

Comparaison directe

MétriqueE2B (2B)E4B (4B)
Paramètres2B4B
Taille du modèle (FP16)~4 Go~8 Go
Taille du modèle (Q4_K_M)~1.2 Go~2.5 Go
RAM (Q4_K_M)~1.5 Go~3 Go
RAM (CoreML, iPhone)~250 Mo~800 Mo
Fenêtre de contexte8K32K
MultimodalTexte uniquementTexte + Image

Les différences de taille de fichier et de RAM sont d'environ 2x, ce qui est logique vu le nombre de paramètres. Mais l'essentiel réside dans la longueur de contexte et le support multimodal — E4B offre 4x plus de contexte et peut traiter des images.

Comparaison de vitesse

E2B est plus rapide sur le même matériel, mais E4B reste suffisamment rapide pour un usage interactif :

MatérielE2B (tok/s)E4B (tok/s)Avantage E2B
iPhone 15 Pro (CoreML)~11~52.2x
iPhone 16 Pro (CoreML)~15~72.1x
Raspberry Pi 5 (8 Go)~8~42x
M3 MacBook Air (Q4)~65~351.9x
RTX 3060 12 Go (Q4)~120~701.7x

Sur un iPhone avec CoreML-LLM, E2B tourne à environ 11 tokens par seconde en n'utilisant que 250 Mo de RAM et environ 2W de puissance. C'est véritablement utilisable pour du chat en temps réel sur téléphone sans vider la batterie.

E4B est environ deux fois plus lent sur mobile, mais sur un laptop ou un ordinateur de bureau, il reste assez rapide pour que la différence soit imperceptible en pratique.

Comparaison de qualité

C'est ici qu'E4B creuse l'écart de manière significative :

BenchmarkE2B (2B)E4B (4B)Gagnant
MMLU52.161.8E4B (+9.7)
HumanEval38.452.6E4B (+14.2)
GSM8K45.262.1E4B (+16.9)
MATH18.328.7E4B (+10.4)
ARC-Challenge48.957.3E4B (+8.4)
Moyenne40.652.5E4B (+11.9)

Contrairement à la comparaison 26B vs 31B où l'écart de qualité était de 1-2 points, ici l'écart est massif — presque 12 points en moyenne. E4B est nettement plus intelligent, surtout en mathématiques et en code.

Où vous remarquerez la différence

  • Q&A et chat simples : Les deux gèrent les conversations basiques correctement. E2B produit parfois des réponses longues moins cohérentes.
  • Raisonnement et mathématiques : E4B est nettement meilleur. E2B peine avec les problèmes à plusieurs étapes.
  • Génération de code : E4B écrit des snippets de code utilisables. E2B peut autocompléter mais peine avec les implémentations de fonctions complètes.
  • Multilingue : E4B gère le chinois, le japonais, le coréen et les langues européennes bien mieux. E2B est principalement limité à l'anglais.
  • Compréhension d'images : Seul E4B le supporte. Si vous avez besoin de la vision, le choix est fait.

Quand choisir E2B

E2B est le bon choix quand vous opérez à la limite absolue de ce que le matériel peut supporter :

  • Téléphones avec RAM limitée — anciens iPhones, appareils Android d'entrée de gamme où 250 Mo est le maximum disponible
  • Raspberry Pi et SBCs — fonctionne bien sur un Pi 5 avec 4 Go de RAM
  • IoT et embarqué — appareils domotiques, assistants permanents avec un budget énergie minimal
  • Extraction de mots-clés et classification hors ligne — quand vous avez juste besoin de NLP basique, pas de raisonnement complet
  • CoreML-LLM sur iPhone — 11 tok/s avec 250 Mo de RAM et 2W de consommation, c'est remarquable pour de l'IA embarquée
  • Traitement par lots à grande échelle — quand vous devez traiter des millions d'éléments et que le coût par inférence compte

Si votre besoin est "répondre à des requêtes simples sur un appareil avec très peu de RAM", E2B fait le travail.

Quand choisir E4B

E4B est le meilleur choix pour la plupart des gens qui veulent un petit modèle local :

  • Laptops pour usage quotidien — assez rapide pour du chat interactif, assez intelligent pour du vrai travail
  • Meilleurs téléphones — iPhone 14 Pro et plus récent, Android haut de gamme avec 6 Go+ de RAM
  • Assistant de programmation — véritablement utile pour la complétion et la génération de code
  • Tâches multimodales — sous-titrage d'images, Q&A visuel, compréhension de documents
  • Conversations plus longues — 32K de contexte vs 8K pour E2B, peut gérer des fils beaucoup plus longs
  • Usage multilingue — si vous travaillez dans des langues autres que l'anglais, E4B est nettement supérieur
  • Serveurs edge — assez petit pour un mini PC, assez intelligent pour être utile

Pour plus de détails sur l'exécution de ces modèles sur téléphone, consultez le Guide de Déploiement Mobile.

Tableau de décision rapide

Votre situationChoix
Téléphone avec RAM libre <1 GoE2B
Raspberry Pi / embarquéE2B
Toujours allumé, ultra basse consommationE2B
Laptop ou ordinateur de bureauE4B
Besoin de compréhension d'imagesE4B
Aide à la programmationE4B
Usage multilingueE4B
Conversations longues (>8K tokens)E4B
Classification de texte simpleE2B
IA locale polyvalenteE4B

E2B et E4B vs modèles plus grands

Où se situent ces petits modèles dans la gamme complète Gemma 4 ?

ModèleParamètresRAM (Q4)Vitesse (M3 Air)Qualité (moy.)
E2B2B~1.5 Go~65 tok/s40.6
E4B4B~3 Go~35 tok/s52.5
12B12B~7 Go~20 tok/s67.8
26B MoE26B~15 Go~12 tok/s72.4

Il y a un escalier de qualité clair. Chaque marche vers le haut double environ la RAM et divise la vitesse par deux. Pour le tableau complet, consultez Quel modèle Gemma 4 choisir ?

Configuration matérielle requise

Pour des recommandations matérielles détaillées, consultez le Guide Matériel. Voici la version rapide pour les petits modèles :

Matériel minimum E2B

  • iPhone : iPhone 12 ou plus récent (CoreML)
  • Android : 4 Go+ de RAM, Snapdragon 8 Gen 1+
  • Raspberry Pi : Pi 5 avec 4 Go de RAM
  • PC/Mac : N'importe quel appareil des 5 dernières années

Matériel minimum E4B

  • iPhone : iPhone 14 Pro ou plus récent (CoreML)
  • Android : 6 Go+ de RAM, Snapdragon 8 Gen 2+
  • Raspberry Pi : Pi 5 avec 8 Go de RAM
  • PC/Mac : 8 Go de RAM, tout CPU/GPU récent

Prochaines étapes

Pour la plupart des gens, E4B est le choix idéal — assez petit pour exécuter localement avec quelques Go de RAM, mais assez intelligent pour être réellement utile en programmation, conversation et tâches multimodales. Réservez E2B aux environnements véritablement contraints où 250 Mo de RAM est tout ce dont vous disposez.

gemma4 — interact

Stop reading. Start building.

~/gemma4 $ Get hands-on with the models discussed in this guide. No deployment, no friction, 100% free playground.

Launch Playground />
Gemma 4 AI

Gemma 4 AI

Related Guides

Gemma 4 E2B vs E4B : Quel petit modèle choisir ? | Blog