Cerebras WSE-3 : 4 billions de transistors et 900 000 cœurs IA

La réception • Actualités • Processeurs

Cerebras Systems Inc. une entreprise américaine fondée en 2015 qui est spécialisée dans le domaine de l'intelligence artificielle, vient de présenter la troisième génération de son Wafer Scale Engine : le WSE-3. Fidèle à sa lignée, cette version fait toujours dans la démesure : fabriquée par TSMC à partir de processus 5 nm, la puce compte 4 billions de transistors, 900 000 cœurs optimisés pour l’IA, 44 Go de SRAM, pour une performance de pointe de 125 petaflops FP16. Cerebras affirme que cette génération délivre des performances deux fois supérieures à celles de la précédente version, le WSE-2, pour une consommation et un tarif similaires.

eng shot 5 uai 1032x1032

Wafer Scale Engine-3 © Cerebras

Le H100 de NVIDIA paraît bien petit...

Ce WSE-3 sert à équiper les systèmes Cerebras CS-3. Ces derniers prennent en charge 1,5 To, 12 To ou carrément 1,2 Po de mémoire externe. Cette quantité de mémoire permet de stocker des modèles massifs dans un espace logique unique sans partitionnement ni remaniement selon l’entreprise. Ainsi, il sont en mesure d’entraîner des modèles IA à 24 billions de paramètres. Pour contextualiser, GPT-4 implique 1,76 billion de paramètres.

Pour le WSE-2, Cerebras avait mis en scène le gigantisme de la puce à travers quelques illustrations éloquentes pour le grand public.

wse2 1

Wafer Scale Engine-2 © Cerebras

Pas de rapprochements de ce genre pour le WSE-3, mais l’habituel comparaison avec le plus gros des GPU actuels. En l’occurrence, le H100 de NVIDIA, qui est déjà un sacré engin avec ses 80 milliards de transistors et sa surface de 814 mm².

comparaison wse 3 vs gpu h100

Wafer Scale Engine-3 vs H100 © Cerebras

La société se livre à cette comparaison depuis la toute première version du WSE. Si la surface n'évolue pas au fil des ans, le nombre de transistors est logiquement en hausse perpétuelle à mesure que la finesse de gravure s'affine : 16 nm, 7 nm, puis 5 nm désormais.

wse2 vs large gpu

wse gen1 gen2 specs

Les spécifications des deux premières générations de WSE © Cerebras

Pour en revenir à la H100, Cerbras poursuit la comparaison avec la puce de NVIDIA dans les tableaux comparatifs ci-dessous. Naturellement, c’est un peu David contre Goliath ; comme comparer des choux et des carottes.

wse3 vs h100 1

wse3 vs h100 2

Pour entraîner des modèles à 24 billions de paramètres

Comme l’explique l’entreprise dans son communiqué de presse, l’énorme système de mémoire du CS-3 est conçu pour former des grands modèles de langage (LLM) de nouvelle génération ; jusqu’à 10 fois plus grands que GPT-4 ou Gemini. Cerebras argue que « l'apprentissage d'un modèle à un billion de paramètres sur le CS-3 est aussi simple que l'apprentissage d'un modèle à un milliard de paramètres sur les GPU ».

En pratique, le CS-3 peut être configuré en clusters allant jusqu'à 2048 systèmes. Les configurations compactes à quatre systèmes permettent d’affiner des modèles 70B en une journée, tandis qu'à grande échelle, 2048 systèmes sont en mesure d’entraîner un modèle Llama 70B à partir de zéro dans le même laps de temps.

Concernant l’aspect logiciel, la dernière version de Cerebras Software Framework offre un support natif pour PyTorch 2.0. Elle supporte également la dispersion structurelle dynamique et non structurée qui peut accélérer l'entraînement - jusqu'à huit fois plus vite que les méthodes traditionnelles aux dires de l’entreprise.

Par rapport aux GPU, Cerebras met en avant deux autres facteurs. Le premier a trait à la consommation. La société souligne qu’alors que la consommation d'énergie des GPU double d'une génération à l'autre, le CS-3 double les performances tout en restant dans la même enveloppe énergétique. Parler d’une consommation doublée est exagéré, mais effectivement, les accélérateurs AMD et cGPU NVIDIA sont de plus en plus gourmands au fil des générations. Le prochain GPU Blackwell engloutirait jusqu’à 1000 W, soit 300 W de plus que Hopper. Cerebras ne communique aucune valeur pour le WSE-3, mais pour le WSE-2, il était question de 15 kW par processeur ; nous resterions donc dans ces eaux-là.

Le second concerne la facilité d’utilisation. L'entreprise prétend que l'apprentissage des grands modèles de langage sur ses systèmes nécessite jusqu'à 97 % de code en moins par rapport aux GPU. Elle donne l'exemple d'un modèle de taille GPT-3 n'ayant requis que 565 lignes de code sur sa plateforme Cerebras - un record, selon elle.

Déjà 64 systèmes CS-3 commandés par G42

Andrew Feldman, PDG et cofondateur de Cerebras, a déclaré :

« Lorsque nous nous sommes lancés dans cette aventure il y a huit ans, tout le monde disait que les processeurs à l'échelle du wafer étaient une chimère. Nous ne pourrions être plus fiers de présenter la troisième génération de notre puce d'IA révolutionnaire à l'échelle du wafer. WSE-3 est la puce d'IA la plus rapide au monde, conçue pour les derniers travaux d'IA de pointe [...] Nous sommes ravis de commercialiser WSE-3 et CS-3 pour aider à résoudre les plus grands défis de l'IA d'aujourd'hui. »

Cerebras fait état d’un carnet de commandes déjà bien rempli pour le CS-3. Le communiqué contient des déclarations intéressées des responsables du Laboratoire national d'Argonne et de la Mayo Clinic, notamment.

Déjà, la société d'intelligence artificielle G42 et Cerbras ont annoncé la construction de Condor Galaxy 3. Un supercalculateur doté de 64 systèmes CS-3 « qui fournira 8 exaFLOPs d'IA avec 58 millions de cœurs optimisés par l'IA ». Situé à Dallas, au Texas, ce Condor Galaxy 3 portera le total actuel du réseau Condor Galaxy à 16 exaFLOPs (puisque vous l'aurez compris, il existe déjà des supercalculateurs Condor Galaxy 1 et Condor Galaxy 2).

condor galaxy 3

Condor Galaxy 3 © G42

Kiril Evtimov, directeur technique du groupe de G42, s’est félicité :

« Avec Condor Galaxy 3, nous continuons à réaliser notre vision commune de transformer l'inventaire mondial de l'intelligence artificielle grâce au développement des superordinateurs d'IA les plus grands et les plus rapides au monde. Le réseau Condor Galaxy existant a formé certains des meilleurs modèles open-source de l'industrie, avec des dizaines de milliers de téléchargements. En doublant la capacité à 16 exaFLOPs, nous sommes impatients de voir la prochaine vague d'innovation que les supercalculateurs Condor Galaxy peuvent permettre. »

Vous pouvez consulter les communiqués de presse de Cerebras et G42 ici.

Un poil avant ?

Copie et plagiat de concept : maître Yoda voit le 011 comme l'icône à abattre (MAJ)

Un peu plus tard ...

256 Go de RAM chez Asus également, mais cette fois de façon un peu plus concrète

Le Wafer Scale Engine 3, fabriqué en 5 nm par TSMC et conçu pour les systèmes CS-3, s’annonce comme la puce d'IA la plus rapide de l'industrie.

4 minutes et demi, parfait pour la pause popo

Sur le comptoir, au ~même sujet

	Test • Nvidia GeForce RTX 4070 Ti
	Test • Lian Li O11 VISION
	Test • Lian Li PC-O11 Dynamic Evo
	Test • PCSpecialist Luna Series
	Test • Crucial T500 (Phison E25 + TLC 232L) & T700 (Phison E26 + TLC 232L)
	Test • PCSpecialist Fusion 14
	Test • Kioxia Exceria Pro (Phison E18 + TLC 112L)
	Test • Lian Li Galahad II LCD SL-INF 360
	Test • Lian Li PC-O11 dynamic evo XL
	Test • PCSpecialist Sigma II
	Test • Kioxia Exceria Plus G4 (Phison E31T + TLC 218L)
	Test • Crucial T710 (SM2508 + TLC 276L)