Ordinateurs

Le nouveau supercalculateur Cerebras Wafer-Scale ‘Andromeda’ a 13,5 millions de cœurs

Cerebras a dévoilé son nouveau supercalculateur IA Andromeda au SC22. Avec 13,5 millions de cœurs répartis sur 16 systèmes Cerebras CS-2, Andromeda dispose d’un exaflop de calcul AI et de 120 pétaflops de calcul dense. Son cheval de bataille informatique est le processeur multicœur à l’échelle d’une tranche de Cerebras, WSE-2.

Chaque plaquette WSE-2 possède trois plans physiques, qui gèrent l’arithmétique, la mémoire et les communications. À lui seul, les 40 Go de mémoire SRAM embarquée du plan de mémoire peuvent contenir une mémoire entière BERTGRAND. Mais le plan arithmétique compte également quelque 850 000 cœurs indépendants et 3,4 millions de FPU. Ces cœurs ont une bande passante interne collective d’environ 20 Po/s, sur le maillage cartésien du plan de communication.

Chacun des processeurs à l’échelle des gaufrettes d’Andromeda a la taille d’une assiette à salade, 8,5″ de côté. Image : Cérébras

Cerebras met l’accent sur ce qu’il appelle une « mise à l’échelle linéaire presque parfaite », ce qui signifie que pour un travail donné, deux CS-2 feront ce travail deux fois plus vite qu’un, trois prendront un tiers du temps, etc. Comment? Les systèmes SC-2 d’Andromeda reposent sur la parallélisation, a déclaré Cerebras, des cœurs de chaque tranche au tissu SwarmX qui les coordonne tous. Mais les talents du supercalculateur s’étendent au-delà de ses 16 nœuds déjà impressionnants. En utilisant la même parallélisation des données, les chercheurs peuvent associer jusqu’à 192 systèmes CS-2 pour une seule tâche.

Andromeda évolue avec Epyc Wins

Andromeda obtient ses données d’une banque de processeurs AMD EPYC 3 à 64 cœurs. Ces processeurs, a déclaré AMD par e-mail, fonctionnent en tandem avec les plaquettes CS-2, effectuant « une large gamme de pré- et post-traitements de données ».

AMD-Epyc-Feature-3

« AMD EPYC est le meilleur choix pour ce type de cluster », nous a déclaré Andrew Feldman, fondateur et PDG de Cerebras, « car il offre une densité de cœur, une capacité de mémoire et des E/S inégalées. Cela en a fait le choix évident pour alimenter en données le supercalculateur Andromeda.

Entre ses seize moteurs à l’échelle d’une tranche de deuxième génération, Andromeda fonctionne sur 18 164 cœurs Epyc 3. Cependant, ce débit a un prix. Au total, le système consomme environ 500 kilowatts lorsqu’il fonctionne à son maximum.

Allez grand ou rentrez chez vous

Andromeda n’est pas le supercalculateur le plus rapide au monde. Frontier, un supercalculateur du laboratoire national d’Oak Ridge capable de faire des simulations d’armes nucléaires, a dépassé la barre des exaflop plus tôt cette année. Frontier fonctionne également à une précision plus élevée, 64 bits à la demi-précision 16 bits d’Andromeda. Mais toutes les opérations n’ont pas besoin d’une précision de niveau nucléaire. Andromède n’est pas en essayant être Frontière.

«Ils sont une plus grosse machine. Nous ne les battons pas. Leur construction a coûté 600 millions de dollars. C’est moins de 35 millions de dollars », a déclaré Feldman.

Andromeda n’essaie pas non plus d’usurper Polaris, un cluster de plus de deux mille GPU Nvidia A100 à Argonne National Lab. En effet, comme Andromeda, Polaris lui-même utilise des cœurs AMD EPYC pour effectuer le pré- et le post-traitement. Au lieu de cela, chaque supercalculateur excelle dans un type de travail légèrement différent.

D’une manière générale, les CPU sont des généralistes tandis que les ASIC (y compris les GPU) et les FPGA sont plus spécialisés. C’est pourquoi les crypto-mineurs adorent les GPU. La blockchain implique beaucoup de calculs répétitifs. Mais Andromeda est encore plus spécialisé. Il excelle dans la gestion de grandes matrices clairsemées – des tableaux multidimensionnels de données tensorielles qui sont principalement des zéros.

L’IA est extrêmement gourmande en données, à la fois dans le pipeline et dans le calcul réel de l’IA. Ainsi, a déclaré Feldman, Andromeda utilise des processeurs Epyc pour rationaliser le processus. « Les machines basées sur AMD Epyc sont installées sur des serveurs en dehors des Cerebras CS-2 », a déclaré Feldman, pour coordonner et préparer les données. Ensuite, les tissus SwarmX et MemoryX d’Andromeda prennent le relais.

Andromeda, chez lui dans son centre de données de Santa Clara. Image : Cérébras

Un cluster GPU doit assurer la coordination entre chaque cœur, carte et rack de serveur. Cela entraîne un retard inévitable. Il existe également une surcharge de mémoire exponentielle à mesure que les réseaux deviennent plus grands et plus complexes. En revanche, WSE-2 gère une grande partie de son pipeline d’informations au sein du même matériel. Dans le même temps, les processeurs multicœurs à l’échelle des tranches de Cerebras peuvent faire plus sur un seul (gigantesque) morceau de silicium qu’un CPU ou un GPU grand public. Cela permet à Andromeda de gérer des tâches profondément parallèles.

Grands modèles de langage

De la même manière qu’une voiture de course de Formule 1 est gaspillée dans les rues de surface, Andromeda trouve son rythme à grande échelle. Cela n’est nulle part plus évident que son succès fulgurant avec les grands modèles de langage (LLM).

Imaginez une feuille de calcul Excel avec une ligne et une colonne pour chaque mot dans toute la langue anglaise. Les modèles de traitement du langage naturel utilisent des matrices, des grilles spéciales semblables à une feuille de calcul, pour suivre les relations entre les mots. Ces modèles peuvent avoir des milliards, voire des dizaines de milliards de paramètres. Leurs séquences peuvent être longues de 50 000 jetons. On pourrait penser qu’à mesure que l’ensemble d’entraînement grandissait, cette surcharge exponentielle frapperait à nouveau. Mais les LLM fonctionnent souvent en utilisant les tenseurs clairsemés qu’Andromeda aime.

Les seize nœuds CS-2 d’Andromeda. Image : Cérébras

Les clients d’Andromeda, dont AstraZeneca et GlaxoSmithKline, signalent le succès de l’utilisation des LLM sur Andromeda pour rechercher des «omiques», y compris le génome et l’épigénome COVID. Au cours d’une expérience au National Energy Technology Lab, des scientifiques ont décrit un travail «GPU impossible» avec Andromeda que Polaris ne pouvait tout simplement pas terminer. Et il se peut que cela ne calcule pas les chiffres pour les bombes nucléaires, mais Andromeda travaille également sur la recherche sur la fusion.

« Associer la puissance de l’IA du CS-2 à la simulation de précision de Lassen crée un ordinateur CogSim qui ouvre de nouvelles portes pour les expériences de fusion par confinement inertiel (ICF) au National Ignition Facility », a déclaré Brian Spears du Lawrence Livermore National Lab.

Andromède rencontre le milieu universitaire

Andromeda vit actuellement à Colovore, un centre de données HPC à Santa Clara. Mais Cerebras a également alloué du temps aux universitaires et aux étudiants diplômés pour utiliser gratuitement Andromeda.

Et il y a une autre chose que les étudiants diplômés, en apprentissage automatique et ailleurs, voudront peut-être noter : Andromeda fonctionne bien avec Python. Dans l’apprentissage automatique, ce sont des enjeux de table, mais nous voulons dire vraiment bien. Vous pouvez envoyer un travail d’IA à Andromeda, explique Cerebras, « rapidement et sans douleur à partir d’un ordinateur portable Jupyter, et les utilisateurs peuvent passer d’un modèle à un autre en quelques frappes ».

« Il est extraordinaire que Cerebras ait offert aux étudiants diplômés un accès gratuit à un cluster aussi grand », a déclaré Mateo Espinosa, doctorant à l’Université de Cambridge au Royaume-Uni. Espinosa, qui travaillait auparavant à Cerebras, travaille avec Andromeda pour sa thèse sur l’intelligence artificielle explicable. « Andromeda fournit 13,5 millions de cœurs d’IA et une mise à l’échelle linéaire presque parfaite sur les plus grands modèles de langage, sans la douleur du calcul distribué et de la programmation parallèle. C’est le rêve de tout étudiant diplômé en ML.

L’apprentissage automatique doit nager en amont dans un fleuve de données sans cesse croissant. Jusqu’à un certain point, nous pouvons simplement ajouter plus de matériel informatique à la tâche. Mais au sein et entre les réseaux, la latence commence à s’accumuler rapidement. Pour obtenir la même quantité de travail en un temps donné, vous devez consacrer plus d’énergie au problème. Le volume considérable de données fait du débit son propre goulot d’étranglement. Ce « triple point » est l’endroit où Cerebras cherche à faire sa marque.

Toutes les images d’Andromède sont une gracieuseté de Cerebras.

Maintenant lis:

Bouton retour en haut de la page