Habana Labs : une start-up Israëlienne dans le hardware dédiée à l' IA |
————— 16 Décembre 2019 à 15h18 —— 8162 vues
Habana Labs : une start-up Israëlienne dans le hardware dédiée à l' IA |
————— 16 Décembre 2019 à 15h18 —— 8162 vues
Dans la traînée de la folie furieuse accompagnant le machine learning, de nombreuses start-up ont vu le jour. Alors que certaines sont d’un intérêt... douteux dirions-nous, d’autres ont l’air d’en avoir un peu plus dans le pantalon. C’est le cas d’Habana Labs, une jeune entreprise née en 2016 et cumulant à l’heure actuelle quelque 75 millions de dollars d’investissements. Le nom vous est familier ? Bonne mémoire, c’est bien la seconde fois que ce nom se retrouve sur notre comptoir. Pourtant, plutôt que de venir se murger sur notre comptoir, l’équipe a bien bossé et propose à l’envoi depuis un an deux puces, une réservée à l’inférence et l’autre à l’entraînement.
Toutes deux gravées en 16 nm par TSMC, leur structure demeure extrêmement similaire, et pour cause : seule la plus petite était prévue à la base ; la version boostée étant le résultat de légers ajouts plus que d’un remaniement total. Cette première se nomme Goya et porte la référence HL-1000. Elle embarque entre 4 et 16 Gio de DDR4 sur deux canaux pour une consommation maximale de 200 W (et aux alentours de 100 W en consommation moyenne). Côté cœurs de calcul, le bousin embarque 8 TPC (Tensor Processor Core) et un GEMM engine, les premiers étant des CPU VLIW programmables dont l’interface est designée pour être contrôlable de manière performante en C, et le second servant uniquement à de la multiplication matricielle — tous deux supportant la demi, simple et double précision. Fait amusant, la puce n’est pas équipée de caches, mais de scratchpads, un local par TPC et un partagé pour toute la puce.
La version Goya, pour l’inférence, reprend les grandes lignes, mais rajoute 10 interfaces 100 Gb Ethernet afin de contrôler le bousin (le RDMA sauce RoCE étant intégré) via un protocole déjà existant et assure sa scalabilité. La DDR4 est également remplacée par 4 piles de HBM2 pour un total de 32 Gio ; et le BFLOAT16, un système d’organisation mémoire spécialement dédié au machine learning est également de la partie. Rajoutez à cela quelques modifications des TPC pour plus de flexibilité, et voilà le travail !
Gaudi : la version pour l’entraînement
Avec un tel portfolio, certes encore peu étendu — il n’est pas question d’IoT ni même d’accélérateur embarqué —, pas étonnant qu’Intel soit sur ses gardes et réfléchisse à un rachat... d’autant plus que la prochaine génération est prévue en 7 nm, et devrait apporter des gains substanciels. De quoi voir une nouvelle gamme d’accélérateurs en 2020-2021, pourquoi pas couplée avec la partie Movidius ? (Source : WikiChip)
Un poil avant ?GIGABYTE sera aussi au régime pour ses références à base de 5500 XT | Un peu plus tard ...Ventes de jeux vidéo : la razzia continue ! |