Avec 150 MW à la pompe, xAI Colossus peut faire fonctionner ses 100 000 GPU simultanément |
————— 14 Novembre 2024 à 18h52 —— 2585 vues
Avec 150 MW à la pompe, xAI Colossus peut faire fonctionner ses 100 000 GPU simultanément |
————— 14 Novembre 2024 à 18h52 —— 2585 vues
Au même titre que les fermes de minage, le développement des centres de données IA implique une demande croissante d’énergie. En témoigne le cas xAI Colossus, la « Gigafactory of Compute » d’Elon Musk. En début de mois, la TVA (pas la taxe prélevée par l’état qui gonfle la facture de vos achats, mais la Tennessee Valley Authority) a validé l’accord qui permet au site de pomper plus de 150 mégawatts, puissance nécessaire pour faire fonctionner de concert les 100 000 GPU H100.
Cette installation est située à Memphis. Toute entreprise utilisant plus de 100 mégawatts doit obtenir l'approbation de la TVA ; elle a donc finalement été délivrée pour xAI Colossus le 7 novembre dernier (soit quelques heures après l'élection de Donal Trump ; libre à vous de faire un rapprochement).
Au départ, le xAI Colossus n’avait accès qu’a 8 MW provenant du réseau. Afin de contourner cette limite, xAI (l'entreprise spécialisée dans l'IA créée par Elon Musk en juillet 2023) avait fait venir 14 générateurs mobiles de Voltagrid, ce qui lui avait permis d’obtenir environ 35 MW supplémentaires (grâce à des générateurs à gaz naturel CAT 3520 sur roues qui fournissent 2,5 MW chacun).
Seems to be 14 those puppies at 2.5MW a piece, so 35MW + the 8MW, basically enough for 1 32k island if you're limiting power some
— Dylan Patel (@dylan522p) July 23, 2024
With 50MW online should be good enough for 2 island
Question is how to get to the 100k, either the substation gotta be ahead of schedule or more these pic.twitter.com/qiF31pbtkd
Jeudi dernier, la TVA a donc approuvé une demande d'un accord de puissance supérieure à 100 mégawatts avec la CTC Property LLC, une société affiliée à xAI. Cette autorisation permet à xAI de se connecter aux systèmes de TVA et de MLGW (Memphis Light, Gas and Water).
Vous l’imaginez, les locaux et défenseurs de l’environnement ne voyaient pas ce raccordement d’un très bon œil. D’autant plus que fin octobre, Musk a fait part de sa volonté d’atteindre 200 000 GPU Grace Hopper d'ici peu.
Soon to become a 200k H100/H200 training cluster in a single building https://t.co/2YvdmqXp1W
— Elon Musk (@elonmusk) October 28, 2024
Concrètement, l’installation nécessite 4,9 millions de litres d'eau par jour pour être refroidie. En outre, les moyens qui devront être mis en œuvre pour produire l’électricité supplémentaire inquiètent les habitants.
Le site DCD rapporte les propos d’Amanda Garcia, avocate principale au Southern Environmental Law Center :
Nous sommes alarmés par le fait que le conseil d'administration de la TVA ait approuvé la demande d'énergie de xAI sans étudier l'impact qu'elle aura sur les communautés locales. L'année dernière, TVA a remis en question la fiabilité de l'énergie et a proposé une nouvelle usine de gaz polluants à South Memphis. Aujourd'hui, les membres du conseil d'administration ont exprimé leur inquiétude quant à l'impact des grands utilisateurs industriels d'énergie sur les factures d'électricité dans toute la vallée du Tennessee. TVA devrait donner la priorité aux familles plutôt qu'aux centres de données comme xAI ».
L’article ajoute que des des militants ont déjà critiqué l'impact du projet sur la qualité de l'air. KeShaun Pearson, président de Memphis Community Against Pollution, a résumé : « [...] nous méritons un air pur, pas un asphyxie silencieuse ».
Cela n’a donc à l'évidence pas suffi à convaincre les membres du conseil d'administration de TVA, puisqu’ils ont donné leur feu vert à MLGW pour fournir l'énergie supplémentaire. Nous vous passons la déclaration complète. Dans les grandes lignes, c’est en mode « nous avons pris en compte vos inquiétudes, mais nous essayons de concilier vos craintes avec la nécessité de fournir des emplois et de recevoir des investissements, blablabla ; nous nous engageons à fournir à tous nos clients une énergie abordable et fiable ».
De son côté, xAI s'est engagée à construire le plus grand système de membranes céramiques au monde pour traiter ses eaux grises, et d’installer des batteries de stockage Tesla Megapack à prix réduit afin d’améliorer la stabilité du réseau électrique de Memphis. La société va également investir 24 millions de dollars dans une nouvelle sous-station électrique. Doug McGowen, PDG de MLGW, a déclaré précédemment que xAI serait en mesure de réaliser ce projet plus rapidement et à moindre coût que MLGW (DTC précise que xAI recevra des remises mensuelles de la part de la compagnie d'électricité jusqu'à ce que ses coûts soient récupérés et que MLGW devienne propriétaire de la sous-station).
Pour revenir à des considérations plus basiques, NVIDIA nous avait envoyé un communiqué le 29 octobre annonçant que « le cluster de supercalculateurs Colossus de xAI, a atteint une échelle massive intégrant 100 000 GPU NVIDIA Hopper Tensor Core, grâce à la plateforme de mise en réseau Ethernet NVIDIA Spectrum-X ». Le document ajoutait que « ce supercalculateur de pointe a été construit par xAI et NVIDIA en 122 jours seulement, au lieu des délais habituels pour les systèmes de cette taille qui peuvent prendre plusieurs mois, voire plusieurs années. Il s'est écoulé 19 jours entre le moment où le premier rack a été installé et le début de la production ».
Si vous souhaitez en découvrir davantage sur l’infrastructure, le plus simple est de visionner la séquence ci-dessous proposée par nos confrères de ServeTheHome. Elle est titrée Inside the World's Largest AI Supercluster xAI Colossus.