NVIDIA A100 : le nouveau GPU monstre à 54 milliards de transistors

Core Ultra 5 245K : 13 refs en stock Tendance stable
Core i5-14600k : 8 refs en stock Tendance baissière
Core Ultra 7 265K : 11 refs en stock Tendance stable
Core i5-14700k : 19 refs en stock Tendance haussière
Core Ultra 9 285K : 3 refs en stock Tendance stable
Tendance haussière
RTX 4060 ti : 58 refs en stock Tendance haussière
Ryzen 9600X : 1 ref en stock Tendance stable
RTX 4070 SUPER : 9 refs en stock Tendance baissière
RTX 4070 TI SUPER : 1 ref en stock Tendance baissière
RTX 4080 SUPER : 1 ref en stock Tendance baissière
Ryzen 9700X : 3 refs en stock Tendance stable
Ryzen 7 7700X : 3 refs en stock Tendance stable
Ryzen 9 7800X3D : 8 refs en stock Tendance haussière
ryzen 9800X3D : 7 refs en stock Tendance haussière
RTX 4090 : 3 refs en stock Tendance stable
RX 7600 : 17 refs en stock Tendance haussière
RX 7700 XT : 24 refs en stock Tendance haussière
Ryzen 9 7950X3D : 6 refs en stock Tendance stable
RX 7800 XT : 17 refs en stock Tendance haussière
RX 7900 XT : 15 refs en stock Tendance baissière
PS5 Pro : 6 refs en stock Tendance stable

La réception • Actualités • Cartes graphiques

Ironie de l’emploi du temps: à peine communiquions-nous à propos des caractéristiques de la supposée RTX 3080 Ti, tout droit sorties des antres de YouTube, que NVIDIA décide de lever le voile sur son architecture Ampère et la première « carte » (un module type mezzanine utilisant une interface NVLink propriétaire, au format SMX) l’intégrant : la A100, reposant sur la puce... roulement de tambours... GA100.

La A100 : un beau bébé ! [cliquer pour agrandir]

Pour ceux qui attendaient des chiplets, chou blanc ! Néanmoins, NVIDIA a tout de même réussi l’exploit d’intégrer 54,2 milliards de transistors dans 826mm², aidé par une gravure en 7nm de chez TSMC. À titre de comparaison, la V100 précédente, d’architecture Volta, en utilisait « seulement » 21,1 dans 815mm², sans compter les piles d’HBM. Car cette A100 est accompagnée de pas moins de 5 stacks de mémoire haute vitesse, pour un total de 40 Go de VRAM et un débit de 1,6 To/sec, soit 73 % de plus que la V100. Au niveau des connexions, ce GPU supporte les technologies de la firme Magnum IO et Mellanox sur les solutions Ethernet et InfiniBand. Pas assez clair ? Voici un petit récapitulatif:

Caractéristique	Tesla V100	Tesla A100	GA100 complet
Architecture	Volta	Ampère
Coeurs CUDA	5 120	6 912	8 192
Streaming Multiprocessor / GPU Processing Clusters	84/6	108/7	128/8
Tensor Cores	640	432 (4 par SM)	512 (4 par SM)
Fréquence Boost	1 530 MHz	1 410 MHz	Il faudrait une carte pour ça, té !
Cache L2	6 Mo	40 Mo	48 Mo
Contrôleurs mémoires	x8 512-bit	x10 512-bit	x12 512-bits
VRAM	32 Go HBM2 (900 Go/s maximum)	40 Go HBM2 (5 Stacks) (1,6 To/s maximum)	48 Go HBM2 (6 Stacks) (1,83 To/s maximum)
TDP	300 W	400 W	Pas de carte, pas de conso !
PCIe	Gen 3.0	Gen 4.0
NVLINK	2ème génération 300 Go/sec au total	3ème génération 600 Go/sec au total
Taille du die	815 mm²	826 mm²
Processus de gravure	12 nm FFN TSMC	7 nm TSMC (N7)
Performances (FP32/FP64)	15,7 TFLOPS/7,4 TFLOPS	19,5 TFLOPS/9,7 TFLOPS	Des TFLOPS sans fréquences ne sont que ruines de l'âme
Performances (F16 - Tensor Cores)	125 TFLOPS	312 TFLOPS (624 TFLOPS maximum sur des matrices creuses)
Performance (FP64 - Tensor Cores)	Non compatible	19,5 TFLOPS (sparsitude non supportée)

Comme vous pouvez le constater, la A100 utilise une version castrée de la puce GA100, très probablement pour rentabiliser le procédé de gravure coûteux et au rendement encore faible de TSMC, une caractéristique démultipliée par la taille des dies. Ainsi, la A100 n’utilise « que » sept huitièmes des unités présentes matériellement... ce qui est amplement suffisant pour dépasser Volta en matière de nombre de cœurs.

Une puce de taille ! [cliquer pour agrandir]

Le GA100 dans sa version complète

Architecturalement, le GA100 est un assemblage de 8 GPC (GPU Processing Clusters), eux-mêmes composés de 8 TPC (Thread Processus Clusters), qui regroupent 2 SM (Streaming Multiprocessors), lesquels contiennent 4 Tensor Cores. Vous l’aurez remarqué à la lecture des spécifications, le cache L2 a fait un bond d’un facteur 6,7, et est divisé en deux partitions indépendantes (mais synchronisées), permettant d’offrir une bande passante maximale 2,3 fois supérieure à celle de son prédécesseur.

Un SM version Ampère [cliquer pour agrandir]

Vous l’aurez remarqué, mais le nombre total de Tensor Cores est en baisse par rapport à Volta. Cela s’explique par leur passage en version 3 : cette nouvelle mouture permet en effet de traiter des calculs matriciels quelle que soit l’encodage des nombres: FP16, FP32, FP64, binaire, INT8, INT4, mais aussi BFLOAT16, un format popularisé par Intel pour le machine learning, et le TF32. Si vous ne connaissiez pas ce format, hé bien, nous non plus ! Cette nouveauté combine le BFLOAT16 et le FLOAT16 pour ne garder que le meilleur des deux sur... 19 bits (1 bit de signe, 8 d’exposant et 10 de mantisse). Ne cherchez donc plus de lien entre ce TF32 et les 19 bits qu’il utilise, il n’y en a point — contrairement au FP32, qui correspond aux nombres flottants sur 32 bits, ou au INT8, les entiers 8 bits ! Ces Tensors Cores supportent également le calcul sparse sur le TF32, l'INT8, le BF16 et la FP16 (sautez au paragraphe suivant pour une explication plus en détail), ce qui permet d’accélérer grandement les calculs matriciels dans certains cas spécifiques. De plus, ces Tensors Cores ont été revus en interne pour offrir un débit 2 x plus rapide (en simple et double précision non sparse) que la génération précédente, ce qui clôt totalement l’étrangeté de la « diminution » de ces unités de calcul.

tensorfloat32 tf32

Le TensorFloat, en schéma

Petite parenthèse: le calcul sparse consiste à effectuer les opérations matricielles courantes sur des matrices dites creuses, c’est-à-dire contenant une majorité de zéros. Représentable de manière plus compacte en mémoire, les matrices creuses ont une application toute particulière dans le domaine du machine learning, dans lequel de nombreux réseaux de neurones réalisent, en interne, des opérations sur les matrices creuses. Pour les TFLOPS, NVIDIA ajoute donc aux opérations réellement effectuées celle qui seraient effectuées et donnant zéro dans le cas d’une multiplication ne prenant pas en compte la sparcité, d’où les 624 TFLOPS maximaux de la puce. Vous vous doutez donc que le DLSS, qui repose justement sur du machine learning de cet acabit, devrait en bénéficier — une fois ces cœurs disponibles sur une version grand public — tout comme de l’ajoute du BFLOAT16

Pour ce qui est du calcul général, ce A100 se voit enrichi de deux nouvelles fonctionnalités: la copie asynchrone, permettant d’éviter l’utilisation du register file et du L1 lors de la copie de donnée depuis la VRAM vers la mémoire locale des SM, ainsi que les barrières asynchrones, un mécanisme supplémentaire de synchronisation des cœurs CUDA permettant, d’une part, une utilisation intelligente des copies asynchrone, mais offre également plus de flexibilité dans la gestion de la répartition des tâches, pour les programmes où la parallélisation n’est pas triviale. D’autres améliorations au niveau de l’ordonnanceur, des systèmes de débugage et de gestion des erreurs ont été effectués, ce qui devrait être grandement apprécié par les programmeurs CUDA. Notez également que la quantité de L1 (fusionnée avec l'espace de stockage local) embarqué par SM passe à 192 Ko, soit 50 % de plus que sur Volta. Entre cette augmentation, celle du L2 et la prise en charge matérielle du calcul sparse, les verts ont dû avoir de sacrés retours à propos de goulot d’étranglement mémoire .

Enfin, NVIDIA a également dans la manche un outil pour les amateurs de machines virtuelles, nommé MIG (Multi-Instance GPU). En effet, alors que les techniques habituelles, à base de PCIe passthrough, géraient le partage des ressources GPU à la granularité... du GPU, c’est-à-dire en associant ou pas une carte à une VM, la A100 permet de scinder virtuellement son GPU selon les GPC, c’est-à-dire en allouant des blocs de 1024 cœurs CUDA aux machines le requérant. À l’ère du cloud gaming, certaines entreprises doivent lorgner juteusement sur cette fonctionnalité !

Partager son GPU sans ciseaux, c'est enfin possible ! [cliquer pour agrandir]

Il faut comprendre Cloud Service Provider pour ce « CSP », soit « fournisseurs de services dans le cloud »

Avec cet A100, NVIDIA enfonce son clou comme leader incontesté des accélérateurs de calcul haute performance pour serveurs. Allié d’un écosystème puissant, le support matériel ajouté devrait sérieusement roxer du poney (et même des licornes, à ce stade). Clairement orienté machine learning — l’offre suivant logiquement la demande — l’A100 se réservera néanmoins aux nouveaux centres de calculs assez dotés financièrement pour s’en procurer. Néanmoins, l’intégration des Tensors Cores issue de Volta dans les RTX grand public a déjà prouvé que bon nombre des améliorations architecturales de la série serveur se retrouvaient, quelques années après, dans les cartes grand public. Doit-on donc s’attendre à des Tensors Cores surboostés sur les RTX3000, du 7nm et un DLSS exaltant ? Impossible de répondre avec exactitude (la HBM étant, par exemple, réservée au monde professionnel chez les verts !), mais nous attendons de pied ferme la prochaine déclinaison, plus accessible !

Si vous en voulez encore, le détail est sur le site de NVIDIA !

Un poil avant ?

RTX 3080 Ti : un paquet de rumeurs, beaucoup d'attentes !

Un peu plus tard ...

APU AMD Ryzen 4000G(E) desktop, c'est bon, on les a tous ?

Quand NVIDIA tape dans le 7 nm, ça n'est clairement pas dans la demi-mesure !

6 minutes

Sur le comptoir, au ~même sujet

	NVIDIA ressuscite, à nouveau, son architecture Ampere, avec deux cartes RTX
	Test • Nvidia GeForce RTX 4070 Ti
	Test • NVIDIA GeFORCE RTX 3080
	Test • Nvidia GeForce RTX 4090
	Test • Nvidia GeForce RTX 4080
	NVIDIA RTX 4060 : -20 % qu'une 4060 Ti / RX 7600 mais +25 % de la 3060
	NVIDIA parachèverait ses GeForce RTX 5090 et RTX 5080, des cartes bien énergivores
	GeForce RTX 50 : NVIDIA tente de noyer le poisson avec des carabistouilles
	GeForce RTX 50 Series : NVIDIA dévoile ses quatre fantastiques (MAJ)
	GeForce RTX 40 Series : NVIDIA fait le ménage avant Blackwell, un seul GPU encore produit
	NVIDIA pèse 1870 milliards et ce n'est pas grâce aux RTX 40 !
	NVIDIA : plus de dollars, moins de GeForce RTX 40

Suivez-nous sur G.Actualités

Les 23 ragots

Les ragots sont actuellement
ouverts à tous, c'est open bar !

Changer l'ordre d'affichage des ragôts
Vous devez être identifié pour changer cette option !

par Un médecin des ragots en Île-de-France, le Lundi 18 Mai 2020 à 16h03

par Matthieu S., le Vendredi 15 Mai 2020 à 10h29

Précisons que ce n'est pas du 7 nm EUV (N7+ chez TSMC), il s'agit "que" du 7 nm DUV (N7)

Je crois qu'il a été à un moment précisé par AMD ou TSMC que les nouvelles annonces parleront de N7 sans préciser si c'est du N7+ ou du N7 Pro. Le N7 est probablement passé en N7 Pro sur les nouvelles gravures.

par Un médecin des ragots en Île-de-France, le Lundi 18 Mai 2020 à 15h54

Ah oui, j'avais pas remarqué les 400W. Du coup l'optimisation du 7nm Ampère par rapport au 12nm Turing n'est pas au rendez-vous.
Du coup on comprend les discussions sur la baisse de courant engendrant une grosse diminution de la conso. C'était pas pour consommer moins que Turing, mais pour faire arriver à passer l'augmentation de puissance de calcul. Ca ne fait que souligner les bonnes performances par Watt obtenues par Turing sur du 12nm (16nm amélioré ).
Il faut bien souligner que 400W est hors specs des GPU actuels en deux alims PCI 8 broches (limités tout additionné à 375W). Il en faudra certainement 3 (ce qu'une bonne alim à partir de 850W devrait savoir faire)

par Un hardeur des ragots en Auvergne-Rhône-Alpes, le Samedi 16 Mai 2020 à 12h16

400 WATTS! Je commence à voir Rouge.

par Capello-Viral en Île-de-France, le Vendredi 15 Mai 2020 à 17h23

Pire que des poupées russes ces puces !

par Matthieu S., le Vendredi 15 Mai 2020 à 10h29

par Un médecin des ragots en Île-de-France, le Jeudi 14 Mai 2020 à 17h11

Nvidia fait du saute-mouton sur 3 générations de gravure. D'un faux 12nm, en fait un 16nm+, par dessus le 10nm, puis le 7nm DUV, elle passe directement au 7nm EUV. Quoi de plus logique qu'on passe de 21 milliards à 54 milliards de transistors. Ce qui va être intéressant c'est de voir comment ils se démerdent niveau consommation. Je sens quand même qu'en dehors de gros caches supplémentaires et de fonctionnalités RTX et IA complémentaires, le GPU ne va pas tirer sur toutes ses possibilités en même temps, d'où le secret d'une conso maintenue. Au vu des chiffres, la partie GPU traditionnelle ne va d'ailleurs pas pulvériser Volta à hauteur de l'augmentation de transistors, loin s'en faut.
Bref, ça devrait être plus spectaculaire au niveau des gammes RTX puisque le GPU va augmenter ses possibilité sur des fonctions déjà existantes.

Précisons que ce n'est pas du 7 nm EUV (N7+ chez TSMC), il s'agit "que" du 7 nm DUV (N7)

par Popa en Île-de-France, le Vendredi 15 Mai 2020 à 08h31

Sérieux , les mecs annoncent 400W de TDP.
Bon ben on va passer de 4 DGX V100 par baie à 3 DGX A100 par baie ... et on va devoir pousser les clims. Le bon point c'est que ça va pas être trop dur à câbler proprement comme baies ...

par Nicolas D., le Vendredi 15 Mai 2020 à 07h43

par zaibaker, le Jeudi 14 Mai 2020 à 23h49

Super intéressé par la fonctionnalité, pratique pour scinder le PC en 2 instances.

J'ai toujours été intéressé par le GPU passthrough, surtout au vu du nombre de coeurs accessible désormais (merci AMD).

Me faire une machine avec la possibilité de diviser son unique carte gaming bien costaud pourrait être super intéressant et justifier un achat plus cher que prévu si le rapport puissance/prix est intéressant plutôt qu'une solution à plusieurs GPU.

Un espoir de voir le comptoir nous en reparler une fois les cartes ampère testés?

Du GPU Passthrough ou de la possibilité de scinder sa carte ? Dans les deux cas, l'option n'est pas écartée

à condition que la fonctionnalité soit présente sur les GPU gaming, ce qui est loin d'être certain.

par Thomas N., le Vendredi 15 Mai 2020 à 06h40

par Thibaut G., le Vendredi 15 Mai 2020 à 00h17

Source jemporte merci

Source : wallah.

par Une ragoteuse à forte poitrine embusqué, le Vendredi 15 Mai 2020 à 04h58

par Thibaut G., le Jeudi 14 Mai 2020 à 22h32

annoncé où ?

Annoncé

, je vais dire fuite

par avec les ?

par Un ragoteur des lumières en Colombie-Britannique, le Vendredi 15 Mai 2020 à 04h00

Pas top les perfs.
On dirait meme que ils perdent meme en perf par core et par transistor par rapport a la generation actuelle..

25% de perf au minimum en plus pour une fréquence boost de -8% avec des nouvelles fonctionnalités
On dirait qu'ils perdent en consommation par core surtout.
Comme toi j'ai sorti ma montre calculatrice made in japan.

par Un ragoteur des lumières en Colombie-Britannique, le Vendredi 15 Mai 2020 à 04h00

Pas top les perfs.
On dirait meme que ils perdent meme en perf par core et par transistor par rapport a la generation actuelle..

par Thibaut G., le Vendredi 15 Mai 2020 à 00h17

par Un médecin des ragots en Île-de-France, le Vendredi 15 Mai 2020 à 00h14

Non, Arcturus c'est un GPGPU pur sans partie graphique. C'est pour ça qu'il consomme moins.
On sait pas si ce sera du RDNA2 ou du Vega modifié (ça semble être ce dernier).
Il sera donc en concurrence avec le tesla de Nvidia. Nvidia fait comme AMD le faisait, des cartes sans sortie graphique mais utilisant le GPU capable de sortie graphique. Ce ne sera pas le cas d'Arcturus.
A moins d'un gros revirement, Arcturus est un développement séparé de la branche gaming et affichage pro. Ce sera une unité de calcul parallèle, point.

Source jemporte merci

par Un médecin des ragots en Île-de-France, le Vendredi 15 Mai 2020 à 00h14

par Thibaut G., le Jeudi 14 Mai 2020 à 22h28

A supposer que RDNA2 soit Arcturus, possible, encore que nous n'avons là aussi aucune date, donc celle de cet été est encore une rumeur qui d'un coup de baguette magique s'est transformé en vérité

RTX 3080 Ti : un paquet de rumeurs, beaucoup d'attentes !

APU AMD Ryzen 4000G(E) desktop, c'est bon, on les a tous ?

Quand NVIDIA tape dans le 7 nm, ça n'est clairement pas dans la demi-mesure !

Sur le comptoir, au ~même sujet

les dernières brèves, en bref, pour aller vite, toussa.

les derniers articles, pointus, précis, comme la mouette.

pour les médias du Comptoir 2006 - 2099 (ça, c'est fait)