AMD annonce ses Radeon RX 7900 XT & XTX |
————— 04 Novembre 2022 à 12h07 —— 28318 vues
AMD annonce ses Radeon RX 7900 XT & XTX |
————— 04 Novembre 2022 à 12h07 —— 28318 vues
AMD a donc levé hier soir une partie du voile sur sa nouvelle architecture RDNA 3, au travers d'un nouveau GPU Navi 3x (probablement 31, mais AMD ne le précise pas) et des premières cartes l'utilisant, à savoir les Radeon RX 7900 XTX & RX 7900 XT. Que faut-il en retenir ?
Tout d'abord, il s'agit du premier GPU à adopter l'approche en chiplet, que le concepteur utilise sur CPU depuis Zen 2. En pratique ici, 2 types de chiplets vont donc cohabiter :
L'avantage de cette approche, c'est qu'elle va permettre davantage de flexibilité au niveau de la production, mais aussi du "calibrage" des différents GPU. Ainsi, l'onéreux process 5 nm de TSMC est réservé au GCD, qui va profiter à plein des gains en termes de performance du procédé de gravure, en particulier pour limiter la puissance électrique nécessaire. Les MCD moins sensibles à cette problématique, peuvent se contenter d'un nœud de gravure moins performant (et donc moins onéreux), ici le 6 nm de TSMC (optimisation du node 7 nm). AMD peut aussi varier le nombre MCD accompagnant le GCD pour ajuster les coûts et les performances au sein de sa gamme : ainsi la 7900 XTX en utilisera 6, contre 5 sur la version XT. Cela conduira à un L3 max de 96 Mo (80 Mo sur la XT), en berne par rapport aux 128 Mo de RDNA2.
La difficulté de l'approche en chiplet sur un GPU, provient des débits gigantesques nécessaires entre die. Pas d'interposer ici comme à l'époque des premières puces utilisant la HBM, mais l'utilisation d'une technologie de packaging spécifique qu'AMD nomme Elevated Fannout Bridge (EFB), intronisée sur les accélérateurs CDNA 2 des rouges. Ainsi, 5,3 To de données peuvent transiter chaque seconde par ce biais entre dies, soit un peu plus de 880 Go/s entre chaque MCD et le GCD. AMD indique qu'au global, cette approche permet d'obtenir une bande passante mémoire en pic jusqu'à 2,7x plus élevée qu'avec RDNA 2 (avec de la GDDR6 plus rapide et un bus 50% plus large).
Du côté des unités de calcul "traditionnelles", si RDNA 2 n'avait presque pas évolué par rapport à RDNA, ce n'est pas le cas de cette version 3. Les Stream Processors (SP) sont toujours regroupés au sein d'unités SIMD32, à raison de 2 par Compute Unit (CU). Leur nombre (96 max. soit 6144 SP) progresse finalement peu en comparaison du plus gros GPU RDNA 2 (80 CU / 5120 SP), mais elles se voient dotées de la capacité à traiter 2 instructions par cycle (Dual Issue). Comme toujours, le diable se cache dans les détails de l'implémentation et il ne sera possible de profiter de cette Dual issue, qu'à condition expresse que le compilateur soit capable d'extraire la seconde instruction d'une même Wavefront.
Ainsi, le doublement du débit des unités de calcul ne sera possible que dans le meilleur des cas et pas systématiquement. De quoi afficher de gros chiffres brutes à l'instar d'Ampere et Lovelace pour la puissance de calcul en FMA FP32, mais qui ne sont retrouverons pas forcément en pratique de chaque côté. Un mot sur les unités dédiées qui évoluent également. Ainsi, AMD suit la tendance initiée par Nvidia et poursuivie par Intel, avec l'intégration d'unités dédiées à l'accélération de l'IA. Les rouges sont plutôt avares sur leurs capacités pour l'heure, il s'agit à n'en pas douter d'équivalents aux Tensor Cores, reste à voir si un usage dans le domaine ludique en sera fait.
Autre évolution importante, AMD a revu ses unités dédiées à l'accélération du Ray Tracing. La première itération de ses Ray Accelerator s'est montrée plutôt décevante. Un des points que nous avions soulevé concernant leur contre-performance, provenait de l'absence de traitement dédié pour la constitution et la traversée du BVH, qui devaient être effectuées par les unités SIMD via un shader. Le problème d'une telle approche, vient de l'inadéquation de l'organisation SIMD des unités de calculs pour ce genre de tâche (Pointer Chasing). RDNA3 intègre désormais la prise en charge de la traversée du BVH directement au sein des Ray Accelerators, qui voient également leur débit brut progresser de 50 %.
Autre spécificité de RDNA3, le découplage des fréquences entre les unités de calcul et le reste du GPU au sein GCD. Ainsi, les premières pourront se limiter à 2,3 GHz contre 2,5 GHz pour les autres éléments. L'objectif affiché est de maitriser la consommation électrique, et rester donc dans une enveloppe raisonnable, sachant que les fréquences élevées se paient souvent très chères à ce niveau. On peut par contre penser que des modèles customs disposant de 3 connecteurs à 8 broches, seront en capacité d'augmenter sensiblement cette valeur et donc les performances, au prix d'une consommation bien supérieure. Un mot sur l'interface : AMD ne le précise pas, nous supposons donc que ces RX 7900 n'utilisent pas le PCIe Gen 5 mais se limite à l'instar d'Ada, à la version 4.0.
Les moteurs d'affichage et vidéo progressent aussi notablement. Ainsi, en sus du décodage AV1, RDNA3 propose également l'encodage de ce format. Les rouges indiquent que la fréquence de ce media engine progresse de 80 % autorisant un décodage/encodage simultané de 2 flux H.264/265 (nous ignorons si c'est aussi le cas pour l'AV1). Coté affichage et contrairement à son concurrent vert, AMD a décidé d'adopter la dernière norme DisplayPort 2.1, doublant le débit par rapport à la version 1.4. Un avantage indéniable pour le 8K, quadruplant le besoin en bande passante, faut-il encore avoir un tel écran et les contenus / ressources adaptés.
Résumons donc les nouvelles venues au sein du tableau suivant. Une précision : depuis Ampere, Nvidia a doublé le nombre d'unités de calcul FP32 au sein des Cuda Core (CC ou SP chez AMD). Pour des raisons marketing, ces unités FP32 sont devenues des CC (les gros chiffres sont vendeurs), sans que cela soit réellement le cas d'un point de vue de leur définition en comparaison des générations antérieures. AMD a semble-t-il (ce point mérite d'être confirmé en l'absence de document l'attestant pour l'heure) lui aussi doublé le nombre d'ALU au sein de ses SP avec RDNA 3, mais ne les présente pas comme un doublement de leur nombre, ce qui nous parait plus correct compte tenu de l'historique des dénominations.
C'est pourquoi nous avons ajouté une colonne FP32 pour aller au-delà des appelations marketing. Notez que comme indiqué précédemment, d'un côté comme de l'autre (pour des raisons différentes), ce doublement du nombre d'unités FP32 ne se traduira pas forcément par un doublement de la puissance de calcul pour toutes les tâches, en particulier celles ludiques. Pour le dire autrement et très "schématiquement" : un flop/s Ampere(Ada)/RDNA 3 ne vaudra pas systématiquement un flop/s Turing/RDNA2, une fois traduit en performance ludique.
Cartes | GPU | Fréq. Boost GPU (MHz) | Fréq. Mémoire (MHz) | SP * | FP32 | TMU | ROP | Taille mémoire (Go) | Bus mémoire (bits) | Calcul SP (Tflops) | Bande Passante (Go/s) | TGP (W) |
---|---|---|---|---|---|---|---|---|---|---|---|---|
RX 6800 | Navi 21 | 1815 |
1988 |
3840 | 3840 | 240 | 96 | 16 | 256 | 13,9 | 509 | 250 |
RX 6800 XT | Navi 21 | 2015 | 1988 | 4608 | 4608 | 288 | 128 | 16 | 256 | 18,6 | 509 | 300 |
RX 6900 XT | Navi 21 | 2015 | 1988 | 5120 | 5120 | 320 | 128 | 16 | 256 | 20,6 | 509 | 300 |
RX 6950 XT | Navi 21 | 2100 | 2238 | 5120 | 5120 | 320 | 128 | 16 | 256 | 21,5 | 573 | 335 |
RX 7900 XT | Navi 3x | 2400 | 2500 | 5376 | 10752 | 336 | 192 | 20 | 320 | 51,6 | 800 | 300 |
RX 7900 XTX | Navi 3x | 2500 | 2500 | 6144 | 12288 | 384 | 192 | 24 | 384 | 61,4 | 960 | 355 |
RTX 3080 | GA102 | 1710 | 1188 | 4352 | 8704 | 272 | 96 | 10 | 320 | 29,8 | 760 | 320 |
RTX 3080 12 Go | GA102 | 1710 | 1188 | 4480 | 8960 | 280 | 96 | 12 | 384 | 30.6 | 912 | 350 |
RTX 3080 Ti | GA102 | 1665 | 1188 | 5120 | 10240 | 320 | 112 | 12 | 384 | 34,1 | 912 | 350 |
RTX 3090 | GA102 | 1695 | 1219 | 5248 | 10496 |
328 |
112 | 24 | 384 | 35,6 | 936 | 350 |
RTX 3090 Ti | GA102 | 1860 | 1313 | 5376 | 10752 | 336 | 112 | 24 | 384 | 40 | 1008 | 450 |
RTX 4080 12 Go | AD104 | 2610 | 1313 | 3840 | 7680 | 240 | 80 | 12 | 192 | 40.1 | 504 | 285 |
RTX 4080 | AD103 | 2505 | 1400 | 4864 | 9728 | 304 | 112 | 16 | 256 | 48.7 | 717 | 320 |
RTX 4090 | AD102 | 2520 | 1313 | 8192 | 16384 | 512 | 176 | 24 | 384 | 82.6 | 1008 | 450 |
* Stream Processor (Cuda Core chez Nvidia)
Quid de la tarification et disponibilité ? A respectivement 999$ et 899$ HT, on devrait se retrouver avec des tarifs respectifs en € TTC, aux alentours des 1225 € et 1100 € au taux de change actuel. Elles devraient donc être bien plus accessibles que la RTX 4090, mais cette dernière devrait conserver un avantage significatif côté performances, A voir ce qu'il en sera face à la RTX 4080, qui sera commercialisée dans une dizaine de jours, soit un mois avant ce duo.
Un poil avant ?Vers un risque de surproduction de semiconducteur d'ici 2025 ? | Un peu plus tard ...Zhaoxin lance de nouveaux CPU x86 : les KH-4000 et les KX-6000G |