COMPTOIR
register

×

Ouh my god que c'est beaucoup de pixels pour un die shot !

Il est déjà là, le die shot de RDNA 3, avec tout plein de rumeurs sur son architecture
Ouh my god que c'est beaucoup de pixels pour un die shot !

Alors que le concurrent bleu n’est pas vraiment fan des dies shots de produits tout juste voire pas encore sortis (nous n’y sommes presque pour rien), voilà que du côté rouge, rien n’est fait pour conserver la chose secrète, loin de là. En effet, une photo du CGD (die de calcul) était présente en relativement haute définition dans la présentation des nouvelles RX 7900, de quoi laisser le cher @Locuza_ travailler sur ses annotations habituelles… ce qui réserve bien des surprises ! Si nous apprenions via le mystérieux Cortek que, selon ses sources, les fréquences n’augmenteraient que de 3 % en overclocking, ce n’est pas la seule caractéristique étonnant à première vue de la puce.

 

Ouh my god que c'est beaucoup de pixels pour un die shot ! [cliquer pour agrandir]

 

 

En effet, RDNA 3 ayant abandonné le pipeline legacy, l’agencement de certains composants se retrouve fortement modifié. En particulier, le command front-end est relativement plus petit que sur RDNA 2, laissant penser que les fonctions de calcul géométriques qui y étaient précédemment intégrées sont désormais réalisées entièrement de manière non native par les CU. De plus, le L2 semble avoir une structure légèrement inattendue, car non uniformément dense. Comprenez que les blocs proches des interfaces seraient plus étalés que ceux à la limite du command front-end (carrés non surlignés sur le cliché), peut-être du fait des connexions non lointaines vers les interconnexions avec les MCD (dies de caches). Les Shader Engines ainsi que les ROP n’évolueraient pas, par contre, le cache des paramètres (un large buffer composé de SRAM sur RDNA 1/2) semblerait absent : soit le bousin a pu être retiré, soit il a pu être explosé et davantage dispersé. Reste encore la question des CU, pour lesquels rien n’est clair : sur les RDNA précédents, deux CU formaient un WorkGroup Processor (WGP), pouvant fonctionner au choix en mode CU pour exécuter des Waves sur 2 modules de 2 SIMD32, ou dans le nouveau mode 4 SIMD32. En mode CU, les mémoires (L0 et LDS) se retrouvent partagées ; il semblerait que l’unification vantée par la firme soit la disparition du premier mode, renommant ainsi les WGP en dual issue CU (et en rajoutant au passage des accélérateurs d’IA). Ce faisant, les unités SIMD32 seraient aussi fusionnées pour fonctionner en dual issue également, mutualisant une partie de leurs ressources (la distribution des instructions ? Un genre de SMT ?) : de quoi afficher 2 FMA par CU et justifier les 12 288 unités FP 32 affichées ici et là pour 6144 CU, sans pour autant que cette performance brute ne soit aisément exploitable en pratique. Pour le moment, tout cela ne reste que pures spéculations, nous attendons avec impatience le whitepaper architectural de la firme afin d'en savoir plus.

 

rdna2 cu wgp supposition

 

Tout cela est également à mettre en relation avec l’interconnect inter-die utilisé. Sur RDNA 3, l’utilisation des pistes du package ne suffisait pas (contrairement à Zen), et une technologie nommée Elevated Fannout Bridge (EFB) est utilisée pour caser un petit die de silicium passif entre les dies (actifs) GDC et MCD. Cela ne vous rappelle rien ? Hé oui, il s’agit bel et bien de l’analogue rouge de l’EMIB, que l’on attend au passage toujours côté grand public — un signe que la technologie n’est peut-être pas encore mature pour atteindre un niveau de performance/prix acceptable. Les premières estimations au doigt mouillé donneraient 20 à 80 W de consommation rien que pour cet interconnect : si cela se vérifiait, cela pourrait expliquer en partie les goulots d’étranglement de la carte empêchant la montée en fréquence au-delà des spécifications. Enfin, l’analyse du die de mémoire confirmerait (avec un bon gros conditionnel) la possibilité de 3D V-Cache à ce niveau, similairement à ce que le Ryzen 9 5800X3D offre sur le plan des CPU. Reste que la technologie est encore coûteuse, et qu’il n’est pas certain que l’assemblage soit cohérent du point de vue de la conception générale du SoC, particulièrement en matière de packaging, de répartition de la chauffe et de ratio final performances/prix. D’un autre côté, la réduction de l’Infinity Cache (passant de 128 Mio sur la RX 6900 XT à 96 Mio sur la 7900 XTX) est fortement suspecte, ce qui pousse en faveur d’un futur (possible) refresh. Reste que un « tiens » vaut mieux que deux « tu l’auras », mieux vaut déjà regarder les performances de la belle avant de fantasmer sur son éventuel successeur !

Un poil avant ?

Après les zombies font du ski, voici les zombies jouent aux chevaliers !

Un peu plus tard ...

Gamotron • Une question de protocole

Les 12 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par Un ragoteur qui pipotronne en Bourgogne-Franche-Comté, le Mercredi 09 Novembre 2022 à 19h33  
par Un ragoteur sans avis en Île-de-France, le Lundi 07 Novembre 2022 à 13h43
Et les CU, toujours regroupé par paires.
La notion de Dual Compute Unit est toujours valable avec RDNA 3.
un petit lien tout mignon
Il y a avait bien un truc qui n'allait pas sur son image. En haut il a représenté 2 CU, en bas qu'un seul. Voilà où étaient passé mes deux SP manquant
En effet, tu as raison : lien
par Un ragoteur sans avis en Île-de-France, le Lundi 07 Novembre 2022 à 13h45  
"mes deux SP manquant" 2x32 SPs manquants
par Un ragoteur sans avis en Île-de-France, le Lundi 07 Novembre 2022 à 13h43  
par Un champion du monde en Bourgogne-Franche-Comté, le Dimanche 06 Novembre 2022 à 12h25
Donc tu n'as pas lu : "... Les Stream Processors (SP) sont toujours regroupés au sein d'unités SIMD32, à raison de 2 par Compute Unit (CU)..."
Et les CU, toujours regroupé par paires.
La notion de Dual Compute Unit est toujours valable avec RDNA 3.
un petit lien tout mignon
Il y a avait bien un truc qui n'allait pas sur son image. En haut il a représenté 2 CU, en bas qu'un seul. Voilà où étaient passé mes deux SP manquant
par Un champion du monde en Bourgogne-Franche-Comté, le Dimanche 06 Novembre 2022 à 12h25  
par Un ragoteur sans avis du Grand Est, le Dimanche 06 Novembre 2022 à 10h35
Oui donc la représentation de Locuza est fausse.
Donc tu n'as pas lu : "... Les Stream Processors (SP) sont toujours regroupés au sein d'unités SIMD32, à raison de 2 par Compute Unit (CU)..."
par Un ragoteur sans avis du Grand Est, le Dimanche 06 Novembre 2022 à 10h35  
par Un champion du monde en Bourgogne-Franche-Comté, le Dimanche 06 Novembre 2022 à 09h47
Un peu de lecture, tu trouveras ta réponse dans le paragraphe traitant de l'information en question. Et probablement des précisions dans les commentaires, Eric B. s'étant arraché les cheveux pour expliquer l'organisation du truc à certains.
Oui donc la représentation de Locuza est fausse.
par Un champion du monde en Bourgogne-Franche-Comté, le Dimanche 06 Novembre 2022 à 09h47  
par Un ragoteur sans avis du Grand Est, le Dimanche 06 Novembre 2022 à 09h18
Elle me pose problème la seconde image.
On passe d'un CU à 4 blocs SIMD32, à 1 CU à seulement 2 blocs SIMD32.
Or, soit disant, ni le nombre de CU, ni le nombre de SP n'ont changé avec RDNA3.
Ne devrait-il pas y avoir 4 blocs Dual-issue SMID32 dans le CU RDNA3?
Un peu de lecture, tu trouveras ta réponse dans le paragraphe traitant de l'information en question. Et probablement des précisions dans les commentaires, Eric B. s'étant arraché les cheveux pour expliquer l'organisation du truc à certains.
par Un ragoteur sans avis du Grand Est, le Dimanche 06 Novembre 2022 à 09h18  
Elle me pose problème la seconde image.
On passe d'un CU à 4 blocs SIMD32, à 1 CU à seulement 2 blocs SIMD32.
Or, soit disant, ni le nombre de CU, ni le nombre de SP n'ont changé avec RDNA3.
Ne devrait-il pas y avoir 4 blocs Dual-issue SMID32 dans le CU RDNA3?
par Un ragoteur qui pipotronne en Auvergne-Rhône-Alpes, le Dimanche 06 Novembre 2022 à 07h39  
D'ailleurs, en passant de TeraScale 2 à 3, les shaders ont été eux aussi simplifiés, en passant à des vecteurs de taille 4+1 à 4.
par Un ragoteur qui pipotronne en Auvergne-Rhône-Alpes, le Dimanche 06 Novembre 2022 à 07h38  
Simplifier les CU permet d'en mettre plus par mm². Je me demande si cela aurait un lien avec le RT AMD, qui utilise en partie les CU. En augmentant les TFLOPS théorique, l'impact du RT serait plus faible.
par Un ragoteur sans avis du Grand Est, le Samedi 05 Novembre 2022 à 21h13  
par Jemporte, le Samedi 05 Novembre 2022 à 17h50
J'ai un peu de mal à comprendre. Les MCD occupent une place énorme. Est-ce qu'ils représentent l'infinity cache totale alors que les précédents cartes avaient un cache supérieur, intégré et prenant nettement moins de place en 7nm que les mcd en 6nm.
Oui, c'est bien la totalité du L3 qui se trouve dans ces MCD.
un petit lien tout mignon
8 bloc de 2Mo par chip, 6 chip autour du die central = 96Mo.
par Nicolas D., le Samedi 05 Novembre 2022 à 18h07  
par Jemporte, le Samedi 05 Novembre 2022 à 17h50
J'ai un peu de mal à comprendre. Les MCD occupent une place énorme. Est-ce qu'ils représentent l'infinity cache totale alors que les précédents cartes avaient un cache supérieur, intégré et prenant nettement moins de place en 7nm que les mcd en 6nm.
Oui, mais ca occupait déjà un bon tas de place sur RDNA2 :-)
par Jemporte, le Samedi 05 Novembre 2022 à 17h50  
J'ai un peu de mal à comprendre. Les MCD occupent une place énorme. Est-ce qu'ils représentent l'infinity cache totale alors que les précédents cartes avaient un cache supérieur, intégré et prenant nettement moins de place en 7nm que les mcd en 6nm.