COMPTOIR
register

RDNA 3, non pas en une date, ni trois, mais deux !

Alors que NVIDIA a procédé au lancement de sa nouvelle génération ADA avec son flagship RTX 4090, pour lequel vous avez notre article à (re)lire, AMD reste muet sur ses intentions GPU-esque. La seule donnée qui a fuité, et pour cause elle fut officielle, c'est la date de présentation de la nouvelle gen RDNA 3. La bande à Lisa a fixé le rendez-vous au 3 novembre, mais hormis cette info, nous ne savons rien de bien précis.

 

Selon Greymon55, le lancement ne serait pas immédiat, et comme ce fut le cas pour les RTX 40, il y aurait un délai à subir avant de pouvoir tâter du NAVI 3x. Ce jour, ce serait le 22 novembre. On peut facilement imaginer qu'il pourrait être amené à évoluer en fonction de la date de lancement des RTX 4080, histoire que les meilleurs ennemis du GPU se marchent sur les pieds, comme ils le font souvent. Comme deux frères qui se chamaillent tout le temps, mais qui s'ennuient l'un sans l'autre, AMD et NVIDIA vont se faire des petits tours de magie  dans les semaines qui viennent !

 

amd rdna3 annonce

Un poil avant ?

100 milliards de $ sur 20 ans pour le nouveau complexe de fabs de Micron aux USA !

Un peu plus tard ...

La 1ère puce 3GAE à sortir de chez Samsung serait un ASIC de minage

Les 38 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par Un ragoteur sans avis du Grand Est, le Samedi 15 Octobre 2022 à 11h27  
Je crois que les FPU sont localisés dans les Stream Processors, aux côtés d'une ALU et peut-être d'autres unités, mais probablement une seule utilisable à la fois:
un petit lien tout mignon

Il y a 32 SP par "barrettes", 4 barrettes par CU, soit 128 FPU 32-bits par CU.
80 CU dans une 6950XT, qui boost à 2,324 GHz.
128 x 80 x 2,324 = 23,798 TFlops FP32.
Exactement comme attendu, à raison d'une opération par cycle et par FPU.
un petit lien tout mignon

Au contraire d'un CPU, un GPU, c'est extrêmement simple: un assemblage de FPU les uns à côté des autres, en très grand nombre, dans des groupes et sous-groupes de différentes catégorie, suivant le constructeur.
Les seules manières d'augmenter les perfs brut sont d'augmenter leur nombre ou les fréquences. D'où les dies de plus en plus gros et de plus en plus chères à fabriquer, que l'on observe aujourd'hui, et avec des fréquences de plus en plus élevé et les TDP gargantuesques qui les accompagnent.
Mais il n'y a pas le choix, ce sont bien les seules manières d'augmenter les perfs.
Ou alors, l'alternative d'inventer d'autres trucs à côté, comme le RayTracing, le DLSS et l'IA, et d'autres trucs plus ou moins bienvenue qu'ils nous pondront dans les années à venir.
par Un #vieuxkon en Auvergne-Rhône-Alpes, le Samedi 15 Octobre 2022 à 05h06  
par Un ragoteur sans avis du Grand Est le Vendredi 14 Octobre 2022 à 08h22
* La multiplication aussi, dépendamment de leur architecture, elle peut aussi se faire couramment en un cycle. (désolé, j'ai accepté la correction auto sans regarder...)
Je connais des architectures qui l'a font en un cycle, d'autres en 2. Et il me semble même avoir vu plus, une fois. J'ai aucune idée de ce qui est utilisé sur les GPU. J'espère en 1 également.
Le nombre de cycles tient largement à la fréquence ciblée... par contre, dans un GPU où on nous vend du FMA/MAD, lalogique voudrait que ça se fasse en 1 cycle, quitte à perdre sur d'autres opérations.
par Un ragoteur sans avis du Grand Est, le Vendredi 14 Octobre 2022 à 08h22  
* La multiplication aussi, dépendamment de leur architecture, elle peut aussi se faire couramment en un cycle. (désolé, j'ai accepté la correction auto sans regarder...)
Je connais des architectures qui l'a font en un cycle, d'autres en 2. Et il me semble même avoir vu plus, une fois. J'ai aucune idée de ce qui est utilisé sur les GPU. J'espère en 1 également.
par Un ragoteur sans avis du Grand Est, le Vendredi 14 Octobre 2022 à 07h53  
Après, il s'agit de bien designer ses différents clusters, encapsulé les uns dans les autres, pour ne pas créé de goulot d'étranglement et bien veiller à ce que chaque unité puisse fonctionner à son plein potentiel.
Et bien bichonner son implémentation, pour permettre d'augmenter les fréquences, sans augmenter les consommation, mal-gré les milliards de transistors en plus.
par Un ragoteur sans avis du Grand Est, le Vendredi 14 Octobre 2022 à 07h47  
par lulu-nico ?? le Jeudi 13 Octobre 2022 à 19h53
C'est toi qui confonds l ipc c'est à fréquence égale elle est bien en baisse
D'après les rumeurs ont sera vers 3 ghz
En baisse? Alors qu'une RX 6950 XT 2.3GHz? Quant on monte de 2.3 à 3 Ghz, dans ton monde on descend?

Et fondamentalement, au niveau d'une unité de calcul, l'IPC ne peut pas être supérieur à 1. Au mieux on les atteints pile-poil (et encore, par sur toutes les opérations), au pire elle est régulièrement obligé d'attendre, à cause de goulot d'étranglement ailleurs, et son IPC moyen tombera, je sais pas, 0.8 peut-être.
Une addition / soustraction en virgule flottante se fait en un cycle d'horloge. La multiplication aussi, dépendamment de leur architecture, elle peut se faire aussi courraient en un cycle. La division, c'est plus compliqué, ça peut en demander beaucoup plus, parfois quelques dizaine. Sachant que moins ça demande de cycle, plus les chaines de transistors seront longues (et les temps de propagations avec), et donc ça limitera les montés en fréquences. Quant aux sinus, cosinus et autres, j'en parle même pas... Mais je ne suis même pas sûr si les FPU des cartes graphiques supportent ces opérations.

Mais bref, ya pas de magie, en aucun cas tu ne peux réaliser plus d'une opération par cycle, au niveaux d'une unité de calcul. La seule manière d'augmenter l'IPC globale, c'est d'augmenter leur nombres et les fréquences.
Or justement, avec une quantités de Shader Units en augmentation de x2.4, et des fréquences en hausses de x1.3 (si on retient 3Ghz), on obtient bien une augmentation des opérations par secondes de x3.12.
Le compte est bon
par dfd, le Jeudi 13 Octobre 2022 à 21h25  
Z'ont mis la barre assez haute là sur ce coup Nvidia avec Lovelace.
D'autant qu'ils ont encore le full chip AD102 en réserve, 1792 shaders de plus (+11%).
Ce qui sera la RTX 4090 Ti ultérieurement...
On attend de voir les plus petites gammes x60 et x50 plus abordables.
On verra les gains de perfs sur la génération précédente, pour se faire une réelle idée.
par lulu-nico, le Jeudi 13 Octobre 2022 à 19h53  
par Un ragoteur sans avis du Grand Est le Jeudi 13 Octobre 2022 à 19h51
Mais te rends-tu comptes que tu est en train de parler de la même chose? Puissance de calcul et performances réelle, c'est du pareil au même. IPC et TFlops, c'est kiff-kiff.
Après, si ça ne se reflète pas dans de pareilles proportions sur les FPS, le problème n'est pas à rechercher du côté de l'architecture, mais des jeux, insuffisamment optimisé pour l'exploiter efficacement, de CPU limited, ou d'autres facteurs limitants à chercher ailleurs, sur les débits mémoire, ou autre...

Tu multiplies par 2,4 ta quantité d'unités de calculs, et au final, tu obtiens une augmentation par 3 de ton IPC globale, comment ne peux-tu pas te rendre compte que les performances intrinsèques de tes unités individuelles ont elles aussi augmenté? C'est du niveau primaire....

On dirait que tu manipules des termes dont tu ne connais pas la significations, et donc tu t'emmêles les pinceaux...
C'est toi qui confonds l ipc c'est à fréquence égale elle est bien en baisse
D'après les rumeurs ont sera vers 3 ghz
par Un ragoteur sans avis du Grand Est, le Jeudi 13 Octobre 2022 à 19h51  
par lulu-nico ?? le Jeudi 13 Octobre 2022 à 19h25
Si la puissance de calcul fais x3 et les performances réelles x 2-2.25x ipc des unités de calculs sont en baisse
Mais te rends-tu comptes que tu est en train de parler de la même chose? Puissance de calcul et performances réelle, c'est du pareil au même. IPC et TFlops, c'est kiff-kiff.
Après, si ça ne se reflète pas dans de pareilles proportions sur les FPS, le problème n'est pas à rechercher du côté de l'architecture, mais des jeux, insuffisamment optimisé pour l'exploiter efficacement, de CPU limited, ou d'autres facteurs limitants à chercher ailleurs, sur les débits mémoire, ou autre...

Tu multiplies par 2,4 ta quantité d'unités de calculs, et au final, tu obtiens une augmentation par 3 de ton IPC globale, comment ne peux-tu pas te rendre compte que les performances intrinsèques de tes unités individuelles ont elles aussi augmenté? C'est du niveau primaire....

On dirait que tu manipules des termes dont tu ne connais pas la significations, et donc tu t'emmêles les pinceaux...
par lulu-nico, le Jeudi 13 Octobre 2022 à 19h25  
par Un ragoteur sans avis du Grand Est le Jeudi 13 Octobre 2022 à 17h17
Excuses-moi, mais si les perfs brut augmentent réellement de 215%, de 23.8 à 75 TFlops, avec une augmentations des unités de calculs de seulement 140%, la conso de 6%, et la surface de silicium 2.5%, faut pas être bien malin pour se rendre compte qu'on gagne en efficacité sur tous les plans, quelque que soit dans quelle sens on lis le tableau
Si la puissance de calcul fais x3 et les performances réelles x 2-2.25x ipc des unités de calculs sont en baisse
par Un ragoteur sans avis du Grand Est, le Jeudi 13 Octobre 2022 à 17h17  
Excuses-moi, mais si les perfs brut augmentent réellement de 215%, de 23.8 à 75 TFlops, avec une augmentations des unités de calculs de seulement 140%, la conso de 6%, et la surface de silicium 2.5%, faut pas être bien malin pour se rendre compte qu'on gagne en efficacité sur tous les plans, quelque que soit dans quelle sens on lis le tableau
par lulu-nico, le Jeudi 13 Octobre 2022 à 16h15  
par Un ragoteur qui draille en Île-de-France le Jeudi 13 Octobre 2022 à 15h43
Donc si je te suis (et ce que l'on dit depuis un moment) une unité de calcul rdna3 serait plus perf que rdna2 à watt égale donc RDNA3 serait plus efficient...si ce n'est pas le cas RDNA3 serait donc un échec car moins perf et plus consommateur que RDNA2...donc quid de sortir une archi moins efficace et/ou efficiente?(les deux sont intimement liés et ne peuvent être pris indépendamment)Mais elle pourrait être moins efficace mais plus efficiente que RDNA2 donc ce serait toujours pas mal suivant le tarif de vente,aucune chance que ce soit ce cas de figure.

AMD avec leur proc ont bien montré qu'il savait faire plus performant à watt égale.

Moi les perfs *1, 2 ou encore 3 je laisse ça au marketeux.J'attend de voir les tests perf conso prix par rapport à RDNA 2 ,30xx et 40xx!
a 300 watts la carte sera d'apres amd 50 % plus perf que la carte a 300 watts ( la 6900 xt ) mais la puissance de calcul en flops sera supérieur a 50 % donc baisse d'efficacité des unité de calcul ou d'ipc si tu préfères
par Un ragoteur qui draille en Île-de-France, le Jeudi 13 Octobre 2022 à 15h43  
par lulu-nico ?? le Jeudi 13 Octobre 2022 à 15h19
J'essaie juste d'expliquer que si la rumeur est vrai on aura peut-être 75 tflops mais pas perf x3 mais si on a plus de perf à watt égale c'est plus efficace c'est 2 truc différent il y a l'efficacité des unités de calcul et l'efficacité énergétique
Donc si je te suis (et ce que l'on dit depuis un moment) une unité de calcul rdna3 serait plus perf que rdna2 à watt égale donc RDNA3 serait plus efficient...si ce n'est pas le cas RDNA3 serait donc un échec car moins perf et plus consommateur que RDNA2...donc quid de sortir une archi moins efficace et/ou efficiente?(les deux sont intimement liés et ne peuvent être pris indépendamment)Mais elle pourrait être moins efficace mais plus efficiente que RDNA2 donc ce serait toujours pas mal suivant le tarif de vente,aucune chance que ce soit ce cas de figure.

AMD avec leur proc ont bien montré qu'il savait faire plus performant à watt égale.

Moi les perfs *1, 2 ou encore 3 je laisse ça au marketeux.J'attend de voir les tests perf conso prix par rapport à RDNA 2 ,30xx et 40xx!