COMPTOIR
register

×

ampere archi rtx 3080 t

Génération Ampère chez les verts : le point architectural
ampere archi rtx 3080 t
Traitement concomitant

Alors qu’Ampère est sujette à toutes les rumeurs concernant ses performances — prétendre doubler les prestations de la génération précédente, ce n’est pas anodin — NVIDIA ne pouvait décemment pas rester silencieux à propos des entrailles de sa machine. Quelles sont les améliorations effectuées ? Le comptoir déchiffre tout pour vous.

 nvidia geforce g r tx logo

 

Pour faire un GPU, peu de choses sont nécessaires : prenez des cœurs très simples (nommés Cuda Cores par les verts depuis Fermi), capables d’effectuer les opérations arithmétiques de base (nombre entier et précision flottante), et agencez-en le plus possible tant qu’il reste de la place sur votre die. C’est ce qui est utilisé pour la rastérisation, méthode de rendu 3D ultra dominant dans les jeux vidéo, car bien plus rapide à exécuter que le Ray Tracing. Bien entendu il ne sagit ici que de la partie "calcul", puisque s'ajoutent les unités géométriques (génération des primitives, tesselation), de rastérisation (décomposition des triangles en pixels), de texturing et de rendu (ROP) et tout le sous-système mémoire. 

 

Mais revenons aux différences fondamentales apportée par Ampère, au niveau des cœurs organisés en Stream Multiprocessor (SM) qui évolue légèrement par rapport à Turing. Nous retrouvons toujours un module RT Core sur lequel nous reviendrons plus tard, ainsi qu’un chemin de données dédié aux calculs flottants (FP32), et un second qui passe des entiers uniquement (INT32) sur Turing, à une compatibilité hybride (FP32 ou INT32) avec Ampere. Il en résulte un facteur 2 de la puissance en FP32 par SM en comparaison de la génération précédente, mais uniquement lorsqu'il n'est pas nécessaire de fournir un calcul sur entier. Pour accompagner cette augmentation de puissance, le cache L1 double sa bande passante et sa capacité passe de 96 ko à 128 ko par SM.

 

ampere archi sm

 

Les Tensor Cores évoluent également : on passe de 8 à 4 par SM, mais comme causé sur notre brève dédiée à la NVDIA A100, ces derniers gèrent en matériel les matrices creuses. Derrière ce nom barbare se cachent des structures de données présentant un nombre important de zéros, ce qui autorise une compression notable à la fois en matière d’espace, mais également de rapidité d’exécution. En effet, les calculs entre zéros ne sont tout bonnement pas effectués, ce qui permet aux verts d’afficher des puissances de calculs toujours plus démentielles.

 

Fort de ces changements, les verts annoncent pouvoir appliquer la technologie DLSS de manière toujours plus performante. Qu’est-ce que cela signifie ? Hé bien, pour pouvoir jouer en 8K, le DLSS serait (une nouvelle fois) appelé à la rescousse, dans des proportions toujours plus impressionnantes. Voyez donc :

 

DéFinition d'affichageDéfinition de rendu
FullHD (1920x1080 px) HD (1280x720 px)
QHD (2560x1440 px) Jensen's Favorite (1706x960 px)
UHD (3840x2160 px) FullHD (1920x1080 px)
8K (7680x4320 px) quasi-QHD (2560x1400 px)

 

Oui, vous avez bien lu : l’IA devrait permettre de multiplier par 9 le nombre total de pixels affiché tout en évitant le classique flou de la mise à l’échelle habituelle. Techniquement, rien n’est impossible au vu du matériel embarqué, particulièrement sur les rendus typés cartoon où le cell shading gomme une partie des détails... reste à voir le ressenti des joueurs aguerris.

 

ampere archi rt cores

 

Passons désormais à notre raie préférée : Ampère utilise des RT cores de seconde génération, dont la principale nouveauté — outre un débit maximal doublé — réside dans la gestion matérielle du flou cinétique, qui fait l’objet de notre paragraphe suivant. Mais, avant cela, les verts ont (enfin !) été davantage loquaces sur l’organisation interne de leurs RT Cores : il était temps ! Le principal souci du BVH — l’algorithme accéléré par ces cœurs dédiés, permettant de calculer quel volume rentre en intersection avec un rayon — réside dans le pointer chasing, c’est-à-dire l’obligation du programme de sauter d’une zone mémoire à une autre sans ordre logique, ce que détestent particulièrement les organisations en SIMD/SIMT des GPU modernes. Le principe est très proche des SSD, où la lecture/écriture séquentielle est très rapide grâce au prefetching, mais les opérations en lecture/écriture aléatoires sont bien plus lentes. Du coup, les RT Cores intègrent, sur Turing, trois composants logiques : le premier effectue la traversée de l’arbre contenant la hiérarchie des volumes possiblement frappés par le rayon, le second se charge de trouver si une telle intersection à lieu sur le volume, et le dernier calcule le triangle touché.

 

ampere archi rt cores

 

Et ce flou cinétique alors, qu’est-ce exactement ? Beaucoup de jargon pour peu de choses, finalement, car il est question d’un module supplémentaire retenant la position de rayon lancé antérieurement afin de réutiliser leur valeur dans le rendu courant. Ainsi, les objets en mouvement rapide se verront moins nets, renforçant la sensation de vitesse et de fluidité. Ce mécanisme permet ainsi de se passer de coûteux effet de post-processing après rendu, ce qui devrait améliorer les performances dans les titres au gameplay nerveux en faisant usage.

 

ampere archi rtx io

 

De plus, NVIDIA a rajouté dans ses cartes la technologie RTX IO. L’idée est ici de réduire les latences lors des temps de chargement en donnant directement un accès disque à la carte graphique, afin d’éviter les goulots d’étranglement liés à un CPU encombré. Cela se justifie d’autant plus par la taille toujours croissante des titres, qui dépassent désormais couramment la centaine de Go ; reste à voir si le GPU est capable de gérer correctement les algorithmes de décompression sans gêner les potentiels rendus effectués en parallèle.

 

Désormais que tous les termes sont clairs, voici, pour rappel, la gamme Ampère gaming telle qu’annoncée par Jensen :

 

NomCœurs CUDASMGPCVRAM
GeForce RTX 3070 5888 46 4 8 Go GDDR6
GeForce RTX 3080 8704 68 6 10 Go GDDR6X
GeForce RTX 3090 10496 82 8 (?) 24 Go GDDR6X

 

Ainsi, partant de deux de leur brique de base SM, NVIDIA assemble des Texture Processing Cluster (TPC), qui partagent leur PolyMorph Engine, un composant gérant diverses transformations. Ensuite, ces TPC sont regroupés en Graphic Processing Cluster à raison de 6 (donc 12 SM) par GPC. Il est toutefois possible de désactiver en leur sein un ou plusieurs TPC, afin de recycler des dies partiellement défectueux. Notez que ces GPC sont reliés chacun à leur propre unité de rastérisation, le tout étant coordonné par un GigaThread Engine... sans compter le L2, adressé par GPC ainsi que 2 partitions (8) de ROPs associé à ce dernier et enfin la connexion PCIe 4.0 avec le contrôleur hôte. Tout ceci donne un monstre de 28 milliards de transistors organisé ainsi sur la RTX 3080 : 

 

ampere archi rtx 3080 t [cliquer pour agrandir]

Le diagramme logique du GA102 sauce RTX 3080 !

 

Dernier point sur lequel Nvidia insiste lors de sa description de son architecture, c'est l'amélioration des capacités d'exécution concomitante. En effet, il était possible avec Turing d'exécuter de manière simultanée des calculs mixant les unités de calcul traditionnel (en jaune ci-dessous) avec les RT Core (en vert) par exemple, mais on ne pouvait pas y superposer l'usage des Tensor Cores (violet). Ampere permet à présent de combler cette lacune, autorisant des gains supplémentaires lors du rendu d'une image, utilisant par exemple RT et DLSS. Nvidia indique par exemple que sous Wolfenstein Youngblood, la RTX 3080 avec Ray Tracing actif couplé au DLSS, obtiendrait un framerate 1,8x plus élevé qu'une GTX 1080 Ti en rastérisation uniquement...

 

Traitement concomitant [cliquer pour agrandir]

Temps d'éxécution du rendu d'une image  Pascal vsTuring vs Ampere

 

En conclusion, Ampère ne révolutionne certes pas le domaine des microarchitectures GPU, puisqu'il s'agit principalement d'une évolution de Turing (comme l'était Pascal vis-à-vis de Maxwell), mais elle résume tout à fait les objectifs des firmes dans ce domaine : partir d’un processus de gravure plus efficient permettant de caser directement plus de cœurs, et jongler avec les différentes possibilités de design afin de rendre ces derniers plus performants sans payer un coût déraisonnable en surface. Saupoudrez le tout de nouvelle technologie sauce raie tracée, et voilà un cocktail détonnant pour les fêtes de fin d’année. Avis aux gameurs ?

 

Retrouvez le point sur la gamme 3070/3080/3090 avant les tombées de NDA sur ce billet.
Un poil avant ?

1ère vague de RTX 30x0 : pour GIGABYTE aussi, le changement c'est maintenant

Un peu plus tard ...

Gamotron • De la bonne petite sortie

Les 149 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par Jemporte, le Jeudi 17 Septembre 2020 à 01h44  
Finalement les tests donnent la 3080 FE à 30% en raster au dessus de la 2080Ti standard quand le jeu ne sature pas en FPS, et une peu plus de 30 % niveau RT, mais très variable.
par Un ragoteur de transit en Bourgogne-Franche-Comté, le Mercredi 16 Septembre 2020 à 12h58  
par ThePapyGeek le Mercredi 16 Septembre 2020 à 06h57
Salut oh toi jeunesse oh combien influençable !

Alors ca y est on est dans les starting blocks ? Prêt à craquer votre PEL ou faire plus de visites chez papy/mamy ? Ca sent bon le jambon quand même cette génération (...). Bref attendons (si c'est encore possible certains se font deja dessus) la réponse des rouges .
Nous vivions des temps diablement excitants (Bon pour la derniere fois cessez de mouiller votre culotte ! De la tenue que diable !).
Attention, faire plus de visites chez papy/mamie en ces temps actuels pourrait bien expédier ces derniers sous terre plus vite que prévu. Vive le cochonavirus !
Ce n'est pas un bon calcul si vous espérez avoir plus d'argent de poche, à moins de vouloir l'héritage plus vite...
par Un passionné de jeux, le Mercredi 16 Septembre 2020 à 12h31  
par ThePapyGeek le Mercredi 16 Septembre 2020 à 06h57
Salut oh toi jeunesse oh combien influençable !
Alors ca y est on est dans les starting blocks ?
Nous vivions des temps diablement excitants (Bon pour la derniere fois cessez de mouiller votre culotte ! De la tenue que diable !).
Salut Papy, tu sais bien que cette jeunesse est insolente et culottée. Pourquoi pas recadrer ces ragoteurs insolents selon la méthode de ThePapyGeek? Sous forme de stage
P.S: J-1 on rêve tous de la RX3080, on ne sera pas déçu par le test de CDH
par ThePapyGeek, le Mercredi 16 Septembre 2020 à 06h57  
Salut oh toi jeunesse oh combien influençable !

Alors ca y est on est dans les starting blocks ? Prêt à craquer votre PEL ou faire plus de visites chez papy/mamy ? Ca sent bon le jambon quand même cette génération (...). Bref attendons (si c'est encore possible certains se font deja dessus) la réponse des rouges .
Nous vivions des temps diablement excitants (Bon pour la derniere fois cessez de mouiller votre culotte ! De la tenue que diable !).
Message de Un adepte de Godwin embusqué supprimé par un modérateur : Très constructif il n'y a pas à dire
par Herman59000, le Dimanche 13 Septembre 2020 à 16h27  
par Jemporte le Dimanche 13 Septembre 2020 à 15h33
A la louche, pareil, voir moins de différence. A priori entre 0 et 40% de mieux avec une moyenne à 20%.
lien
Donc en moyenne on devrait être à 50% de mieux pour une RTX 3080 (RT désactivé ) et une GTX 1080Ti.
On baisse un poil une des caractéristiques ultimes (à peine visible et pas gênantes) et on est à égalité.
Un upgrade ne s'envisagerait que pour avoir le RT, or le RT ne vaut visuellement pas le coup pour l'instant. Maintenant si on fait du calcul GPU, la RTX 2090 (ou une éventuelle 2080Ti 20Go) est celle qu'il faut viser pour remplacer une 1080Ti.
Je pensais +50% aussi entre la GTX 1080Ti et la RTX 3080, merci pour ton estimation.
Déjà la RTX 3080 pour le prix de la 1080Ti à sa sortie, le gain est significatif. J'attend de voir ce que propose AMD coté GPU.
par Jemporte, le Dimanche 13 Septembre 2020 à 15h33  
par Herman59000 le Dimanche 13 Septembre 2020 à 15h23
+30% entre la 3080 et la 2080Ti
Du coup, même question quel écart entre la 1080Ti et la 2080Ti ?
A la louche, pareil, voir moins de différence. A priori entre 0 et 40% de mieux avec une moyenne à 20%.
lien
Donc en moyenne on devrait être à 50% de mieux pour une RTX 3080 (RT désactivé ) et une GTX 1080Ti.
On baisse un poil une des caractéristiques ultimes (à peine visible et pas gênantes) et on est à égalité.
Un upgrade ne s'envisagerait que pour avoir le RT, or le RT ne vaut visuellement pas le coup pour l'instant. Maintenant si on fait du calcul GPU, la RTX 2090 (ou une éventuelle 2080Ti 20Go) est celle qu'il faut viser pour remplacer une 1080Ti.
par Herman59000, le Dimanche 13 Septembre 2020 à 15h23  
par Jemporte le Dimanche 13 Septembre 2020 à 15h12
D'après ce qu'affirme Nvidia la 3080 est en moyenne à 30% au-dessus de la 2080Ti (entre 24% mini et 45% maxi selon les jeux). Donc règle des trois pour le 1080Ti...
+30% entre la 3080 et la 2080Ti
Du coup, même question quel écart entre la 1080Ti et la 2080Ti ?

par Jemporte, le Dimanche 13 Septembre 2020 à 15h12  
par Herman59000 le Samedi 12 Septembre 2020 à 20h47
Quel est le pourcentage de performance entre une 1080 Ti et une 3080 ?
D'après ce qu'affirme Nvidia la 3080 est en moyenne à 30% au-dessus de la 2080Ti (entre 24% mini et 45% maxi selon les jeux). Donc règle des trois pour le 1080Ti...

Alors Nvidia a déjà lancé les pré-commandes alors qu'ils ne laissent filtrer aucune info sur les test de la carte avant le 16 (NDA total). J'aimerai savoir si ceux entre le 14 et le 16 vont se faire avoir. Parce que là ils achètent sur promesse de Nvidia sans aucune revue des tests par des pairs (le Covid19 m'a appris que pour un test soit valable, il faut qu'il soit revu par des pairs et ça vaut pour le vaccin).

J'aurais aimé voir la surprise de celui qui a précommandé une 3090 sans avoir vu l'image fuitée (et donc sous NDA) des 3 slots pleins de la carte dans un boitier.
par Herman59000, le Samedi 12 Septembre 2020 à 20h47  
Quel est le pourcentage de performance entre une 1080 Ti et une 3080 ?
par Jemporte, le Jeudi 10 Septembre 2020 à 23h16  
par Unragoteursansespace en Bourgogne-Franche-Comté le Jeudi 10 Septembre 2020 à 18h42
Lol, tu as entre 1mois et demi et 2 mois à attendre.
Hâte toi lentement
Un mois et demi c'est pas la mort, mais il y a des bruits que Navi 21, Navi 22 et Navi 10 refresh qui seraient à peu près tous dédiés Apple et aux cartes professionnelles dans un premier temps et une partie montée de HBM2 alors que pour les PC ce sera que de la GDDR6. J'espère que c'est faux mais la nomenclature des dépots des futurs lancements Navi 21, Navi 22 et Navi 10 refresh semblent confirmer.
Apple est capable de payer très cher une exclusivité au vu du prix des Macs. Et puis j'imagine que c'est pour leur gamme x86 Intel, les gros GPU des futurs ARM Desktop n'étant pas encore prêt, probablement pour l'automne 2021.
Bref, AMD pourrait jouer la plus value d'abord, à l'inverse de ce que vient de faire Nvidia.
Message de Un ragoteur en Auvergne-Rhône-Alpes supprimé par un modérateur : FAIL