COMPTOIR
register

Test • Nvidia GeForce RTX 4090

• ADA LOVELACE : suite

Après avoir décrit la partie "traditionnelle" de l'architecture du GPU page précédente, jetons à présent un coup d'œil aux différentes unités spécialisées incluses, qui elles, ont évolué significativement avec cette nouvelle génération Ada.

 

Des RT Cores améliorés

Turing avait marqué une rupture en étant la première architecture à inclure des unités dédiées à l'accélération matérielle du Ray Tracing. Plus précisément de l’algorithme BVH (Bounding Volume Hierachy), vous retrouverez tous les détails le concernant au sein de cette page. Ampère utilise de son côté des RT cores de seconde génération, disposant d'un débit doublé pour le calcul des intersections des rayons avec les triangles, ainsi qu'une unité accélérant l'application du flou cinétique lors des rendus. Avec ADA Lovelace, Nvidia double à nouveau le débit pour le calcul des intersections rayons/triangles, portant à fois 4, le gain par rapport à la première itération des RT Core (Turing) dans ce domaine.

 

Ensuite, les verts ont inclus au RT Core d'Ada, une unité capable d'effectuer les opérations Alpha (transparence) 2 fois plus rapidement. En effet, les développeurs utilisent fréquemment le canal alpha d'une texture pour découper sans consommer trop de ressources, des formes complexes, ou plus généralement pour représenter la translucidité. Une feuille peut ainsi être décrite à l'aide de quelques triangles, en utilisant le canal alpha d'une texture pour "détourer économiquement" la forme complexe. Il est également possible de faire une approximation satisfaisante d'une flamme complexe, par le biais de cette technique.

 

alpha

 

Jusqu'à présent, un développeur désireux d'incorporer ces types de contenu dans une scène utilisant le RT, devait les marquer comme non opaques. Lorsqu'une feuille est par exemple susceptible d'être touchée ou non par un rayon, un shader est invoqué pour déterminer comment traiter l'intersection, et ce même si cette dernière se produit ou non, ce qui entraîne un coût non négligeable. Plus précisément, lorsqu'un groupe de rayons est projetée vers des objets non opaques, les requêtes de rayons individuels peuvent nécessiter plusieurs invocations de shader pour être résolues, alors que certains rayons se terminent immédiatement. Il en résulte de nombreux threads actifs persistants, et une inefficacité proportionnelle.

 

Pour améliorer cela, les ingénieurs de NVIDIA ont donc ajouté un moteur dénommé Opacity Micromap au RT Core d'Ada. Ce dernier, que l'on pourrait traduire par microcarte d'opacité, est un maillage virtuel de micro-triangles, chacun avec un état d'opacité que le RT Core utilise pour résoudre directement les intersections de rayons avec des triangles non opaques. Plus précisément, les coordonnées d'une intersection sont utilisées pour adresser l'état d'opacité du micro-triangle correspondant. 3 états sont possibles au sein de cette carte : opaque, transparent ou inconnu. S'il est opaque, un impact est enregistré et renvoyé. S'il est transparent, l'intersection est ignorée et la recherche d'une intersection se poursuit. S'il est inconnu, le contrôle est renvoyé au SM, qui va faire appel à un shader ("anyhit") pour résoudre l'intersection.

 

micromap opacity

 

Ces mailles peuvent être dimensionnées de un à seize millions de micro-triangles, avec un ou deux bits associés à chacun d'entre eux. À titre d'exemple, la figure ci-dessus montre une feuille d'érable décrite à l'aide de deux triangles et d'une texture alpha. Sur le schéma, les zones transparentes sont blanches, la feuille n'est pas présente sur ces dernières. Celles vert foncé correspondent à des zones opaques de la feuille, enfin les rouges et bleus correspondent à des zones d'opacité mixte (inconnue). Le moteur Opacity Micromap marque ainsi 30 des micro triangles comme transparents, 41 comme opaques et 57 comme inconnus.

 

opacity micromap engine

 

Cela signifie que plus de la moitié de la feuille est entièrement caractérisée et que plus de la moitié des rayons coupant ces triangles, soit manquent la feuille, soit la touchent sans ambiguïté. Le RT Core d'Ada peut donc entièrement caractériser ces rayons sans avoir à invoquer le moindre shader pour cela, tout en préservant la pleine résolution et la fidélité de la texture alpha d'origine. Bien sûr, lorsque l'état est inconnu, il faut toujours faire appel à un shader pour sa résolution, mais leur nombre est largement réduit du fait de l'action préalable de l'Opacity Micromap Engine.

 

Dernier point d'amélioration des RT Core d'ADA, le Displaced Micro-Meshes ou DMM. La complexité géométrique continue d'augmenter à chaque nouvelle génération, toutefois, les performances lors du traçage des rayons, sont faiblement impactées par cette dernière. Ainsi, dans une scène en Ray Tracing, une multiplication par cent de la complexité géométrique, ne conduira qu'à doubler le temps de traçage des rayons. Cependant, la création de la structure de données (BVH) qui rend possible cette "petite" augmentation de temps lors du traçage, nécessite elle un temps et une mémoire à peu près linéaires à l'augmentation de la complexité géométrique. Ainsi,  100 fois plus de géométrie pourra nécessiter jusqu'à 100 fois plus de temps pour créer le BVH et 100 fois plus de mémoire pour le stocker.

 

Les RT Cores de troisième génération intègrent donc le Displaced Micro-Meshes, afin d'aider à relever les deux défis consécutifs d'une complexité géométrique élevée : les performances lors de la construction du BVH et l'empreinte mémoire/stockage. Le stockage des Assets et les coûts de transmission de ces derniers sont également réduits. Voilà comment les verts définissent DMM :

Nvidia a développé le DMM comme une représentation structurée de la géométrie qui exploite la cohérence spatiale pour être compacte (compression) et exploite cette structure pour un rendu efficient avec un niveau de détail intrinsèque (LOD) et une animation/déformation légère.

Coté clarté on a déjà fait mieux. Il s'agit en fait de micro-géométrie, Lors des opérations faisant appel au Ray Tracing, la structure du DMM est utilisée pour éviter une forte augmentation des coûts de construction BVH (temps et espace), tout en préservant une traversée BVH efficace. Ainsi, lors des phases de rastérisation, le niveau de détails (LOD) intrinsèque au DMM, permet de rastériser les primitives de tailles adéquates via des Mesh Shaders ou Compute Shaders.

 

micro meshesCe crabe est composé de triangles de base représentés en rouge (à gauche), avec des détails géométriques supérieurs représentés par les micro-meshes (rouge également) à droite

 

Le DMM est donc en fait une nouvelle primitive géométrique, qui a été co-conçue par le moteur de micro-géométrie inclus dans le RT Core (troisième génération). Chaque Micro-Mesh est définie par un triangle de base et une carte de "déplacement", contenant la valeur de ce dernier pour chaque micro-triangle. Le moteur peut ainsi générer à la demande des micro-triangles à partir de cette dernière, afin de résoudre les intersections entre les rayons et les Micro-Meshes, et ce jusqu'à atteindre le micro-triangle touché par le rayon. La carte est façonnée de la sorte : les sommets des micro-triangles constituent une grille barycentrique de puissance deux, et leurs coordonnées sont utilisées pour traiter directement les déplacements des micro-vertex.

 

dmm

 

Tensors Cores v4

A l'instar de l'architecture classique, Nvidia ne dévoile finalement que bien peu de choses concernant les Tensor Cores d'Ada. Pour rappel, ces derniers sont des cœurs de calculs spécialisés à hautes performances, qui sont adaptés aux opérations mathématiques de multiplication et d'accumulation matricielles, particulièrement utiles dans les applications IA et HPC. Ils peuvent donc à la fois servir pour l'apprentissage en profondeur des réseaux de neurones (Deep Learning), mais aussi pour les fonctions d'inférence, dont le DLSS est une des mises en œuvre les plus célèbres. Par rapport à Ampere, Ada fournit plus du double des TFLOPS FP16, BF16, TF32, INT8 et INT4 et inclut également le moteur Hopper FP8, offrant plus de 1,3 PetaFLOPS de traitement tenseur.

  

Optical Flow Acceleration

Au cours des quatre dernières années, l'équipe NVIDIA Applied Deep Learning Research a travaillé sur un projet de génération d'images, combinant le DLSS avec une technique d'estimation du flux optique. Le but était de parvenir à un résultat visuellement satisfaisant, d'insertion d'images précises entre des images existantes, afin d'améliorer l'expérience de jeu en la rendant plus fluide. L'estimation du flux optique, est couramment utilisée pour mesurer la direction et l'amplitude du mouvement apparent des pixels, entre des images graphiques ou des images vidéo rendues consécutivement. Dans les domaines des graphiques et de la vidéo 3D, les cas d'utilisation typiques incluent la réduction de la latence dans la réalité augmentée et virtuelle, l'amélioration de la fluidité de la lecture vidéo, l'amélioration de l'efficacité de la compression vidéo et la stabilisation de la caméra vidéo. Les utilisations via Deep Learning, incluent souvent la navigation automobile et robotique, ainsi que l'analyse et l'identification vidéo.

 

Le flux optique est plutôt similaire au composant d'estimation de mouvement utilisé en encodage vidéo, mais avec des exigences bien plus élevées en matière de précision et de cohérence. En conséquence, différents algorithmes sont utilisés. Depuis la microarchitecture Turing, les GPU du caméléon intègre un moteur de flux optique autonome (OFA), c'est à dire fonctionnant de manière indépendante des Cuda Core. Cette unité OFA est capable de fournir jusqu'à 300 TeraOPS (TOPS) de travail sur le flux optique (plus de 2 fois plus rapide que l'OFA de génération Ampère). Et c'est la que l'on en revient aux recherches de l'équipe mentionnée au paragraphe précédent, qui aboutissent à la création du DLSS 3, qui va en fait coupler le DLSS 2.0 utilisant l'inférence pour reconstituer une image en haute définition depuis une définition plus basse, à l'insertion d'images générées depuis les données issus de l'OFA. Plus de détail à ce sujet dans la page dédiée.

 

dlss3

 

Voilà, c'est tout pour la partie architecture d'Ada Lovelace, nous vous proposons page suivante, de découvrir la mise en œuvre de cette dernière et le descriptif d'autres fonctionnalités.



Un poil avant ?

La relève NUC Extreme chez Intel sera encore moins mini-PC-esque qu'avant

Un peu plus tard ...

L'Unreal Engine 5.1 plus très loin de débarquer

Les 143 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par Un ragoteur qui draille en Île-de-France, le Lundi 21 Novembre 2022 à 16h50  
par Eric B. le Dimanche 20 Novembre 2022 à 18h14
Pas dans le test principal, désolé. C'est déjà la course pour boucler dans les temps avec cet échantillon en plus des jeux, par contre on réfléchit à des tests axés pro pour les GPU dans des dossiers dédiés.
Ok je comprend pas de souci.
Par contre cest sur que si cela se fait ça seras un gros plus.
Jai pas trouvé de trst pour mes usages.
Jai pris tout de même une rtx3060 vu les prix actuellement.
Mais des tests " pros " en, en montage vidéo, photos serais parfait.
Merci d'avance en tout cas
par Eric B., le Dimanche 20 Novembre 2022 à 18h14  
Pas dans le test principal, désolé. C'est déjà la course pour boucler dans les temps avec cet échantillon en plus des jeux, par contre on réfléchit à des tests axés pro pour les GPU dans des dossiers dédiés.
par Un ragoteur qui draille en Île-de-France, le Dimanche 20 Novembre 2022 à 08h46  
Bonjour.
Sympas cs tests avec des applications "pro".
Ce serais possible d'y ajouter des softs importants comme Premiere pro, After Effect, Lightroom, Photoshop et surtout DXO qui avec DeepPrime utilise énormément la carte graphique?
Possible aussi de faire des ajouts sur les test de la génération précédente ?
Merci
par D en Provence-Alpes-Côte d'Azur, le Mardi 15 Novembre 2022 à 22h04  
Je viens de tester une 4090 gainward phantom(non gs), avec un +200mhz sur le core et +500mhz sur la ram, la carte est très calme en forte charge uhd, impressionnant. ..
Les températures aussi aux alentours des 66 max.
Récupéré à 1800e livré sur ld/lc, j'espère ne pas avoir des problèmes sur le 12vpwr...Pas de gainward sur le megathread reddit, étrange..
par Eric B., le Lundi 14 Novembre 2022 à 11h19  
Je ne l'ai pas démontée, mais c'est un Monolithic Power Systems MP2891 d'après celui réalisé par TPU.
par Un ragoteur sigma-delta en Île-de-France, le Lundi 14 Novembre 2022 à 09h56  
Super test comme d'habitude.
Est-ce qu'il serait possible d'avoir la référence du contrôleur d'alimentation ?
Merci
par Eric B., le Mardi 08 Novembre 2022 à 15h15  
par Un adepte de Godwin au Québec le Mardi 08 Novembre 2022 à 14h37
Juste 18 fps de plus que la 3090 dans flight simulator... je vais attendre la 5090...
As-tu compris que c'est le CPU qui limite la 4090 sur ce test là (c'est écrit pourtant) ? Parce que tu peux attendre même la 7090 que ça n'y changerait absolument rien dans des situations comme celle-ci...
par Un adepte de Godwin au Québec, le Mardi 08 Novembre 2022 à 14h37  
Juste 18 fps de plus que la 3090 dans flight simulator... je vais attendre la 5090...
par Un ragoteur sans nom en Bourgogne-Franche-Comté, le Mercredi 02 Novembre 2022 à 15h26  
par YulFi le Mercredi 02 Novembre 2022 à 09h11
La conso est telle que je m'interroge sur la conso de la carte bloquée à 60 fps. A-t-elle du coup un appétit d'oiseau sur un jeu AAA ?
Un peu comme la fonction Radeon Chill ou limiter les fps in-game. On peut avoir une énorme carte mais par moment vouloir jouer en silence et/ou diminuer la chauffe, je ne trouve pas ça déconnant
Perso l'été je le fais, je bride à 60fps pour diminuer la chauffe quand il fait déjà presque 30°C dans la pièce.

Edit: J'ai en partie trouvé une réponse sur un petit lien tout mignon
Ils brident Cyberpunk à 90fps et la carte ne consomme "que" 215W, pas mal. La 3090 Ti dans le même cas consomme 416W outch !
C'est vrai pour toutes les cartes qui abaisseront leur tension en fonction de la charge demandée, si tant est que la carte ne soit pas déjà à son max à la fréquence d'images demandée. C'est facile à monitorer avec MSi afterburner avec lequel on peut afficher dans un coin de l'écran les informations que l'on veut parmi celles qui sont monitorées.
par Un #ragoteur connecté d'Occitanie, le Mercredi 02 Novembre 2022 à 13h11  
par Un ragoteur sans nom en Bourgogne-Franche-Comté le Mercredi 02 Novembre 2022 à 12h07
Et alors ? Je m'en tamponne totalement de ces considérations. Seul mon budget importe, le reste c'est leur problème.
Entièrement d'accord avec toi. Si certains acceptent de se faire pigeonner, ça les regarde. Le prix des cartes devraient suivre l'évolution du cout de la vie, point barre. Donc en 5 ans, à 3% d'augmentation par an en moyenne, ça nous fait 15%, et pas 150%. Les cartes graphiques sont l'exception dans l'écosystème PC. La conversion €/$ nous est défavorable d'environs 20% provisoirement, Nous n'y pouvons pas grand chose (à part avoir des politiques compétents, mais la aussi c'est la crise)
Il faut bien se rendre compte qu'une carte graphique aujourd'hui coute autant qu'un PC entier moyenne gamme. Il faut arrêter le délire.
Le boum du minage de l'Ethereum est terminé, retour à la case départ. Finit d'amortir les cartes en quelques mois et de faire du pognon avec ensuite, quelque soit le prix ou on pouvait la payer.
J'utilise mes cartes pour des usages pro et je trouve les prix scandaleux, pour un usage ludique c'est encore plus invraisemblable...
par Un ragoteur sans nom en Bourgogne-Franche-Comté, le Mercredi 02 Novembre 2022 à 12h07  
par Un rat goth à l'heure en Provence-Alpes-Côte d'Azur le Mercredi 02 Novembre 2022 à 09h51
450 / 550 lol on est en 2022 pas en 2017....
Entre la guerre, les tensions mondiales, le coût de conception de plus en plus durélevé, les prix de TMSC, et la chute de l'euro bon courage ....
Et alors ? Je m'en tamponne totalement de ces considérations. Seul mon budget importe, le reste c'est leur problème. Je peux espérer trouver une remplaçante plus performante dans les gammes 4060ti/4070 ou des 7700/xt convaincantes dans ces tarifs, même si je dois attendre encore 6 mois à 1an. Vu les MSRP et les tarifs actuels (certes 2 ans après leur sortie), c'est déjà trouvable.
Malheureusement, la 6750xt et la 3070 sont peu convaincantes (+ manque de VRAM avec la 3070 mal foutue), la 6800 tout juste abordable bien que trop proche de son msrp me fait de l'oeil comme jamais. J'attends de voir ce qu'il sort, tant que je ne suis pas dans l'urgence de changer.
par Un rat goth à l'heure en Provence-Alpes-Côte d'Azur, le Mercredi 02 Novembre 2022 à 09h51  
par Un ragoteur sans nom en Bourgogne-Franche-Comté le Samedi 15 Octobre 2022 à 19h32
Le GAP de prix et de conso, sans parler de la taille du bazar, sont eux aussi énormes. Je dirais plutôt indécents. J'ai payé ma 1080ti 678 euros au printemps 2017 grâce à une ristourne de mamazone. Elle me permet de jouer à presque tous les jeux en 1440p moyennant des compromis sur certaines options encore actuellement, presqu'en 2023. Elle est double slot ( oui j'ai une autre carte fille qui va rester en place tant que windows l'accepte ) et tire au max 250W de ma petite entreprise qui ne connaît pas la crise alim.

Je passe mon tour et attendrai les futures cartes à 450-550 euros de l'un ou l'autre des concepteurs (je mets Intel de côté en attendant mieux chez eux), si tant est qu'elles soient convaincantes.
450 / 550 lol on est en 2022 pas en 2017....
Entre la guerre, les tensions mondial, le coût de conception de plus en plus dur, les prix de TMSC, et la chute de l'euro bon courage ....