3D Gaussian splatting : de la création de scènes 3D en temps réel qui va vous laisser pantois

Core Ultra 5 245K : 13 refs en stock Tendance stable
Core i5-14600k : 7 refs en stock Tendance baissière
Core Ultra 7 265K : 10 refs en stock Tendance baissière
Core i5-14700k : 19 refs en stock Tendance baissière
Core Ultra 9 285K : 3 refs en stock Tendance stable
Ryzen 7 5800X3D : 1 ref en stock Tendance stable
RTX 4060 ti : 40 refs en stock Tendance baissière
Ryzen 9600X : 1 ref en stock Tendance stable
RTX 4070 SUPER : 8 refs en stock Tendance baissière
RTX 4070 TI SUPER : 2 refs en stock Tendance haussière
RTX 4080 SUPER : 1 ref en stock Tendance baissière
Ryzen 9700X : 3 refs en stock Tendance stable
Ryzen 7 7700X : 3 refs en stock Tendance baissière
Ryzen 9 7800X3D : 8 refs en stock Tendance baissière
ryzen 9800X3D : 7 refs en stock Tendance baissière
RTX 4090 : 2 refs en stock Tendance baissière
RX 7600 : 17 refs en stock Tendance haussière
RX 7700 XT : 21 refs en stock Tendance haussière
Ryzen 9 7950X3D : 6 refs en stock Tendance haussière
RX 7800 XT : 14 refs en stock Tendance haussière
RX 7900 XT : 12 refs en stock Tendance haussière
PS5 Pro : 6 refs en stock Tendance baissière

La réception • Actualités • IA & VR

Une équipe de chercheurs issus de l’Inria (Institut national de recherche en sciences et technologies du numérique), de l’Université Côte d'Azur et de la TU Wien (Université technique de Vienne) ont présenté, en amont du SIGGRAPH 2024 qui se déroulera fin juillet, un papier intitulé « A Hierarchical 3D Gaussian Representation for Real-Time Rendering of Very Large Datasets ». Comme le titre l’explicite, la publication porte sur une technique de rendu en temps réel, appelée 3D Gaussian splatting ; elle est censée offrir des visuels d’excellente qualité tout en garantissant un bon niveau de performances.

3d gaussian splating capture

Le 3D Gaussian splatting, c’est quoi ce truc ?

Difficile de traduire le Gaussian splatting en français ; cela donnerait quelque chose comme éclaboussures gaussiennes, ce qui ne rend pas la chose plus intelligible. Pour la faire simple et courte, c’est une nouvelle technique de NVS (Novel View Synthesis – la synthèse de vues) très prometteuse. En effet, elle doit permette de rendre en temps réel des scènes photoréalistes à partir d'un petit nombre d'images ; ce, en 1080p à plus de 100 images par seconde, avec un coup de machine learning. Vous l’imaginez, dans de nombreux domaines – cinéma, architecture, jeux vidéo, imagerie médicale, etc – créer des environnements 3D à partir de simples vues 2D est une perspective alléchante.

De manière générale, le NVS consiste à recréer des scènes complètes en temps réel à partir d’échantillons d’images : par exemple recréer virtuellement la pièce dans laquelle vous vous trouvez en se basant sur quelques clichés.

Naturellement, à mesure que la quantité d’éléments à générer augmente, le processus se complexifie. Pour les cas qui intéressent l’équipe de chercheurs susmentionnée, nous parlons de « scènes à grande échelle, avec des dizaines de milliers d'images d'entrée sur une distance de plusieurs kilomètres au niveau du sol ». Grâce aux progrès de l'apprentissage automatique, la NVS s’est toutefois nettement perfectionnée ces dernières années.

Comme l’expliquent les auteurs, historiquement, la méthode traditionnelle de rendu est ce qu’ils qualifient de « Image-Based and Mesh-based reconstructions ». Concrètement, c’est un procédé qui mêle des techniques de SfM (Structure from Motion) et de MVS (Multi-View Stereo). Ils pointent toutefois deux limites : sa capacité, limitée à une pièce où à quelques bâtiments en raison de la puissance de calcul nécessaire, et un mauvais rendu de certains objets tels que la végétation et les matériaux orthotropes.

Prosaïquement, c’est de la photogrammétrie qui consiste à estimer les positions de la caméra dans l'espace et à trouver des points communs dans les images pour créer un maillage. Le modèle obtenu peut être texturé, ce qui permet des visualisations photoréalistes. L’avantage de cette méthode de vision par ordinateur largement utilisée jusqu'ici, est sa grande précision. Comme mentionné par les auteurs, cette technique nécessite toutefois une grande quantité d'images haute résolution et requiert de nombreux calculs ; cela limite sa capacité à traiter de larges environnements.

En 2019, les NeRFs (Neural Radiance Fields ou « champs de radiance neuronaux ») ont révolutionné le domaine. Le Mip-NeRF 360 de Google a introduit des outils d’apprentissage automatique pour représenter une scène. NVIDIA avait emboîté le pas de Google avec Instant NGP.

Tandis que les scènes 3D sont généralement des grilles de voxels ou des maillages de polygones, les champs neuronaux représentent l’ensemble des coordonnées spatiales et temporelles d’une scène et utilise l'IA pour se rapprocher du comportement de la lumière dans le monde réel. La puissance de déduction de ces réseaux n'est plus à démontrer. Néanmoins, comme toujours, l'entraînement prend du temps (plusieurs dizaines d’heures pour une scène).

neural field

Un algorithme de champ neuronal typique © Xie et al

En avril 2022, NVIDIA présentait Instant NeRF à travers la séquence ci-dessous. Comme l'explicite le nom de la technologie, elle promet un rendu rapide sur les cartes de l’entreprise grâce aux optimisations de la bibliothèque Tiny CUDA Neural Networks. Concrètement, l’entreprise mise sur technique développée pour l’occasion appelée codage de grille de hachage multi-résolution. NVIDIA revendique une accélération pouvant atteindre un facteur 1000 par rapport aux solutions concurrentes, arguant que la scène 3D ci-dessous est restituée en quelques dizaines de millisecondes.

Factuellement, la société écrivait qu'un NeRF remplit essentiellement les blancs, en entraînant un petit réseau neuronal à reconstruire la scène en prédisant la couleur de la lumière rayonnant dans n'importe quelle direction, à partir de n'importe quel point de l'espace tridimensionnel. Cette approche permet de contourner les occlusions - lorsque des objets vus sur certaines images sont bloqués par des obstacles tels que des piliers sur d'autres images.

David Luebke, vice-président de la recherche graphique chez NVIDIA, résumait : « Si les représentations 3D traditionnelles comme les maillages polygonaux s'apparentent à des images vectorielles, les NeRF sont comme des images bitmap : elles capturent de manière dense la façon dont la lumière rayonne à partir d'un objet ou à l'intérieur d'une scène. En ce sens, Instant NeRF pourrait être aussi important pour la 3D que les appareils photo numériques et la compression JPEG l'ont été pour la photographie 2D, augmentant considérablement la vitesse, la facilité et la portée de la capture et du partage 3D ».

Enfin, en 2023, plusieurs chercheurs (Georgios Kopanas, Bernhard Kerbl et George Drettakis de l’équipe de recherche GraphDeco, en collaboration avec Thomas Leimkühler du Max Planck Institut) ont présenté à la SIGGRAPH 2023 le 3D Gaussian splatting. Ils prétendent que leur méthode permet d’égaler en 30 minutes la qualité de rendu de celle de Google et en 7 minutes celle de NVIDIA. Ce, avec une excellente qualité d’image et avec un rendu au-delà de 100 images par seconde.

NeRF / 3D Gaussian splatting, quelles différences ?

Le 3D Gaussian splatting et les NeRF partagent certains points communs, à commencer par les champs de radiance. En outre, ils sont adaptés à des environnements vastes, pour lesquels photographier exhaustivement depuis différents points de vue serait un travail titanesque. Il y a toutefois quelques différences.

Par exemple, le NeRF utilise des réseaux neuronaux pour stocker les fichiers sous forme de poids neuronaux qui définissent un champ de radiance à l'aide de voxels, de hachages, de grilles ou de points. Le splatting gaussien stocke les fichiers sous la forme d'une collection de points gaussiens. Pour le formuler autrement, le 3D Gaussian Splatting représente une scène 3D comme des millions de particules, des gaussiennes 3D. En outre, le NeRF utilise le traçage de rayons pour générer des images. Le splatting gaussien a recours à de la « rastérisation gaussienne » qui tient compte de quatre paramètres : la position, la covariance, la couleur et la transparence.

Dans une publication datée du 8 décembre 2023 et mise à jour en janvier 2024 sur le site de l’Inria, Georgios Kopanas explique qu’il y a trois éléments clés pour atteindre une qualité visuelle satisfaisante à une fréquence d’images élevée tout en garantissant un temps d'apprentissage compétitif :

« Tout d'abord, à partir de points épars produits lors de la calibration de la caméra, nous représentons la scène avec des gaussiennes 3D qui préservent les propriétés souhaitables des champs de radiance volumétrique continue pour l'optimisation de la scène tout en évitant les calculs inutiles dans l'espace vide. Ensuite, nous effectuons une optimisation et un contrôle de la densité entrelacés des gaussiennes 3D, notamment en optimisant la covariance anisotrope (avec un côté très fin quand l’autre est très petit) afin d'obtenir une représentation précise de la scène. Troisième étape, nous développons un algorithme de rendu rapide tenant compte de la visibilité qui prend en charge l'anisotropie et qui accélère l'apprentissage et permet un rendu en temps réel. La qualité visuelle de notre méthode est égale à l'état de l'art et permet le rendu en temps réel sur plusieurs jeux de données habituellement utilisés par des méthodes concurrentes ».

Son comparse George Drettakis, responsable de l'équipe GraphDeco, ajoute : « Techniquement parlant, notre méthode n’est pas du machine learning (apprentissage machine) stricto sensu mais la méthode se base sur des techniques de machine learning pour s’entraîner et améliorer la qualité du rendu. »

En pratique, un papier publié sur TechTarget par George Lawton rapporte que le temps d'apprentissage du 3D Gaussian splatting est environ 50 fois plus rapide que celui des NeRF pour une qualité égale ou supérieure ; que le 3D Gaussian splatting peut rendre plus de 135 FPS, contre 0,1 FPS pour les NeRF de la plus haute qualité et 8 FPS pour les NeRF de moindre qualité mais plus rapides. L’article de l’Inria n’avance pas de tels écarts, mais expose une vitesse d'affichage limitée à 15 images par seconde pour InstantNGP de NVIDIA. Le papier souligne aussi que « pour des scènes complètes et non limitées (plutôt que des objets isolés) et un rendu en 1080p, aucune méthode actuelle ne peut atteindre des taux d'affichage en temps réel » digne du 3D Gaussian splatting. Dans la séquence ci-dessus, c'est une RTX 3090 qui gère le rendu en temps réel du 3DGS.

3D Gaussian splatting : qu’est-ce que ça donne ?

Nous en avons fini avec la théorie ; place à la pratique. Les auteurs de la publication ont élaboré un nouveau modèle hiérarchisé. Plutôt que de traiter un ensemble de données comme une « entité monolithique, », il adopte une approche qualifiée de « diviser pour mieux régner ». Elle aboutit après entraînement à une hiérarchie « arborescente » structurée avec un système de LOD (Level-of-detail) qui relève trois défis simultanément : la génération d'une structure LOD avec plusieurs niveaux de détail, une politique pour sélectionner le niveau approprié pour une vue donnée, et la capacité de passer de l'un à l'autre sans causer d'artefacts perturbateurs. Dans les faits, cette solution permet de limiter le nombre de gaussiennes rendues à chaque image, ce qui réduit les besoins en ressources.

Les auteurs montrent les résultats pour des scènes capturées avec des dizaines de milliers d'images. Elles couvrent des trajectoires allant jusqu'à plusieurs kilomètres qui peuvent durer jusqu'à une heure. Voici le détail pour les différentes séquences, suivi d'une image montrant le dispositif de caméras utilisé.

3d gaussian splating dispositifs capture

3d gaussian splating velo

Quant au rendu final, le voici :

La documentation précise que l'optimisation primaire, l'optimisation d'un seul bloc et l'optimisation de la hiérarchie prennent chacune une heure sur un GPU NVIDIA V100 (32 Go), avec des pics d'utilisation de la mémoire de 2 à 5 Go, 8 à 10 Go et 11 à 16 Go, respectivement. Après l'optimisation par morceau et la consolidation, la taille des fichiers pour les scènes hiérarchiques est de 6, 17, 27 et 88 Go, soit environ 68 % de plus que les fichiers 3DGS non hiérarchiques.

En matière de performances, la publication fournit les valeurs ci-dessous pour différentes méthodes. Si le terme de FPS (Frame per Second) se passe d’explications, les autres sont sans doute plus obscurs. PSNR (Peak Signal to Noise Ratio) mesure la la qualité de reconstruction de l'image compressée par rapport à l'image originale (plus la valeur est élevée, mieux c’est) ; LPIPS (Learned Perceptual Image Patch Similarity) et SSIM (Structural Similarity Index Measure) quantifient la similarité entre deux images données.

3d gaussian splating comparaison fps avec autres methodes

Voici également quelques comparaisons visuelles avec d’autres méthodes :

3d gaussian splating comparaisons visuelles avec d'autres méthodes [cliquer pour agrandir]

Les auteurs de la publication sont Bernhard Kerbl, Andreas Meuleman, Georgios Kopanas, Michael Wimmer, Alexandre Lanvin et George Drettakis. Le premier a publié quelques messages sur le réseau social X. Vous pouvez également consulter le document complet à cette adresse.

Happy to announce the results of our latest research, which takes 3D Gaussian Splatting to the next level: "A Hierarchical 3D Gaussian Representation for Real-Time Rendering of Very Large Datasets," which has been accepted at #SIGGRAPH2024!???? Find it here: https://t.co/ZjspxIXPXo pic.twitter.com/QNJ9kRY80B
— Bernhard Kerbl (@Snosixtytwo) May 1, 2024

Un poil avant ?

Strix Point, Fire Range, Granite Ridge : on fait le point sur les Ryzen Zen 5 à venir

Un peu plus tard ...

Lenovo Legion 7000K : quand un CPU mobile embarque clandestinement dans un PC fixe

Une technique de création de scènes en 3D à partir de simples photos qui promet du rendu en temps réel en 1080p à plus de 100 IPS.

8 minutes et demi

Sur le comptoir, au ~même sujet

	Test • Zen 5 vs Arrow Lake-S : 9800X3D, Core Ultra 285K, 265K et 245K
	Test • Inno3D RTX 4070 Twin X2
	Steel Nomad, le nouveau benchmark de 3DMark, classe 40 cartes graphiques
	Ryzen 7 9800X3D : cher, mais super en jeux, mais cher !
	Ryzen, 3D-V cache, tension et barbecue (MAJ)
	AMD révèle les prix et la date de lancement des Ryzen 9 X3D
	Le Ryzen 7 7800X3D met le 13900K (presque) K-O par déficit énergétique
	AMD compare le Ryzen 7 9800X3D au Ryzen 7 7800X3D
	VoodooX, un projet qui donne une seconde jeunesse aux cartes 3dfx
	AMD officialise l'arrivée imminente d’au moins un Ryzen 9000X3D
	AMD Ryzen 7000X3D : on repasse à trois (gros) CPU !
	Un premier test du Ryzen 5 7600X3D : un processeur performant, mais trop onéreux

Suivez-nous sur G.Actualités

Les 6 ragots

Les ragots sont actuellement
ouverts à tous, c'est open bar !

Changer l'ordre d'affichage des ragôts
Vous devez être identifié pour changer cette option !

par lord Varices, le Mardi 14 Mai 2024 à 06h31

par Un galvaudeur du guignol du Grand Est ?? le Vendredi 10 Mai 2024 à 15h17

Aucune des vidéos ne présente un résultat digne d'intérêt... ce n'est pas de la reconstruction mais un bricolage immonde (digne de Google Street View) qu'on nous montre.

Je sais pas si c'est du troll ou si tu as de la merde dans les yeux. Entre suivre une ligne fixe avec un point de vue tous les 10 m et pouvoir évoluer dans environnement recréé, c'est pas un fossé d'écart qu'il y a c'est un détroit.
Faisant du projet en aménagement urbain, je vois tout de suite l'intérêt de la chose, il faudrait toutefois que l'outil puisse créer derrière un mesh exploitable pour pouvoir intégrer du projet dans les logiciels de conception.

par Un ragoteur bio du Grand Est, le Samedi 11 Mai 2024 à 09h50

par Un ragoteur viewer embusqué le Vendredi 10 Mai 2024 à 15h38

du google street view mais avec génération d'images intermédiaires.

C'est déjà le cas dans Street View et les déformations sont étonnamment similaires.

La technique décrite ne devrait pas provoquer de déformations élastiques comme le montrent les vidéos (et comme le fait Street View), preuve indiscutable qu'on est pas sur une "reconstruction", laquelle ne nécessite d'ailleurs pas forcément énormément de photos source, le nombre diminuant simplement la complexité des calculs au prix de la taille de la "base de données", sans réel impact a priori sur la consommation de mémoire ceci dit.

par Un ragoteur bio du Grand Est, le Samedi 11 Mai 2024 à 09h42

par Adam & Eve ?? le Vendredi 10 Mai 2024 à 22h07

.. et en 3D surtout, on est très loin d'un sreet view mdr.
C'est très impressionnant et ce papier est fort intéressant. Bravo Rémi pour la retranscription qui demandera plusieurs lectures pour bien cerner l'idée.

Je reste néanmoins interrogatif sur des exemples d'applications concrètes pour cette technologie ?

Justement, ce n'est pas de la "3D" et, si c'est intéressant "sur le papier", avec une technique similaire au pathtracing (donc sans géométrie), les vidéos montrent tout autre chose.

par Adam & Eve ••, le Vendredi 10 Mai 2024 à 22h07

par Un ragoteur viewer embusqué, le Vendredi 10 Mai 2024 à 15h38

du google street view mais avec génération d'images intermédiaires.

par Un galvaudeur du guignol du Grand Est ••, le Vendredi 10 Mai 2024 à 15h17