Preview • Intel ARC A770 LE 16 Go & A750 LE |
————— 05 Octobre 2022
Preview • Intel ARC A770 LE 16 Go & A750 LE |
————— 05 Octobre 2022
À l'instar de ses 2 compères concevant des GPU pour les PC grand public, Intel introduit tout un vocabulaire lié à ses technologies. Ainsi, la microarchitecture utilisée pour cette première fournée de GPU, porte le doux nom de Xe-HPG, nom de code Alchemist. Les cartes graphiques prennent la dénomination ARC Axxx, la gamme étant composée des séries 3 (entrée de gamme), 5 (mainstream) et 7 (performance).
La gamme ARC
Pour l'heure, 2 GPU ont été annoncés, les ACM-G11 et ACM-G10 animant respectivement les séries 3 et 7. Compte tenu des spécifications relativement proches entre les séries 7 et 5, il est fort probable que ces dernières partagent le même GPU, mais avec une limite de puissance et un niveau d'activation des unités différents.
Les 2 GPU Alchemist
Le "petit" GPU aka ACM-G11, intègre 7,2 milliards de transistors au sein de son die de 157 mm² gravé en 6 nm par TSMC. Il est pour l'heure utilisé sur l'ARC A380, une carte d'entrée de gamme difficilement trouvable dans nos contrées. Plus intéressant et objet de notre dossier, l'ACM-G10 est une puce bien plus ambitieuse, puisque comprenant pas moins de 21,7 milliards de transistors, toujours gravés en 6 nm par TSMC, pour un die de 406 mm². Voici un petit rendu de ce dernier, parce que c'est toujours plaisant pour la rétine.
Le rendu du die d'ACM-G10
Si on omet les puces Ada Lovelace qui viennent d'être annoncées et profitent d'une densité exceptionnelle liée au process 4 nm de TSMC, on remarque qu'ACM-G10 est 3,6 % plus grand que GA104, qui utilise pourtant un procédé moins performant. L'écart est plus important face à Navi 22 (21,2 %) qui utilise le même nœud de gravure, mais légèrement moins optimisé (le 6 nm de TSMC est une optimisation de son 7 nm comme le 4 nm vis-à-vis du 5 nm). Le souci pour Intel ici, c'est qu'il positionne ses ARC 7 en face des cartes graphiques à base de GA106 ou Navi 23, des GPU nettement plus petits et donc vraisemblablement moins onéreux à produire.
Gravure | GPU | Nombre de transistors | Superficie Die |
Densité (Millions de transistors / mm²) |
---|---|---|---|---|
4 nm TSMC | AD102 | 76,3 Milliards | 608,5 mm² | 125,4 |
4 nm TSMC | AD104 | 35,8 Milliards | 294,5 mm² | 121.6 |
4 nm TSMC | AD103 | 45,9 Milliards | 378,6 mm² | 121.2 |
7 nm TSMC | GA100 | 54.2 Milliards | 826 mm² | 65,6 |
6 nm TSMC | ACM-G10 | 21,7 Milliards | 406 mm² | 53,4 |
7 nm TSMC | Navi 21 | 26,8 Milliards | 520 mm² | 51,6 |
7 nm TSMC | Navi 22 | 17,2 Milliards | 335 mm² | 51,3 |
7 nm TSMC | Navi 23 | 11,1 Milliards | 237 mm² | 46,8 |
6 nm TSMC | ACM-G11 | 7,2 Milliards | 157 mm² | 45,9 |
8 nm Samsung | GA102 | 28,3 Milliards | 628 mm² | 45 |
8 nm Samsung | GA104 | 17,4 Milliards | 392 mm² | 44,4 |
8 nm Samsung | GA106 | 12 Milliards | 276 mm² | 43,5 |
7 nm TSMC | Navi 10 | 10,3 Milliards | 251 mm² | 41 |
7 nm TSMC | Vega 20 | 13.2 Milliards | 331 mm² | 39,9 |
16 nm TSMC | GP102 | 12 Milliards | 471 mm² | 25,5 |
14 nm GF | Vega 10 | 12.5 Milliards | 495 mm² | 25,3 |
16 nm TSMC | GP100 | 15,3 Milliards | 610 mm² | 25,1 |
12 nm TSMC | TU104 | 13,6 Milliards | 545 mm² | 25 |
12 nm TSMC | TU102 | 18,6 Milliards | 754 mm² | 24,7 |
12 nm TSMC | TU106 | 10,8 Milliards | 445 mm² | 24,3 |
Attaquons à présent la partie architecturale du GPU ACM-G10, en débutant par une vue macroscopique de l'organisation de ce dernier. Sans surprise, il ressemble fortement à ce que l'on peut trouver chez la concurrence. Ainsi, un processeur de commande (Global Dispach) est chargé d'ordonner et affecter les tâches aux différentes unités de calcul du GPU. Avant de détailler ces dernières, faisons un peu le tour des principaux éléments connexes, à savoir l'interface PCIe (x16 Gen 4.0) pour le raccordement au CPU, le Display Engine chargé de l'affichage et le Media Engine en charge des tâches d'encodage/décodage vidéo. Nous reviendrons également sur ces 2 derniers éléments un peu plus loin. Viennent ensuite la mémoire cache L2 d'une capacité totale de 16 Mo, et les 8 contrôleurs mémoire 32-bit, permettant un adressage à 256-bit de la GDDR6.
ACM-GA10 dans sa version intégrale telle qu'employée pour l'ARC A770
À l'instar des GPC sur les GPU verts, Intel propose ici des Render Slice (8 maximum sur ACM-GA10), une structure regroupant les unités de géométrie (en charge de la génération des triangles, mais aussi de la tesselation, etc.), de rastérisation (découpe des triangles en pixels), de texturing (nommées sampler ici, 32 par Render Slice pour un total de 256), Hierachical Z, mais aussi les ROP (Pixel backend, 16 par Render Slice soit 128 au total) et bien entendu les unités dédiées au Ray Tracing ainsi qu'aux différents calculs, que nous allons à présent détailler.
Render Slice Xe HPG
Au sein des Render Slice, se trouvent ce qu'Intel nomme les Xe-Core, au nombre de 4. En poursuivant l'analogie avec l'organisation des GPU concurrents, les structures similaires seraient les SM (Streaming Multiprocessor) côté vert ou CU (Compute Unit) côté rouge. Ce Xe-Core se compose de 16 unités vectorielles (Xe Vector Engine, comprenant 8 SP (FP), 8 INT et 2 EM (opération complexe = SFU), se rapprochant ainsi davantage de l'approche d'AMD, même si des différences structurelles existent. On notera que les entiers et opérations complexes (sin, cos, etc.) ne peuvent pas être éxécutés simultanéments (soit l'un soit l'autre) ce qui n'est pas le cas des flottants. Au sein du Xe-Core sont également présentes des unités matricielles XMX (16 également), que l'on pourrait cette fois comparer aux Tensor Cores du caméléon et que nous détaillerons un peu plus loin. À cela s'ajoutent bien entendu les registres d'instructions, ainsi que le cache L1 et la mémoire locale partagée (192 ko en tout pour ces 2 là).
Le Xe-core, la structure de base d'Alchemist
En termes de capacités, les Xe Vector Engine sont capables de réaliser 16 opérations FP32 par cycle ou 32 en demi-précision (FP16), ou enfin 64 INT8 par cycle d'horloge. Ajoutons qu'un Xe-Core est capable de traiter en parallèle des calculs sur entiers, flottants et matriciels. Enfin, à l'instar des CU d'AMD qui fonctionnent par couple au sein d'un WGP, les Xe Vector Engine fonctionnent par paire. Intel indique d'ailleurs une gestion très efficace des différents threads, les tests pratiques mettront à l'épreuve cette assertion.
Les unités Xe Vector Engine et XMX
Petit zoom à présent sur les unités XMX. Ces dernières sont capables de réaliser des opérations de multiplication-addition en précision mixte sur une matrice. De quoi atteindre des débits très importants en faible précision, dont l'IA est friande en particulier pour les tâches d'inférences.
Le Xe-core, l'unité de base d'Alchemist
Intel indique ainsi que pour des calculs INT8, la vitesse de traitement peut être multipliée par 16 par rapport à une unité de calcul traditionnelle, en utilisant ses unités matricielles XMX. À l'instar du caméléon qui a développé le DLSS en s'appuyant sur ses Tensor Cores, les bleus proposent un upscaling ouvert (XeSS) pouvant s'appuyer sur l'inférence. Par contre, pour des raisons de compatibilité avec les différents GPU, les performances varieront selon le type d'unités capables d'en faire le traitement. Nous détaillerons cela dans un futur dossier.
Les performances des unités XMX
Passons à présent aux capacités en Ray Tracing de ce nouveau GPU. Pour concurrencer NVIDIA qui est pour l'heure le champion incontesté dans ce domaine, les bleus ont développé un accélérateur de BVH prenant en charge les 3 étapes (Intersection avec les boites, intersection avec les triangles, traversée de l'arbre du BVH) et disposant d'un cache dédié spécifiquement à cette technique. Une unité annexe est également présente au sein du Xe-Core, afin de gérer l'ordonnancement des tâches liées au Ray Tracing.
Un pipeline optimisé pour le RT
En effet, du fait des multiples rebonds des rayons et du temps nécessaire à la traversée du BVH, les charges ne sont pas uniformes et le GPU peut perdre un temps précieux à attendre les résultats. L'unité d'ordonnancement va apporter de la cohérence au sein de tout cela, afin d'obtenir un meilleur parallélisme et donc de meilleures performances in fine. À noter que les verts ont annoncé une technique similaire lors du lancement de Lovelace.
Les défis de l'accélération hardware du RT
Intel résume le fonctionnement de son approche par le biais des schémas suivants, mettant en évidence la nature asynchrone par essence du Ray Tracing et la pertinence de son approche pour une exécution optimale. Là aussi les tests pratiques mettront à l'épreuve cette assertion.
L'implémentation de l'accélération RT selon Intel
Un mot rapide sur le moteur d'affichage, qui prend en charge jusqu'à 4 flux vidéos simultanés. Côté norme, le HDMI se limite à la version 2.0b, pas de panique pour autant puisqu'il est possible pour les fabricants de proposer sur leur modèle la 2.1, via un convertisseur DisplayPort vers HDMI 2.1 optionnel. À propos de DisplayPort, la norme 2.0 10G est enfin de vigueur (même si la 1.4a n'est en rien limitante pour la plupart des usages). Du côté moteur vidéo, là aussi les dernières itérations sont supportées, et ce autant en décodage qu'en encodage, soit une première pour l'encodage pour de l'AV1 (partagée avec Ada Lovelace).
Des moteurs d'affichage et vidéo dernier cri
Finissons cette page par les techniques liées au rafraîchissement vertical. L'Adaptative Sync est bien entendu de la partie (encore heureux) pour les afficheurs haut de gamme dédiés aux joueurs, Intel n'oublie toutefois pas les autres en proposant un Smooth Sync, censé réduire l'effet de déchirement en V-Sync off via l'application d'un filtre dithering, créant un effet d'optique qui réduit sa perception. A voir en pratique.
De la synchro améliorée pour tout le monde
Voilà, c'est tout ce que nous pouvions vous dire sur cette nouvelle microarchitecture Xe-HPG dans le temps imparti, passons à la description des cartes en page suivante.
|