COMPTOIR
  
register

×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×

Preview • Intel ARC A770 LE 16 Go & A750 LE
La gamme ARC
Les 2 CPU Alchemist
Le die d'ACM-G10
Diagramme logique ACM-G10
Un render Slice
Xe-Core
Co-issue
Les unités XMX
Les performances des unités XMX
Cohérence RT
Unité d'ordonnancement RT
RT Xe HPG
L'approche d'Intel en RT
Display Engine
Media Engine
Les différents modes de synchronisation verticale supportés
Smooth Sync

• ARC Alchemist : Les GPU

À l'instar de ses 2 compères concevant des GPU pour les PC grand public, Intel introduit tout un vocabulaire lié à ses technologies. Ainsi, la microarchitecture utilisée pour cette première fournée de GPU, porte le doux nom de Xe-HPG, nom de code Alchemist. Les cartes graphiques prennent la dénomination ARC Axxx, la gamme étant composée des séries 3 (entrée de gamme), 5 (mainstream) et 7 (performance).  

 

La gamme ARC [cliquer pour agrandir]

 La gamme ARC

  

Pour l'heure,  2 GPU ont  été annoncés, les ACM-G11 et ACM-G10 animant respectivement les séries 3 et 7. Compte tenu des spécifications relativement proches entre les séries 7 et 5, il est fort probable que ces dernières partagent le même GPU, mais avec une limite de puissance et un niveau d'activation des unités différents.

 

Les 2 CPU Alchemist [cliquer pour agrandir]

 Les 2 GPU Alchemist

 

Le "petit" GPU aka ACM-G11, intègre 7,2 milliards de transistors au sein de son die de 157 mm² gravé en 6 nm par TSMC. Il est pour l'heure utilisé sur l'ARC A380, une carte d'entrée de gamme difficilement trouvable dans nos contrées. Plus intéressant et objet de notre dossier, l'ACM-G10 est une puce bien plus ambitieuse, puisque comprenant pas moins de 21,7 milliards de transistors, toujours gravés en 6 nm par TSMC, pour un die de 406 mm². Voici un petit rendu de ce dernier, parce que c'est toujours plaisant pour la rétine.

 

Le die d'ACM-G10 [cliquer pour agrandir]

 Le rendu du die d'ACM-G10

 

Si on omet les puces Ada Lovelace qui viennent d'être annoncées et profitent d'une densité exceptionnelle liée au process 4 nm de TSMC, on remarque qu'ACM-G10 est 3,6 % plus grand que GA104, qui utilise pourtant un procédé moins performant. L'écart est plus important face à Navi 22 (21,2 %) qui utilise le même nœud de gravure, mais légèrement moins optimisé (le 6 nm de TSMC est une optimisation de son 7 nm comme le 4 nm vis-à-vis du 5 nm). Le souci pour Intel ici, c'est qu'il positionne ses ARC 7 en face des cartes graphiques à base de GA106 ou Navi 23, des GPU nettement plus petits et donc vraisemblablement moins onéreux à produire. 

 

Gravure
GPU
Nombre de transistorsSuperficie Die

Densité (Millions de transistors / mm²)

4 nm TSMC AD102 76,3 Milliards 608,5 mm² 125,4
4 nm TSMC AD104 35,8 Milliards 294,5 mm² 121.6
4 nm TSMC AD103 45,9 Milliards 378,6 mm² 121.2
7 nm TSMC GA100 54.2 Milliards 826 mm² 65,6
6 nm TSMC ACM-G10 21,7 Milliards 406 mm² 53,4
7 nm TSMC Navi 21 26,8 Milliards 520 mm² 51,6
7 nm TSMC Navi 22 17,2 Milliards 335 mm² 51,3
7 nm TSMC Navi 23 11,1 Milliards 237 mm² 46,8
6 nm TSMC ACM-G11 7,2 Milliards 157 mm² 45,9
8 nm Samsung GA102 28,3 Milliards 628 mm² 45
8 nm Samsung GA104 17,4 Milliards 392 mm² 44,4
8 nm Samsung GA106 12 Milliards 276 mm² 43,5
7 nm TSMC Navi 10 10,3 Milliards 251 mm² 41
7 nm TSMC Vega 20 13.2 Milliards 331 mm² 39,9
16 nm TSMC GP102 12 Milliards 471 mm² 25,5
14 nm GF Vega 10 12.5 Milliards 495 mm² 25,3
16 nm TSMC GP100 15,3 Milliards 610 mm² 25,1
12 nm TSMC TU104 13,6 Milliards 545 mm² 25
12 nm TSMC TU102 18,6 Milliards 754 mm² 24,7
12 nm TSMC TU106 10,8 Milliards 445 mm² 24,3

 

 

• ARC XE-HPG

Attaquons à présent la partie architecturale du GPU ACM-G10, en débutant par une vue macroscopique de l'organisation de ce dernier. Sans surprise, il ressemble fortement à ce que l'on peut trouver chez la concurrence. Ainsi, un processeur de commande (Global Dispach) est chargé d'ordonner et affecter les tâches aux différentes unités de calcul du GPU. Avant de détailler ces dernières, faisons un peu le tour des principaux éléments connexes, à savoir l'interface PCIe (x16 Gen 4.0) pour le raccordement au CPU, le Display Engine chargé de l'affichage et le Media Engine en charge des tâches d'encodage/décodage vidéo. Nous reviendrons également sur ces 2 derniers éléments un peu plus loin. Viennent ensuite la mémoire cache L2 d'une capacité totale de 16 Mo, et les 8 contrôleurs mémoire 32-bit, permettant un adressage à 256-bit de la GDDR6.

 

Diagramme logique ACM-G10 [cliquer pour agrandir]ACM-GA10 dans sa version intégrale telle qu'employée pour l'ARC A770

 

À l'instar des GPC sur les GPU verts, Intel propose ici des Render Slice (8 maximum sur ACM-GA10), une structure regroupant les unités de géométrie (en charge de la génération des triangles, mais aussi de la tesselation, etc.), de rastérisation (découpe des triangles en pixels), de texturing (nommées sampler ici, 32 par Render Slice pour un total de 256), Hierachical Z, mais aussi les ROP (Pixel backend, 16 par Render Slice soit 128 au total) et bien entendu les unités dédiées au Ray Tracing ainsi qu'aux différents calculs, que nous allons à présent détailler.

 

Un render Slice [cliquer pour agrandir]Render Slice Xe HPG

  

Au sein des Render Slice, se trouvent ce qu'Intel nomme les Xe-Core, au nombre de 4. En poursuivant l'analogie avec l'organisation des GPU concurrents, les structures similaires seraient les SM (Streaming Multiprocessor) côté vert ou CU (Compute Unit) côté rouge. Ce Xe-Core se compose de 16 unités vectorielles (Xe Vector Engine, comprenant 8 SP (FP), 8 INT et 2 EM (opération complexe = SFU), se rapprochant ainsi davantage de l'approche d'AMD, même si des différences structurelles existent. On notera que les entiers et opérations complexes (sin, cos, etc.) ne peuvent pas être éxécutés simultanéments (soit l'un soit l'autre) ce qui n'est pas le cas des flottants. Au sein du Xe-Core sont également présentes des unités matricielles XMX (16 également), que l'on pourrait cette fois comparer aux Tensor Cores du caméléon et que nous détaillerons un peu plus loin. À cela s'ajoutent bien entendu les registres d'instructions, ainsi que le cache L1 et la mémoire locale partagée (192 ko en tout pour ces 2 là).    

 

Xe-Core [cliquer pour agrandir]Le Xe-core, la structure de base d'Alchemist

 

En termes de capacités, les Xe Vector Engine sont capables de réaliser 16 opérations FP32 par cycle ou 32 en demi-précision (FP16), ou enfin 64 INT8 par cycle d'horloge. Ajoutons qu'un Xe-Core est capable de traiter en parallèle des calculs sur entiers, flottants et matriciels. Enfin, à l'instar des CU d'AMD qui fonctionnent par couple au sein d'un WGP, les Xe Vector Engine fonctionnent par paire. Intel indique d'ailleurs une gestion très efficace des différents threads, les tests pratiques mettront à l'épreuve cette assertion.

 

Co-issue [cliquer pour agrandir]Les unités XVector Engine et XMX 

 

Petit zoom à présent sur les unités XMX. Ces dernières sont capables de réaliser des opérations de multiplication-addition en précision mixte sur une matrice. De quoi atteindre des débits très importants en faible précision, dont l'IA est friande en particulier pour les tâches d'inférences.

 

Les unités XMX [cliquer pour agrandir]Le Xe-core, l'unité de base d'Alchemist

 

Intel indique ainsi que pour des calculs INT8, la vitesse de traitement peut être multipliée par 16 par rapport à une unité de calcul traditionnelle, en utilisant ses unités matricielles XMX. À l'instar du caméléon qui a développé le DLSS en s'appuyant sur ses Tensor Cores, les bleus proposent un upscaling ouvert (XeSS) pouvant s'appuyer sur l'inférence. Par contre, pour des raisons de compatibilité avec les différents GPU, les performances varieront selon le type d'unités capables d'en faire le traitement. Nous détaillerons cela dans un futur dossier.

 

Les performances des unités XMX [cliquer pour agrandir]Les performances des unités XMX

 

Passons à présent aux capacités en Ray Tracing de ce nouveau GPU. Pour concurrencer NVIDIA qui est pour l'heure le champion incontesté dans ce domaine, les bleus ont développé un accélérateur de BVH prenant en charge les 3 étapes (Intersection avec les boites, intersection avec les triangles, traversée de l'arbre du BVH) et disposant d'un cache dédié spécifiquement à cette technique. Une unité annexe est également présente au sein du Xe-Core, afin de gérer l'ordonnancement des tâches liées au Ray Tracing

 

rtUn pipeline optimisé pour le RT

 

En effet, du fait des multiples rebonds des rayons et du temps nécessaire à la traversée du BVH, les charges ne sont pas uniformes et le GPU peut perdre un temps précieux à attendre les résultats. L'unité d'ordonnancement va apporter de la cohérence au sein de tout cela, afin d'obtenir un meilleur parallélisme et donc de meilleures performances in fine. À noter que les verts ont annoncé une technique similaire lors du lancement de Lovelace.  

 

Cohérence RT [cliquer pour agrandir]Unité d'ordonnancement RT [cliquer pour agrandir]

Les défis de l'accélération hardware du RT

 

Intel résume le fonctionnement de son approche par le biais des schémas suivants, mettant en évidence la nature asynchrone par essence du Ray Tracing et la pertinence de son approche pour une exécution optimale. Là aussi les tests pratiques mettront à l'épreuve cette assertion.

 

RT Xe HPG [cliquer pour agrandir]L'approche d'Intel en RT [cliquer pour agrandir]

L'implémentation de l'accélération RT selon Intel

 

Un mot rapide sur le moteur d'affichage, qui prend en charge jusqu'à 4 flux vidéos simultanés. Côté norme, le HDMI se limite à la version 2.0b, pas de panique pour autant puisqu'il est possible pour les fabricants de proposer sur leur modèle la 2.1, via un convertisseur DisplayPort vers HDMI 2.1 optionnel. À propos de DisplayPort, la norme 2.0 10G est enfin de vigueur (même si la 1.4a n'est en rien limitante pour la plupart des usages). Du côté moteur vidéo, là aussi les dernières itérations sont supportées, et ce autant en décodage qu'en encodage, soit une première pour l'encodage pour de l'AV1 (partagée avec Ada Lovelace).

 

Display Engine [cliquer pour agrandir]Media Engine [cliquer pour agrandir]

Des moteurs d'affichage et vidéo dernier cri

 

Finissons cette page par les techniques liées au rafraîchissement vertical. L'Adaptative Sync est bien entendu de la partie (encore heureux) pour les afficheurs haut de gamme dédiés aux joueurs, Intel n'oublie toutefois pas les autres en proposant un Smooth Sync, censé réduire l'effet de déchirement en V-Sync off via l'application d'un filtre dithering, créant un effet d'optique qui réduit sa perception. A voir en pratique.   

 

Les différents modes de synchronisation verticale supportés [cliquer pour agrandir]Smooth Sync [cliquer pour agrandir]

De la synchro améliorée pour tout le monde

 

Voilà, c'est tout ce que nous pouvions vous dire sur cette nouvelle microarchitecture Xe-HPG dans le temps imparti, passons à la description des cartes en page suivante.



Les 48 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !