COMPTOIR
register

×

La gamme ARC

Preview • Intel ARC A770 LE 16 Go & A750 LE
La gamme ARC
Les 2 CPU Alchemist
Le die d'ACM-G10
Diagramme logique ACM-G10
Un render Slice
Xe-Core
Co-issue
Les unités XMX
Les performances des unités XMX
Cohérence RT
Unité d'ordonnancement RT
RT Xe HPG
L'approche d'Intel en RT
Display Engine
Media Engine
Les différents modes de synchronisation verticale supportés
Smooth Sync

• ARC Alchemist : Les GPU

À l'instar de ses 2 compères concevant des GPU pour les PC grand public, Intel introduit tout un vocabulaire lié à ses technologies. Ainsi, la microarchitecture utilisée pour cette première fournée de GPU, porte le doux nom de Xe-HPG, nom de code Alchemist. Les cartes graphiques prennent la dénomination ARC Axxx, la gamme étant composée des séries 3 (entrée de gamme), 5 (mainstream) et 7 (performance).  

 

La gamme ARC [cliquer pour agrandir]

 La gamme ARC

  

Pour l'heure,  2 GPU ont  été annoncés, les ACM-G11 et ACM-G10 animant respectivement les séries 3 et 7. Compte tenu des spécifications relativement proches entre les séries 7 et 5, il est fort probable que ces dernières partagent le même GPU, mais avec une limite de puissance et un niveau d'activation des unités différents.

 

Les 2 CPU Alchemist [cliquer pour agrandir]

 Les 2 GPU Alchemist

 

Le "petit" GPU aka ACM-G11, intègre 7,2 milliards de transistors au sein de son die de 157 mm² gravé en 6 nm par TSMC. Il est pour l'heure utilisé sur l'ARC A380, une carte d'entrée de gamme difficilement trouvable dans nos contrées. Plus intéressant et objet de notre dossier, l'ACM-G10 est une puce bien plus ambitieuse, puisque comprenant pas moins de 21,7 milliards de transistors, toujours gravés en 6 nm par TSMC, pour un die de 406 mm². Voici un petit rendu de ce dernier, parce que c'est toujours plaisant pour la rétine.

 

Le die d'ACM-G10 [cliquer pour agrandir]

 Le rendu du die d'ACM-G10

 

Si on omet les puces Ada Lovelace qui viennent d'être annoncées et profitent d'une densité exceptionnelle liée au process 4 nm de TSMC, on remarque qu'ACM-G10 est 3,6 % plus grand que GA104, qui utilise pourtant un procédé moins performant. L'écart est plus important face à Navi 22 (21,2 %) qui utilise le même nœud de gravure, mais légèrement moins optimisé (le 6 nm de TSMC est une optimisation de son 7 nm comme le 4 nm vis-à-vis du 5 nm). Le souci pour Intel ici, c'est qu'il positionne ses ARC 7 en face des cartes graphiques à base de GA106 ou Navi 23, des GPU nettement plus petits et donc vraisemblablement moins onéreux à produire. 

 

Gravure
GPU
Nombre de transistorsSuperficie Die

Densité (Millions de transistors / mm²)

4 nm TSMC AD102 76,3 Milliards 608,5 mm² 125,4
4 nm TSMC AD104 35,8 Milliards 294,5 mm² 121.6
4 nm TSMC AD103 45,9 Milliards 378,6 mm² 121.2
7 nm TSMC GA100 54.2 Milliards 826 mm² 65,6
6 nm TSMC ACM-G10 21,7 Milliards 406 mm² 53,4
7 nm TSMC Navi 21 26,8 Milliards 520 mm² 51,6
7 nm TSMC Navi 22 17,2 Milliards 335 mm² 51,3
7 nm TSMC Navi 23 11,1 Milliards 237 mm² 46,8
6 nm TSMC ACM-G11 7,2 Milliards 157 mm² 45,9
8 nm Samsung GA102 28,3 Milliards 628 mm² 45
8 nm Samsung GA104 17,4 Milliards 392 mm² 44,4
8 nm Samsung GA106 12 Milliards 276 mm² 43,5
7 nm TSMC Navi 10 10,3 Milliards 251 mm² 41
7 nm TSMC Vega 20 13.2 Milliards 331 mm² 39,9
16 nm TSMC GP102 12 Milliards 471 mm² 25,5
14 nm GF Vega 10 12.5 Milliards 495 mm² 25,3
16 nm TSMC GP100 15,3 Milliards 610 mm² 25,1
12 nm TSMC TU104 13,6 Milliards 545 mm² 25
12 nm TSMC TU102 18,6 Milliards 754 mm² 24,7
12 nm TSMC TU106 10,8 Milliards 445 mm² 24,3

 

 

• ARC XE-HPG

Attaquons à présent la partie architecturale du GPU ACM-G10, en débutant par une vue macroscopique de l'organisation de ce dernier. Sans surprise, il ressemble fortement à ce que l'on peut trouver chez la concurrence. Ainsi, un processeur de commande (Global Dispach) est chargé d'ordonner et affecter les tâches aux différentes unités de calcul du GPU. Avant de détailler ces dernières, faisons un peu le tour des principaux éléments connexes, à savoir l'interface PCIe (x16 Gen 4.0) pour le raccordement au CPU, le Display Engine chargé de l'affichage et le Media Engine en charge des tâches d'encodage/décodage vidéo. Nous reviendrons également sur ces 2 derniers éléments un peu plus loin. Viennent ensuite la mémoire cache L2 d'une capacité totale de 16 Mo, et les 8 contrôleurs mémoire 32-bit, permettant un adressage à 256-bit de la GDDR6.

 

Diagramme logique ACM-G10 [cliquer pour agrandir]ACM-GA10 dans sa version intégrale telle qu'employée pour l'ARC A770

 

À l'instar des GPC sur les GPU verts, Intel propose ici des Render Slice (8 maximum sur ACM-GA10), une structure regroupant les unités de géométrie (en charge de la génération des triangles, mais aussi de la tesselation, etc.), de rastérisation (découpe des triangles en pixels), de texturing (nommées sampler ici, 32 par Render Slice pour un total de 256), Hierachical Z, mais aussi les ROP (Pixel backend, 16 par Render Slice soit 128 au total) et bien entendu les unités dédiées au Ray Tracing ainsi qu'aux différents calculs, que nous allons à présent détailler.

 

Un render Slice [cliquer pour agrandir]Render Slice Xe HPG

  

Au sein des Render Slice, se trouvent ce qu'Intel nomme les Xe-Core, au nombre de 4. En poursuivant l'analogie avec l'organisation des GPU concurrents, les structures similaires seraient les SM (Streaming Multiprocessor) côté vert ou CU (Compute Unit) côté rouge. Ce Xe-Core se compose de 16 unités vectorielles (Xe Vector Engine, comprenant 8 SP (FP), 8 INT et 2 EM (opération complexe = SFU), se rapprochant ainsi davantage de l'approche d'AMD, même si des différences structurelles existent. On notera que les entiers et opérations complexes (sin, cos, etc.) ne peuvent pas être éxécutés simultanéments (soit l'un soit l'autre) ce qui n'est pas le cas des flottants. Au sein du Xe-Core sont également présentes des unités matricielles XMX (16 également), que l'on pourrait cette fois comparer aux Tensor Cores du caméléon et que nous détaillerons un peu plus loin. À cela s'ajoutent bien entendu les registres d'instructions, ainsi que le cache L1 et la mémoire locale partagée (192 ko en tout pour ces 2 là).    

 

Xe-Core [cliquer pour agrandir]Le Xe-core, la structure de base d'Alchemist

 

En termes de capacités, les Xe Vector Engine sont capables de réaliser 16 opérations FP32 par cycle ou 32 en demi-précision (FP16), ou enfin 64 INT8 par cycle d'horloge. Ajoutons qu'un Xe-Core est capable de traiter en parallèle des calculs sur entiers, flottants et matriciels. Enfin, à l'instar des CU d'AMD qui fonctionnent par couple au sein d'un WGP, les Xe Vector Engine fonctionnent par paire. Intel indique d'ailleurs une gestion très efficace des différents threads, les tests pratiques mettront à l'épreuve cette assertion.

 

Co-issue [cliquer pour agrandir]Les unités XVector Engine et XMX 

 

Petit zoom à présent sur les unités XMX. Ces dernières sont capables de réaliser des opérations de multiplication-addition en précision mixte sur une matrice. De quoi atteindre des débits très importants en faible précision, dont l'IA est friande en particulier pour les tâches d'inférences.

 

Les unités XMX [cliquer pour agrandir]Le Xe-core, l'unité de base d'Alchemist

 

Intel indique ainsi que pour des calculs INT8, la vitesse de traitement peut être multipliée par 16 par rapport à une unité de calcul traditionnelle, en utilisant ses unités matricielles XMX. À l'instar du caméléon qui a développé le DLSS en s'appuyant sur ses Tensor Cores, les bleus proposent un upscaling ouvert (XeSS) pouvant s'appuyer sur l'inférence. Par contre, pour des raisons de compatibilité avec les différents GPU, les performances varieront selon le type d'unités capables d'en faire le traitement. Nous détaillerons cela dans un futur dossier.

 

Les performances des unités XMX [cliquer pour agrandir]Les performances des unités XMX

 

Passons à présent aux capacités en Ray Tracing de ce nouveau GPU. Pour concurrencer NVIDIA qui est pour l'heure le champion incontesté dans ce domaine, les bleus ont développé un accélérateur de BVH prenant en charge les 3 étapes (Intersection avec les boites, intersection avec les triangles, traversée de l'arbre du BVH) et disposant d'un cache dédié spécifiquement à cette technique. Une unité annexe est également présente au sein du Xe-Core, afin de gérer l'ordonnancement des tâches liées au Ray Tracing

 

rtUn pipeline optimisé pour le RT

 

En effet, du fait des multiples rebonds des rayons et du temps nécessaire à la traversée du BVH, les charges ne sont pas uniformes et le GPU peut perdre un temps précieux à attendre les résultats. L'unité d'ordonnancement va apporter de la cohérence au sein de tout cela, afin d'obtenir un meilleur parallélisme et donc de meilleures performances in fine. À noter que les verts ont annoncé une technique similaire lors du lancement de Lovelace.  

 

Cohérence RT [cliquer pour agrandir]Unité d'ordonnancement RT [cliquer pour agrandir]

Les défis de l'accélération hardware du RT

 

Intel résume le fonctionnement de son approche par le biais des schémas suivants, mettant en évidence la nature asynchrone par essence du Ray Tracing et la pertinence de son approche pour une exécution optimale. Là aussi les tests pratiques mettront à l'épreuve cette assertion.

 

RT Xe HPG [cliquer pour agrandir]L'approche d'Intel en RT [cliquer pour agrandir]

L'implémentation de l'accélération RT selon Intel

 

Un mot rapide sur le moteur d'affichage, qui prend en charge jusqu'à 4 flux vidéos simultanés. Côté norme, le HDMI se limite à la version 2.0b, pas de panique pour autant puisqu'il est possible pour les fabricants de proposer sur leur modèle la 2.1, via un convertisseur DisplayPort vers HDMI 2.1 optionnel. À propos de DisplayPort, la norme 2.0 10G est enfin de vigueur (même si la 1.4a n'est en rien limitante pour la plupart des usages). Du côté moteur vidéo, là aussi les dernières itérations sont supportées, et ce autant en décodage qu'en encodage, soit une première pour l'encodage pour de l'AV1 (partagée avec Ada Lovelace).

 

Display Engine [cliquer pour agrandir]Media Engine [cliquer pour agrandir]

Des moteurs d'affichage et vidéo dernier cri

 

Finissons cette page par les techniques liées au rafraîchissement vertical. L'Adaptative Sync est bien entendu de la partie (encore heureux) pour les afficheurs haut de gamme dédiés aux joueurs, Intel n'oublie toutefois pas les autres en proposant un Smooth Sync, censé réduire l'effet de déchirement en V-Sync off via l'application d'un filtre dithering, créant un effet d'optique qui réduit sa perception. A voir en pratique.   

 

Les différents modes de synchronisation verticale supportés [cliquer pour agrandir]Smooth Sync [cliquer pour agrandir]

De la synchro améliorée pour tout le monde

 

Voilà, c'est tout ce que nous pouvions vous dire sur cette nouvelle microarchitecture Xe-HPG dans le temps imparti, passons à la description des cartes en page suivante.



Un poil avant ?

Réclamez votre câble 12VHPWR pour votre Seasonic

Un peu plus tard ...

2 moniteurs chez NZXT, les Canvas 25F et 27F

Les 48 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par Un ragoteur de transit en Île-de-France, le Jeudi 29 Décembre 2022 à 10h14  
Hello la team.
Et uid des perfs en utilisation "pro" retouche photo, transcodage ? J'ai parcouru ce test depuisblon petit smartphone mais j'ai rien vu concernant ces utilisations.
Mise à jour de prévue ?
Merci
Bonne fin d'année
par SeBL4RD, le Mercredi 12 Octobre 2022 à 22h25  
par Un ragoteur 'ArthaX' du Centre-Val de Loire le Vendredi 07 Octobre 2022 à 17h06
Tant que c'est du DirectX 12 et du Vulkan, les GPU d'Intel s'en sortent bien pour un premier jet. Par contre pour du DirectX 9 et du OpenGL, c'est pas fameux, mais c'est dû aux traductions des fonctions DirectX9 vers du DirectX12.

Je vais attendre pour voir les ARC A580, mais c'est deux fois la puissance que je recherche, donc ça va dépasser les 200€. Je dois vraiment changer ma carte graphique.

Ce qui me rebut pour l'achat d'une carte graphique en ce moment, c'est que j'ai pas puissance et le prix exorbitant. J'ai juste besoin d'une carte milieux de gamme pour moins de 200€, comme au bon vieux temps des Radeon HD6850. Je veux juste joué en 1280x800 en 60ips, sans être en ultra. Je peux faire des concessions sur la beauté du rendu final.
Avec ma carte actuelle, je peux avoir du 200 à 250ips sur CSGO, et pourtant je limite à 122ips pour que 95%+ du temps je suis entre 118 et 120ips.
Une puce de GPU milieu de gamme n'a pas besoin de 400+mm², même en 10nm, c'est 200-mm². Je vais encore espérer avec la nouvelle génération qui va arriver, mais c'est pas gagné.

@++
Regarde le prix des occaz, les mineurs d'Eth ont finis leurs carabistouilles, tu trouve des 2070 Super dans les 200€. A ce prix la c'est la violence pour pas cher.
En 1920x1080 60 fps tu fais presque tout tourner en ultra. Perso je suis grand fan de SCUM, ça bouge pas d'un poil.
par Un ragoteur 'ArthaX' du Centre-Val de Loire, le Vendredi 07 Octobre 2022 à 17h06  
Tant que c'est du DirectX 12 et du Vulkan, les GPU d'Intel s'en sortent bien pour un premier jet. Par contre pour du DirectX 9 et du OpenGL, c'est pas fameux, mais c'est dû aux traductions des fonctions DirectX9 vers du DirectX12.

Je vais attendre pour voir les ARC A580, mais c'est deux fois la puissance que je recherche, donc ça va dépasser les 200€. Je dois vraiment changer ma carte graphique.

Ce qui me rebut pour l'achat d'une carte graphique en ce moment, c'est que j'ai pas puissance et le prix exorbitant. J'ai juste besoin d'une carte milieux de gamme pour moins de 200€, comme au bon vieux temps des Radeon HD6850. Je veux juste joué en 1280x800 en 60ips, sans être en ultra. Je peux faire des concessions sur la beauté du rendu final.
Avec ma carte actuelle, je peux avoir du 200 à 250ips sur CSGO, et pourtant je limite à 122ips pour que 95%+ du temps je suis entre 118 et 120ips.
Une puce de GPU milieu de gamme n'a pas besoin de 400+mm², même en 10nm, c'est 200-mm². Je vais encore espérer avec la nouvelle génération qui va arriver, mais c'est pas gagné.

@++
par Nicolas D., le Vendredi 07 Octobre 2022 à 01h03  
par dfd le Jeudi 06 Octobre 2022 à 19h50
Un pwal chères et un pwal trop tard les ARC Alchemist.
Ca fait mal de voir un GPU de 400 mm² faire jeu égal (pour être gentil) avec des plus petites puces déjà bien éprouvées.
A 50€-80€ de moins, on pourrait être joueur...
Mais faut parier sur l'envie des Bleus de persévérer dans le GPU grand public/gaming au moins 2/3 ans pour voir ses drivers se bonifier et prendre la mesure de la puissance brute de ses GPU.
Pour moi, les 400 mm² c'est principalement les unité matricielles ; mais pour en faire correctement usage faut 1) une charge de travail adaptée et 2) un support logiciel bon... et Intel pour les jeux n'a ni l'un ni l'autre, encore plus en l'absence de XeSS. Le tet sera à refaire dans 4-5 mois à mon avis, pour un verdict tout autre (entre les nouvelles gen AMD et NVIDIA et la maturation des pilotes, il y aura pour sûr du changement !).
par dfd, le Jeudi 06 Octobre 2022 à 19h50  
Un pwal chères et un pwal trop tard les ARC Alchemist.
Ca fait mal de voir un GPU de 400 mm² faire jeu égal (pour être gentil) avec des plus petites puces déjà bien éprouvées.
A 50€-80€ de moins, on pourrait être joueur...
Mais faut parier sur l'envie des Bleus de persévérer dans le GPU grand public/gaming au moins 2/3 ans pour voir ses drivers se bonifier et prendre la mesure de la puissance brute de ses GPU.
par Superubu, le Jeudi 06 Octobre 2022 à 18h39  
par Scrabble le Jeudi 06 Octobre 2022 à 17h38
Pourtant, la traduction littérale de "not that bad", c'est en français "pas si mauvais", le québécois "pas si pire" correspondant alors plutôt à "not that worse"
Concédé
par Scrabble, le Jeudi 06 Octobre 2022 à 17h38  
par Superubu le Mercredi 05 Octobre 2022 à 19h52
Ça s'appelle un Québécisme, c'est la traduction littéral de "Not that bad".
Pourtant, la traduction littérale de "not that bad", c'est en français "pas si mauvais", le québécois "pas si pire" correspondant alors plutôt à "not that worse"
par Darth Moule, le Jeudi 06 Octobre 2022 à 17h33  
par Pascal M. le Jeudi 06 Octobre 2022 à 09h12
Tab corrigé . Le sommaire étant sticky, pas sur d'en voir l'intérêt ?
Hoooo my bad j'avais pas vu que c'etait sticky ! (Ça réapparaît que si on rescroll un peu vers le haut sur ifoune)
Merci pour l'info
par LeĞmed GiGilü, le Jeudi 06 Octobre 2022 à 11h22  
Merci pour ce test comme d'habitude excellent

Je trouve les Arc pas si mauvais seulement un peu tard au début d'année en pleine crise cela aurait cartonné.

Je ne sais pas si les drivers vont changer beaucoup à l'avenir mais j'ai fais sur deux jeux d'époque un teste de igpu du core i3 4160 et j'ai été surpris par deux choses

1. Les performances sur serious sam 2 plus de 80fps qualité élevée et l'autre sur Oblivion en détection auto 150fps, en élevé on passe a 30 fps tout ça em 1680x1050 16/10

2.Activation du aa meme en x2 plombe les perfs et on tombe à moins 20fps pour les deux jeux mais aucun souci avec af 16x

Par contre bug d'affichage l'image ce déchire, et la vsync fais tomber les fps a moins 20fps comme pour aa

Bonus sur 3dmark05 et 3dmark06 on obtient 11600point et 6432
C'est plus ou moins les perfs d'une 8600gts oc

J'espère qu'il vont règler leur problème de pilote, on sent bien qu'il peine depuis des années sur cette voie

par Pascal M., le Jeudi 06 Octobre 2022 à 09h12  
par Darth Moule ?? le Mercredi 05 Octobre 2022 à 18h59
Je sais pas trop où mettre ça (en attendant le poste sur la version mobile du site) mais certains tableaux sont pas possible à lire ou je m'y prends mal (pas possible de faire défiler latéralement) (exemple page 4).
Le menu déroulant pour la navigation est super pratique mais devrait être dupliqué en bas de page (pour le confort)
Tab corrigé . Le sommaire étant sticky, pas sur d'en voir l'intérêt ?
par Jemporte, le Jeudi 06 Octobre 2022 à 00h36  
On parle souvent de consommation en regardant la conso dans des taches lourdes à fond... sauf que ce n'est pas la règle et il ne faut pas oublier l'usage basique, bureautique, vidéo etc.

Et bien les A750/770 sont les cartes qui consomment le plus sur les 10 dernières années quand elles sont proches du idle. C'est jamais moins de 50w en gros. De plus elles consomment plus qu'une RTX 3060 dans les tâches lourdes alors qu'elles sont à peu près égales niveau perfs.
C'est vraiment à méditer car même un CPU 16 cores, en idle, à faire de la bureautique, ça consomme pas grand chose.
Donc à perfs égales la carte consomme en moyenne 50 watts de plus que la RTX 3060 quelque soit l'usage. Ca doit aussi être pris en compte pour les onduleurs. En cas de panne de courant (ce qui pourrait être fréquent cet hiver - j'espère que tout le monde a préparé son onduleur), on sauvegarde son travail et on a une bonne dizaine de minutes pour le faire avec une conso proche du idle, sauf que là, c'est quelques minutes en moins.
A noter aussi que ces GPU nécessitent une config récente avec ReBar actif, sinon on perd autour de 20% de perf ; donc beaucoup plus que chez AMD et Nvidia. Très probablement à cause d'une mémoire cache embarquée moindre (chose à vérifier).
par Jemporte, le Mercredi 05 Octobre 2022 à 22h38  
par Un ragoteur de passage de Bretagne le Mercredi 05 Octobre 2022 à 21h06
Ca équivaut une 3060 ce qui est pas mal au final, encore une génération et Intel devrait battre la 3070, qui est suffisante pour 90% des joueurs. Reste à voir la stabilité, les pilotes, etc.
Par contre il faut qu'ils la vendent 100€ de moins sinon aucun intérêt.
Rien niveau OpenCL, par exemple sur du rendu 3D ? Blender, Indigo etc.

En fait j'ai la réponse à partir d'autres sites, notamment Hot Hardware.
Les Arc 750 et 770 font à peu près jeu égal en calcul.
Sous Blender, One API, intel, bat tranquillement HIP AMD (RX 6600XT), mais se fait complètement recadrer sur Optix avec la 3060. Donc 3 API et langages différents.

Avec Indogobench (rendu moteur Indigo), sous OpenCL, elle fait jeu égal ou un poil mieux que la RX 6600XT, mais selon le contexte (scène plus simple) se fait dépasser par la RTX 3060 ou égalise dans les scènes lourdes.

Avec Luxmark 4.0 (moteur Luxrender) sous OpenCL aussi, il y a par contre un avantage net aux Intel Arc, qui larguent méchamment la 3060, elle-même un peu devant la RX 6600XT (entre 1.5x et 2x mieux pour Intel).

Donc, apparemment les Intel Arc sont de bonnes cartes pour un usage Pro, compte tenu de leur prix. Notamment la A770 et ses 16Go de Vram, en bonne concurrence dans certaines applications avec le haut de gamme AMD pour un prix inférieur.

Ces résultats font penser à une manque d'optimisation du pilote et de l'architecture pour les jeux.
Donc, en gardant l'architecture il y a une bonne marge pour les pilotes et une optimisation générale hardware sur Battelimage, avec notamment de la mémoire cache comme les concurrents (les limitations de la bande passante mémoire semble beaucoup gêner ces cartes).