COMPTOIR
  
register

×

Diagramme logique VEGA

Test • RADEON RX VEGA 64
Diagramme logique VEGA
Récapitulatif VEGA 10
Efficacité HBM2
Cache L2
HBCC
NCU
16-bit Math
Deep Learning
DX12 Features
DSBR
Primitive Shaders
Power Management
Moteur vidéo

• VEGA 10

Avant de décrire la carte que nous nous sommes procurée pour ce test, passons en revue les principales caractéristiques de son GPU, aka VEGA 10. Ce dernier fait partie de ce que l'on pourrait appeler les "grosses puces", avec pas moins de 486 mm² pour 12,5 milliards de transistors, même si on reste relativement éloigné des records à ce niveau, comme le GV100 et ses 21 milliards de transistors étalés sur 815 mm².

 

Il est par contre d'une taille et densité similaire au GP102 des TITAN Xp et 1080 Ti, concentrant 12 milliards de transistors au sein d'un die de 471 mm² et donc notablement plus gros que le GP104 (314 mm²) des GTX 1080, ce qui a son importance, puisqu'il s'agit de la cible annoncée. C'est GlobalFoundries qui a été choisi pour graver la puce via son 14 nm LPP, déjà usité sur les Polaris 10 et 11. L'architecture au sein de ce GPU serait NCU (pour New generation Core Units), même si en pratique, les liens de parenté avec GCN crèvent les yeux, comme l'indique ce schéma de principe du GPU :

 

Diagramme logique VEGA [cliquer pour agrandir]

Diagramme logique de VEGA 10

 

On note toutefois de légères différences au niveau de l'organisation interne, ou tout du moins la représentation qui en est faite. Ainsi, plus trace des Shader Engine, c'est à dire les entités qui regroupaient précédemment les unités géométriques, de rastérisation, de calcul (CU) et de rendu (ROP). Bien entendu, tous ces éléments sont toujours présents, mais AMD les dissocient en 3 blocs distincts sur le diagramme, la somme correspondant bien à un ancien Shader Engine. Réel changement ou représentation différente ? Toujours est-il que vu l'inflation du nombre de transistors, on pouvait espérer une augmentation de leur nombre, bloqués à 4 maximum depuis plusieurs années, il n'en est rien.

 

A priori, pas de limitation technique de l'architecture, mais cela demanderait un redesign poussé de la puce et donc des ressources qu'AMD dispose en quantité limitée pour le moment. Le concepteur a donc préféré conserver une organisation interne similaire à Fiji en ajustant quelques points, et se concentrer par contre sur la montée en fréquence en allongeant certains pipelines, assurant la redondance du signal, etc. Tout ceci serait responsable d'une bonne partie de la croissance du nombre de transistors. Toujours au niveau des petits ajustements, les ROP n'exploitent plus de petits tampons dédiés, mais directement le cache L2. Deux ACE disparaissent également par rapport à Fiji.

 

Les plus observateurs auront remarqué qu'AMD fait apparaître sur ce schéma le terme Infinity Fabric, qui doit être familier à la plupart, puisqu'il s'agit ni plus ni moins que celui déjà utilisé par le concepteur, lors de la description de Ryzen pour l'interconnexion entre CCX et les contrôleurs mémoire. L'usage serait peu ou prou le même ici, c'est à dire l'interconnexion de modules entre eux. Cette uniformisation a probablement pour but de simplifier grandement la tâche des équipe d'AMD pour le développement des futurs APU, pouvant piocher ainsi parmi une banque de modules Ryzen ou VEGA, interconnectables entre eux via cette Infinity Fabric.  

 

Si on se concentre sur les chiffres, le nombre d'unités de calcul et de texturing n'évolue pas depuis Fiji, pas plus que celles de rendu ou de géométrie. Mais si la quantité n'évolue pas, ce n'est pas forcément le cas de leurs capacités, nous détaillerons tout cela un peu plus bas. Abordons d'abord la HBM 2 qui a fait couler beaucoup d'encre depuis des mois, car longtemps pointée du doigt quant au retard de VEGA 10. AMD indique que par rapport à la 1ère version, la bande passante est doublée par pin et la capacité par stack (empilement) multipliée par 8. De quoi proposer une capacité doublée avec la même bande passante, malgré deux fois moins de stack sur VEGA 10 que Fiji.

 

Récapitulatif VEGA 10 [cliquer pour agrandir]Efficacité HBM2 [cliquer pour agrandir]

 

Le cache L2 centralisé est doublé à 4 Mo, suivant ainsi la tendance à l'inflation de cet élément sur les GPU modernes. AMD annonce également le High-Bandwith Cache Controller, une gestion modernisée de la mémoire des GPU à l'instar de celle faite par les CPU via pagination. Après activation, on détermine la quantité à utiliser en mémoire centrale du système, puis la HBM 2 embarquée sur la carte se comporte comme un cache local pour cette dernière.

 

Cela permet d'affiner l'allocation mémoire par le GPU et augmenter largement la quantité (on a souvent bien plus de mémoire centrale que sur la carte graphique en elle-même) adressable par le GPU. Toutefois, les données non stockées sur la HBM 2 utiliseront une mémoire plus lente (DDR4/3) et devront transiter par le bus PCIe bien moins rapide que les contrôleurs locaux. En jeu (3D temps réel), il est probable que cela se traduise par des saccades désagréables du fait des temps d'accès lorsque la capacité de la HBM 2 sera dépassée, cette fonctionnalité parait donc plus utile dans le cadre d'un usage pro.

 

Cache L2 [cliquer pour agrandir]HBCC [cliquer pour agrandir]

 

Abordons cette fois la refonte des unités de calcul, justifiant ce Next gen Compute Unit. AMD propose en fait la capacité à traiter deux fois plus rapidement les données 16-bit pour ses unités de calcul. Les précédentes RADEON pouvaient déjà stocker 2 données 16-bit dans un registre 32-bit pour gagner de la place, par contre leur traitement se faisait à la même vitesse que les FP32. Ce n'est plus le cas avec un débit donc doublé, ce que le concepteur nomme Rapid Packed Math, très utile en usage deep learning par exemple, mais pas que selon le concepteur de GPU.

 

À titre d'exemple, AMD indique que l'usage du 16-bit permet de gagner jusqu'à 25% sur certains effets sous 3DMark ne nécessitant pas un traitement 32-bit pour obtenir un bon résultat. C'est encourageant, 2 points seront toutefois cruciaux pour un éventuel succès : une adoption par de nombreux développeurs (pas gagné) et l'aspect qualitatif/usage réel, car on garde en mémoire l'époque des tristement célèbres FX 5xxx, où le caméléon forçait un rendu 16-bit (au lieu de 32-bit donc bien moins qualitatif sur l'ensemble de la scène) pour lutter avec les RADEON 9xxx utilisant, elles, le FP24.

 

NCU [cliquer pour agrandir]16-bit Math [cliquer pour agrandir]

 

Pour finir avec les unités de calcul, AMD annonce avoir ajouté pas moins de 40 nouvelles instructions au jeu d'instructions internes, dont une partie dédiée au cryptomining. Toujours côté ajouts, quelques instructions 8-bit spécifiques au Deep Learning, font leur apparition à l'instar de ce que NVIDIA a fait pour les puces Pascal gaming. Plus intéressant pour les joueurs, le support de DX12 évolue enfin du côté rouge, avec une prise en charge du niveau de fonctionnalité DX12_1 supporté par la concurrence depuis Maxwell. Mieux, cette prise en charge est même plus complète, avec un accès plus flexible à certaines ressources (Tier 3) et le standard swizzle absent chez les verts.

 

Deep Learning [cliquer pour agrandir]DX12 Features [cliquer pour agrandir]

 

Poursuivons avec le Draw Stream Bining Rasterizer. Kesako ? Derrière ce nom barbare se cache en fait la mise en application du Tiled Rendering adopté par NVIDIA depuis Maxwell et qui permet lorsqu'il y a gain possible, d'éviter les opérations inutiles (pixels masqués) sur une partie de la scène (Tile), lors de la rastérisation (découpe des triangles en pixels). Ceci est possible en suivant la position de chaque triangle en cache et indiquant ceux masqués, donc à ne pas rastériser, quand leur tour arrive, économisant ainsi de la bande passante mémoire, puisque tout reste au niveau du L2.

 

AMD décrit ensuite les Primitive Shaders, un nouveau type de Shader capable de remplacer les Vertex et Geometry Shaders avec une bien meilleure efficacité pour éjecter les triangles masqués (culling), point de domination outrancière des GeFORCE actuelles. Le souci provient de la nécessité d'une adoption par les développeurs (encore une fois), même si AMD indique disposer d'un path alternatif dans ses pilotes permettant des gains opportunistes.

 

DSBR [cliquer pour agrandir]Primitive Shaders [cliquer pour agrandir]

 

Finissons notre rapide tour d'horizon des nouveautés de l'architecture par 2 points : le premier consiste en la modification du microcontrôleur gérant l'énergie au sein de la puce. Il permet de basculer la puce au repos sur un second générateur de fréquence autorisant des valeurs beaucoup plus faibles du GPU et de la HBM 2, nous vérifierons cela dans quelques pages. Le second point attrait au moteur de gestion vidéo qui évolue légèrement avec davantage d'écrans gérés simultanément dans les modes 4K (standard et HDR), ainsi que quelques petits aménagements du côté encodage/décodage.

 

Power Management [cliquer pour agrandir]Moteur vidéo [cliquer pour agrandir]

 

 Voilà, c'est tout pour VEGA 10, passons aux spécifications des cartes employant ce nouveau GPU.



Un poil avant ?

ASUS, B350, TUF : trio gagnant pour cette carte µATX

Un peu plus tard ...

Kikalapluptite ? Une mini GTX1080 chez Gigabyte

Les 44 ragots
Les ragots sont actuellement
ragots réservés aux QI élevésouverts aux ragoteurs logués
par Eric B., le Samedi 16 Septembre 2017 à 17h30  
Désolé pour la perte de données, c'est toujours délicat lorsque l'on doit faire un changement imprévu. Pour ta question au niveau de la conso, c'est en fait beaucoup plus, j'ai noté par exemple 236 W au niveau du GPU seul dans GPU-Z, alors que la consommation totale de la carte approchait 309 W.
par Armand Raynal, le Samedi 16 Septembre 2017 à 11h34  
Sinon j'ai reçu ma carte. J'ai du installer windows 10 car pas de driver w8, très chiant. Comme un con j'ai même réussi à paumer quelques données importantes dans l'opération.

j'ai installé le morpheus 2 dessus donc et j'ai eu pas mal de chance on dirait avec ma puce. Fabriquée à taiwan avec epoxy d'ailleurs.

J'ai pas testé grand chose comme jeu alors c'est pas 100% validé. Juste dishonored 2, crysis 3, shadow warrior 2 et 3dmark(11000 et quelques de graphic score). Et sous crysis 3 à certain point de vue la mémoire se downlock sévèrement, pourtant les temps et la conso sont basses.

1% d'OC sur le core, 1V tout rond sur le p6, p7 et la hbm aussi, qui elle mouline à pas moins de 1100mhz. 2% d'OC sur le core ni 1110mhz sur la hbm ne sont stables sur crysis 3 avec ce voltage. C'est stable jusqu'à 3% sous dishonored 2 mais la carte tourne des fois un peu en dessous de sa fréquence max, je pige pas bien pourquoi, ptet encore limitée par la bande passante(la limite de conso est à +20%).

D'après GPUz elle consome dans les 200w sur crysis 3 avec cet UV/OC, ~180 sur dishonored 2, core uniquement. Faut rajouter dans les 20 watts pour la conso de la carte complète non ?
par Armand Raynal, le Jeudi 14 Septembre 2017 à 20h47  
par Thibaut G., le Mercredi 06 Septembre 2017 à 18h55
@canalguada : aucune réponse bloquée de notre part par personne de l'équipe. un bug venant de chez toi à priori, mais pas d'action de notre part en ce sens, pas de déviance stp dans tes propos
Il a peut être vécu le coup de la déconnexion auto que j'ai moi même subit bon nombre de fois. Et reporté plus d'une fois. Je le refais encore une fois :

Lorsqu'on poste sur une page ouverte depuis un bon moment y'a des chances pour qu'on ait été déco automatiquement, y'a rien qui l'indique, et lorsqu'on appuie sur 'et paf le ragot' y'a pas de message d'erreur ni rien, tout se passe comme si on était co, la boite avec le message disparait, à l'exception qu'évidemment le message n'est pas posté. Et il est du coup englouti dans les couloirs du temps les limbes du comptoir.

C'est très, très, très, très énervant de voir un pavé s'évaporer. Ca fait au moins 2 ans que j'expérimente ce problème, maintenant je ne poste plus sans c/c mon message avant par paranoia de l'écrire pour rien. Jdis ça jdis rien mais ça pourrait faire un beau cadeau de noel par exemple de régler ça
par Thibaut G., le Mercredi 06 Septembre 2017 à 18h55  
@canalguada : aucune réponse bloquée de notre part par personne de l'équipe. un bug venant de chez toi à priori, mais pas d'action de notre part en ce sens, pas de déviance stp dans tes propos
par Eric B., le Mercredi 06 Septembre 2017 à 16h55  
Mais de quoi parles-tu à la fin ? Désolé mais ton message est à la limite de ma capacité de compréhension ce soir tel que formulé. Pour commencer aucune réponse de ta part n'a été bloquée de notre côté à ma connaissance ! Ensuite il va falloir m'expliquer ce que tu appelles troller dans le message que tu cites, qui me parait pourtant courtois.

Les résultats sont ceux que j'ai mesurés avec les conditions indiquées, et oui ils me paraissent cohérents. Les gains moyens sur une carte graphique ne sont jamais la somme des augmentations respectives de fréquence GPU et mémoire, en toute logique. Après nous sommes d'accord que cela ne concerne que ce jeu testé pendant la séance rapide d'oc, mais il ne me semble pas avoir écrit le contraire.

par canalguada, le Mercredi 06 Septembre 2017 à 16h15  
par Eric B., le Lundi 04 Septembre 2017 à 15h46
Pas sûr de bien comprendre ce que tu veux dire, je récapitule : en undervoltant le GPU la fréquence de ce dernier progresse de 72 MHz (au mieux puisqu'elle fluctue comme écrit soit +4.79% max). La mémoire est overclockée de 6.87% (945 => 1010) et nous gagnons 4.8% de perfs dans The Witcher 3 en QHD ce qui est pour le coup cohérent. Pour la conso nous mesurons celle de la carte seule, autrement plus fiable que la config complète au wattmètre et elle ne bouge pas ou presque dans ce cas.
Pourquoi commenter et avoir bloqué ma réponse expliquant ce qui pouvait être déduit sans troller ? Parler de "cohérence", notamment sur cette proportion de 4,8%, alors que l'impact de la limite de température finit lui guère évalué poussant ou pas fréquence, ou comme si la fréquence de la mémoire comptait peu, c'est juste de la poudre aux yeux.

L'objectif du (long, oui) protocole semblant lui fournir de meilleurs compromis est précisément aussi de s'assurer d'avoir minimisé cet impact, évaluant gains réels, pas supposés juste parce qu'une fréquence moyenne aura progressé.
par Sciroccu, le Mardi 05 Septembre 2017 à 17h19  
Très bon test, merci c'est très instructif.
Disons qu'AMD a sorti des cartes pour enfin concurrencer le segment haut de gamme.
A des prix publics sans doute peu intéressants pour eux mais histoire d'être présent.
Il leur sera quand même difficile d'en vendre des wagons. A ces prix là généralement les gens se renseignent bien avant d'acheter et les cartes semblent moins intéressantes globalement que leurs homologues de chez Nvidia (pas plus perfs et bcp de points négatifs à côté ). L'écart entre les deux marques semble plus important que sur les segments entrée et milieu de gamme.
Tous les espoirs reposent sur la Rx vega 56 je suppose. Si elle arrive réellement à se positionner entre une 1070 et une 1080 pourquoi pas. Mais les Vega arrivent bien tard de toute façon. Beaucoup de gens (moi le premier) n'ont malheureusement pas attendu et l'année et quelques mois de ventes ratées (par rapport aux 1070/80) ne se rattrapera pas.
Il aurait fallu un produit exceptionnel sur au moins un point (performances ou prix je suppose) pour espérer combler un peu le retard de commercialisation.
Une génération qui ne fera sans doute pas date chez AMD.
par -------------------, le Mardi 05 Septembre 2017 à 08h46  
par jln, le Mardi 05 Septembre 2017 à 08h35
La 1060 n'est certainement pas 45% plus performantes qu'une 970
15% tout au plus.
La GTX 1060 est au niveau d'une GTX980 donc oui une gros 10% en plus

Le test
par Eric B., le Mardi 05 Septembre 2017 à 08h41  
par Jte Roule D3ssus, le Mardi 05 Septembre 2017 à 08h20
Bruyante au repos, une réacteur d'avion en charge, 300Watt de consommation ..... et le tout pour se retrouver parfois avec des performance digne d'une 1060GTX et souvent d'une 1070GTX.
Ce bide !

Une petite section VR serait bienvenu dans vos test pour savoir ce que vaut la carte
Faut pas tomber dans l'exagération non plus hein ! Elle n'est pas bruyante au repos et elle est quand même largement au-dessus d'une GTX 1060 (cf. perf de la RX 580) en moyenne, certes. Pour la VR on est pas équipé mais tu trouveras le test Blue room de VRMark en page 16 pour te faire une idée.
par jln, le Mardi 05 Septembre 2017 à 08h35  
par darktanker89, le Mardi 05 Septembre 2017 à 08h19
280-300€ ouai après un temps, je me rappel très bien des 370-400€ payés à l'époque.
Après si tu benchmarks les cartes sur leurs noms plutot que sur leur perf forcément ça donne un résultat bidon.
Perso quand j'achète une carte je me contrefiche qu'elle s'appelle x60 ou x70 ou trololilol90.
Je regarde ce que j'ai besoin en terme de perf en tenant compte du budget.
Ca te trouerait tellement le cul d'acheter une 1060 pour le prix d'une 970 (et encore..) sachant qu'elle te donne +45% sur une gen? C'est énorme.
Si même monsieur veut son prada/louboutains ou va-t-on?
La 1060 n'est certainement pas 45% plus performantes qu'une 970
15% tout au plus.
par Jte Roule D3ssus, le Mardi 05 Septembre 2017 à 08h20  
Bruyante au repos, une réacteur d'avion en charge, 300Watt de consommation ..... et le tout pour se retrouver parfois avec des performance digne d'une 1060GTX et souvent d'une 1070GTX.
Ce bide !

Une petite section VR serait bienvenu dans vos test pour savoir ce que vaut la carte
par darktanker89, le Mardi 05 Septembre 2017 à 08h19  
par jln, le Mardi 05 Septembre 2017 à 06h52
Une "bonne cuvée" mais qui se fait payer le prix fort aussi ....
Une 970 pouvait se trouver 280-300€, soit le prix d'une 1060 6Go... la 1070 est difficilement trouvable sous 360-380€ hors promo... le prix de la 1080 reste élevé et la 1080ti est clairement cher (pas de concurrence)
..
280-300€ ouai après un temps, je me rappel très bien des 370-400€ payés à l'époque.
Après si tu benchmarks les cartes sur leurs noms plutot que sur leur perf forcément ça donne un résultat bidon.
Perso quand j'achète une carte je me contrefiche qu'elle s'appelle x60 ou x70 ou trololilol90.
Je regarde ce que j'ai besoin en terme de perf en tenant compte du budget.
Ca te trouerait tellement le cul d'acheter une 1060 pour le prix d'une 970 (et encore..) sachant qu'elle te donne +45% sur une gen? C'est énorme.
Si même monsieur veut son prada/louboutains ou va-t-on?