COMPTOIR
  
register

×

diagramme fidji t

Test • RADEON R9 Fury X
diagramme fidji t

• Fiji & HBM

Pour concevoir Fiji, AMD s'est appuyé sur son architecture Graphics Core Next dans sa dernière itération (que l'on retrouve sur Tonga des R9 285/380). Pour plus de détails concernant GCN, vous pouvez vous référer à ce dossier. Elle s'organise à nouveau autour de 4 Shader Engine, comprenant les unités traitant géométrie et rasterization (découpe des triangles en pixels), 16 ROP (écriture en mémoire) et des Compute Units (CU). Ces derniers sont constitués de 64 unités de calcul élémentaires (SP), 4 TMU pour le texturing, différents caches et les transistors de contrôle/ordonnancement de tout ceci.

 

Changement toutefois notable des CU depuis la précédente puce haut de gamme, le débit en double précision a été fortement réduit (1/16 du débit en simple précision contre 1/2) afin d'économiser de précieux transistors dont AMD avait fortement besoin ailleurs. En bref, le même arbitrage que le caméléon a opéré sur son GM200. Par rapport à Tonga, le nombre de CU par Shader Engine est multiplié par 2, passant ainsi à 16 (11 pour Hawaii) pour un total de 64 sur Fiji. Mathématiquement, les unités de calcul et TMU passent respectivement à 4096 / 256. Voyons cela visuellement au travers du schéma suivant :

 

diagramme fidji t [cliquer pour agrandir]

Diagramme logique de Fiji - Cliquer pour agrandir

 

Le choix de conserver 4 Shader Engine implique un débit géométrique stable (4 triangles par cycle), là encore cet arbitrage a été guidé par le nombre maximum de transistors à disposition d'AMD du fait d'un procédé de fabrication stagnant. Cela engendre du coup un équilibre différent entre puissance géométrique et calcul, cette assertion s'appliquant également au fillrate puisque les ROP se cantonnent au niveau d'Hawaii (64), limitant ainsi la progression à la seule évolution de fréquence GPU... Passons au sous-système mémoire, le cache L2 suit le mouvement des SP puisque doublé à 2 Mo tout rond. Enfin, exit les contrôleurs mémoire 64-bit puisqu'avec l'avènement de la HBM, il est nécessaire d'obtenir un bus beaucoup plus large. AMD a donc opté pour 8 contrôleurs 512-bit bidirectionnels, ce qui porte la largeur totale du bus à 4096-bit, excusez du peu. A l'instar de Tonga, ce nouveau GPU dispose des mécanismes de compression couleur (delta color) permettant de limiter le besoin en bande passante mémoire du GPU.   

 

Cela nous amène directement à la grosse nouveauté introduite avec Fiji, la mémoire HBM pour High Bandwitdth Memory. Késako ? En fait il s'agit de la nouvelle génération de mémoire qui délaisse la fréquence au profit de la largeur de bus. Les puces GDDR5, qui pour les plus rapides peuvent atteindre 7 voire 8 Gbps, se contentent d'une interface 32-bit. A contrario, les premières puces HBM se limitent à 1 Gbps (500 MHz DDR) mais utilisent un bus 1024-bit ! Pour ce faire, il a été nécessaire de développer un Silicon Interposer qui est fabriqué par photolithographie comme les CPU ou GPU, à la différence près qu'aucun élément actif (transistor) n'est gravé, juste des interconnections. Cela permet ainsi d'obtenir une densité pour ces dernières bien supérieure à ce qu'il est possible de faire via les techniques existantes de gravure des pistes sur un PCB et ainsi ouvrir la voie à de telles largeurs de bus.

hbm

L'implantation de la HBM pour Fiji

 

L'interposer est également capable de laisser passer par le biais de voies spécifiques en cuivre nommées TSV (Through-Silicon Vias), les connexions du GPU avec le bus PCIe, les sorties vidéos et l'alimentation électrique. Hynix qui est avec AMD le co-concepteur de cette HBM, a conçu pour cette première génération des dies de 256 Mo, chacun étant empilés (die stacking) puis interconnectés et alimentés via TSV également. Ainsi, comme illustré sur le schéma précédent, 4 dies sont "stackés" sur un cinquième comprenant toute la gestion logique de l'empilement avec un adressage 1024-bit (8 canaux 128-bit) pour une capacité totale de 1 Go. Fiji étant entouré de 4 de ces puces (dites 2.5D) sur l'interposer, on retrouve ici le bus mémoire 4096-bit du GPU. Chaque contrôleur 512-bit de ce dernier adressant individuellement 4 canaux HBM pour arriver aux 32 qu'impliquent les 4 Go embarqués.

 

Notons d'ailleurs que ces canaux fonctionnement de manière asynchrone, ceux ne transmettant pas de données passant automatiquement en veille, engendrant donc des économies d'énergie. Gros avantage de la concentration des puces HBM autour du GPU via l'interposer, le PCB de la carte s'en trouve largement simplifié puisqu'il n'est plus nécessaire de tracer sur le PCB les canaux mémoire. Inconvénient actuel, pas plus de 4 Go pour Fiji, ce qui n'est pas un problème en soi (à part peut-être en multi-GPU pour les très hautes définitions), mais alors autant éviter de communiquer sur le fait que les R9 390X sont bien meilleures que les GTX 980 parce qu'elles embarquent 8 Go au lieu de 4, non ?   

 

comparo taille hbm

Un vrai gain de place sur le PCB

 

Second avantage de la proximité (mais aussi de la fréquence moindre) des puces mémoires et du GPU, de nombreux transistors peuvent être économisés (filtrage du signal, redondance, etc.) ce qui conduit AMD à affirmer que l'espace occupé par les contrôleurs mémoire sur Fiji est moindre que pour Hawaii. La consommation de la HBM étant en baisse par rapport à la GDDR5, cela permet de réallouer une partie de l'enveloppe thermique (de la carte) anciennement dévolue à la mémoire, au GPU. Qui plus est, les puces HBM permettent d'accroitre la surface d'échange proche du GPU avec le refroidisseur et donc l'efficacité de ce dernier.

 

Dernier point sur les fonctionnalités, AMD a bien mis à jour l'UVD qui permet à présent la prise en charge hardware du décodage H265, ce n'est pas le cas du moteur de gestion vidéo qui reste cantonné à l'HDMI 1.4, alors que la norme 2.0 est disponible depuis un bon moment et prise en charge par les GTX 900. Au final, Fiji est un GPU énorme de 598 mm² (une taille comparable aux 601mm² du GM200) pour 8.9 Milliards de transistors (8 pour le concurrent). A cela, il faut ajouter la taille conséquente de l'interposer qui dépasse les 10 cm², ce qui avec la primeur (synonyme de tarif élevé) de la HBM, doit faire de Fiji un GPU relativement onéreux à produire...

 

fiji

Le monstrueux Die Fiji accompagné de sa HBM sur l'interposer

 

Passons page suivante à la première carte graphique utilisant cet ambitieux GPU à savoir la RADEON R9 Fury X.



Un poil avant ?

Microsoft veut un événement mondial pour la sortie de Windows 10

Un peu plus tard ...

Un peu de gameplay pour Star Wars Battlefront


Sur le comptoir, au ~même sujet

 
 
 
 
 
 
 
 
 
 
 
 

Les 60 ragots
Les ragots sont actuellement
verrouillage dossierouverts aux ragoteurs logués
par Thibaut G., le Jeudi 30 Juillet 2015 à 06h08  
par mart666 le Jeudi 30 Juillet 2015 à 04h25
"notre exemplaire est affublé d'un Coil Whine très notable"
Plusieurs commentaires d'acheteurs en parlent aussi. Il n'y a pas que votre exemplaire qui est défectueux.
Pour ma part, je vise la 980ti et rien d'autre.
du coil whine n'est pas du à une défectuosité de la carte, c'est un problme de design, cf notre article sur le sujet
par mart666, le Jeudi 30 Juillet 2015 à 04h25  
"notre exemplaire est affublé d'un Coil Whine très notable"
Plusieurs commentaires d'acheteurs en parlent aussi. Il n'y a pas que votre exemplaire qui est défectueux.
Pour ma part, je vise la 980ti et rien d'autre.
par lulu-nico, le Mercredi 15 Juillet 2015 à 09h14  
par Marc C. le Mercredi 15 Juillet 2015 à 08h57
Simplement car AMD se positionne face à Nvidia, la 380 = la 960 et la 390 = la 970. AMD attend surement la 960Ti pour sortir la 380X avec un tonga complet.
C'est plus rentable pour AMD de sortir des dies "pro" que des dies "XT".
Vendre des die complet au prix des die castrée ce n'est pas rentable.
par Marc C., le Mercredi 15 Juillet 2015 à 08h57  
par lulu-nico le Mercredi 15 Juillet 2015 à 08h43
La comparaison avec tonga est fausse.
la 285/380 utilise 1792 sp et 256 bits.
On sait que le die a 2048 sp et un bus 384 bits.
Pourquoi amd n'utilise pas le die au complet ?
Bonne question.
Simplement car AMD se positionne face à Nvidia, la 380 = la 960 et la 390 = la 970. AMD attend surement la 960Ti pour sortir la 380X avec un tonga complet.
C'est plus rentable pour AMD de sortir des dies "pro" que des dies "XT".
par lulu-nico, le Mercredi 15 Juillet 2015 à 08h43  
La comparaison avec tonga est fausse.
la 285/380 utilise 1792 sp et 256 bits.
On sait que le die a 2048 sp et un bus 384 bits.
Pourquoi amd n'utilise pas le die au complet ?
Bonne question.
par Un ragoteur barré de Picardie, le Mercredi 15 Juillet 2015 à 08h26  
*Edit : Le nombre de CU est de 32, 44 et 64 sur Tahiti, Hawaii et Fiji et non de 128/176/256 qui correspond aux unités de texturing.
par Un ragoteur barré de Picardie, le Mercredi 15 Juillet 2015 à 08h11  
par lulu-nico le Mardi 14 Juillet 2015 à 22h02
...Fiji regagne des transistors pour le jeux en passant a des dp a 1/16...
Bah justement, avec le gain de transistor obtenu sur le contrôleur mémoire et la simplification des CU on aurait du avoir de bien meilleur perf.

Lors du passage de Tahiti à Hawaii on a eu une augmentation de :
+100% des processeurs géométriques (2 à 4 ) // +38% de CU (128 à 176 ) // +100% de ROP (32 à 64 ) // +33% de cache L2 (768 à 1024ko ) // +33% de BP (contrôleur mémoire qui passe de 12 modules 32b à 16 modules 32b ) // +44% de transistor (4.3 à 6.2 milliards )

Et de Hawaii à Fiji :
+0% des processeurs géométriques (4 ) // +45% de CU (176 à 256 ) // +0% de ROP (64 ) // +100% de cache L2 (1024 à 2048ko ) // +33% de BP (contrôleur mémoire qui passe de 16 modules 32b à 8 modules 512b ) // +44% de transistor (6.2 à 8.9 milliards )

On me fera pas croire que ce sont les quelques CU supplémentaire qui ont coûté autant de transistor, d'autant plus qu'il ont été simplifié par rapport à Tahiti (DP en 1/16 par cycle sur Fiji par rapport au 1/4 de Tahiti ).

C'est plutôt l'archi GCN 1.2 qui bouffe trop de transistor inutilement (compression inutile sur Fiji... ), on l'a déjà vue avec Tonga, on a eu une augmentation de 16% des transistors par rapport Tahiti pour des performances... en baisse.
par lulu-nico, le Mercredi 15 Juillet 2015 à 06h59  
par de Champagne-Ardenne le Mercredi 15 Juillet 2015 à 00h06
Ce qui est le plus dommage, c'est ces fameux 128rops qui étaient prévues au départ. AMD a part la suite expliqué qu'il avait du faire un choix entre les rops et les sp etc ... c'est la que le bat blesse à mon avis. le pixel filtrates n'a pas évolué du coup.
l'idéal aurait été d'avoir "seulement" les 3584sp d'une fury non X, 128rops et les 256TMU. voir même oublier l'HBM pour la génération prochaine, en lui collant 8go de gddr5 à 1600mhz.
plus homogène, performant et moins couteux. après ça reste une très bonne carte, juste un peu trop chère
La hbm consomme 2 fois moins que la gddr 5.
Si fiji utilise de la gddr 5 on doit réduire la fréquence gpu.
128 rops c est beacoup.
Pas sur que la carte en a besoin d autant.
les rops ne sont pas comme chez nvidia relier a un controleur ram.
Amd peut donc en mettre autant qu il veut.
Je pense que 96 serait suffisant.
par Armand Raynal, le Mercredi 15 Juillet 2015 à 06h56  
par AMvidia le Mercredi 15 Juillet 2015 à 06h04
Tu résumes bien ce que je pense depuis un moment. Je ne comprends pas non plus ce qui manque à AMD pour être sur la 1ere marche à part le pognon pour la R&D. Parce que les idées ils les ont, ça c'est certain. Être visionnaire c'est très bien, mais là ils le sont trop et pourtant ils ont fait le bon choix pour pousser leurs technos déjà en place.
Ils devront faire comme nvidia, réduire drastiquement les consommations à tous les niveaux pour améliorer l'efficacité puissance/watt et surtout la chauffe. La hbm est une voie très efficace, il reste à revoir gcn.
Ce qui m'inquiète à cet instant T, c'est que cette puce doit probablement couter cher à la fabrication et que son positionnement tarifaire actuel ne donne pas envie d'en acheter une à cause de ses résultats.
Comment vont-ils gagner de l'argent sachant qu'ils en manquent ?
Les fers de lance ne sont pas fait pour gagner du pognon en masse, ils pourraient meme se vendre a perte. Ils sont avant tout une vitrine technologique(et vla la vitrine en l'occurrence). La fury x ne rapportera probablement que des miettes a AMD, mais les fury non-x et nano ont, elles, du potentiel pour bien se vendre.
Et puis ils ont Tonga qui est tres bien, et tonga xt en reserve, qui sont situes dans un des segments les plus important en vente. Les prix se tasseront pour les cartes mal placees.
par AMvidia, le Mercredi 15 Juillet 2015 à 06h04  
par Where is Bryan ? embusqué le Mardi 14 Juillet 2015 à 13h14
Je ne comprends pas AMD. Qu'est ce qu'il leur manque ? On dirait que la firme est bridée à l'image de cette carte graphique. Le rachat par une une autre société pour injecter de nouveau fond serait peut être le mieux car la concurrence est en train de filer (notamment en terme de qualité, de consommation, de refroidissement, de puissance alors qu'il n'utilise même pas d'HBM :huh. Attendons Pascal alors ...
Tu résumes bien ce que je pense depuis un moment. Je ne comprends pas non plus ce qui manque à AMD pour être sur la 1ere marche à part le pognon pour la R&D. Parce que les idées ils les ont, ça c'est certain. Être visionnaire c'est très bien, mais là ils le sont trop et pourtant ils ont fait le bon choix pour pousser leurs technos déjà en place.
Ils devront faire comme nvidia, réduire drastiquement les consommations à tous les niveaux pour améliorer l'efficacité puissance/watt et surtout la chauffe. La hbm est une voie très efficace, il reste à revoir gcn.
Ce qui m'inquiète à cet instant T, c'est que cette puce doit probablement couter cher à la fabrication et que son positionnement tarifaire actuel ne donne pas envie d'en acheter une à cause de ses résultats.
Comment vont-ils gagner de l'argent sachant qu'ils en manquent ?
par Eric B., le Mercredi 15 Juillet 2015 à 04h34  
par de Champagne-Ardenne le Mardi 14 Juillet 2015 à 23h32
Il faut tout de même préciser que ce phénomène de pompe siffleuse n'est qu'un problème passager ...
j'ai eu l'occasion d'en tester une avec la "v2" et ça n'a rien à voir. juste un bruit de pompe d'AIO standard, très correct et sans sifflement
C'est écrit dans le dossier, là tu ne cites qu'une portion d'un de mes commentaires sorti du contexte puisque j'y expliquais à un ragoteur en désaccord avec notre bilan mitigé qu'il y avait des raisons de fond à cela même en excluant des "détails" gênants. Par contre c'est à se demander pourquoi les cartes affublées de ce défaut (difficilement pardonnable à ce niveau de prix) ont tout de même été commercialisées, l'acquéreur actuel est loin d'avoir la certitude de tomber sur un modèle v2.
par de Champagne-Ardenne, le Mercredi 15 Juillet 2015 à 00h06  
Ce qui est le plus dommage, c'est ces fameux 128rops qui étaient prévues au départ. AMD a part la suite expliqué qu'il avait du faire un choix entre les rops et les sp etc ... c'est la que le bat blesse à mon avis. le pixel filtrates n'a pas évolué du coup.

l'idéal aurait été d'avoir "seulement" les 3584sp d'une fury non X, 128rops et les 256TMU. voir même oublier l'HBM pour la génération prochaine, en lui collant 8go de gddr5 à 1600mhz.

plus homogène, performant et moins couteux. après ça reste une très bonne carte, juste un peu trop chère