COMPTOIR
  
register

×
×

Test • GeForce TITAN X / GM200
Diagramme GM200
Diagramme des SMM

• Maxwell 2éme génération

Pour concevoir son nouveau GPU à savoir GM200, NVIDIA a donc (ré-)utilisé son architecture Maxwell de seconde génération étrennée par les GTX 970/980 au travers du GM204. Ainsi, la nouvelle puce s'appuie toujours sur des unités polyvalentes nommées Streaming Multiprocessor ou SM pour les intimes. Petits rappels de tout cela en commençant par le diagramme GPU d'un point de vue macroscopique :

 

Diagramme GM200 [cliquer pour agrandir]

Diagramme logique du GM200 - Cliquer pour agrandir

 

Ces SMM (le second M signifiant Maxwell) sont regroupés au sein des GPC (Graphics Processor Cluster) qui intègrent également un Raster Engine ou moteur de rastérisation, chargé de découper les triangles (toujours 4 par cycle en provenance des unités géométriques des SM) en pixels avant de les renvoyer vers les unités de calcul de ces mêmes Streaming Multiprocessor. Avec Maxwell, ce sont pas moins de 4 SMM qui s'entassent par GPC qui passent pour le coup de 4 sur GM204 à 6 sur cette puce haut de gamme pour un total de 24. Jetons à présent un coup d'oeil au sous-système mémoire.

 

Ce dernier est similaire à celui de la puce performance hormis concernant sa largeur puisque composé cette fois de 6 contrôleurs 64-bit disposant toujours d'un cache L2 de 512 Ko soit un total de 3 Mo et 384-bit pour le GPU. NVIDIA réemploie ses améliorations au niveau des algorithmes de compression couleurs afin de réduire les besoins en bande passante mémoire. Parmi ceux-ci, la technique Delta Color permet de calculer l'écart entre 2 couleurs sur des pixels adjacents plutôt que de coder indépendamment chaque couleur de pixel, ce qui permet des gains notables en cas de couleurs "proches".

 

Compression mémoire couleurs Delta

Exemples d'algoritmes de compression couleur

 

Au final, entre l'accroissement du cache L2 et les diverses optimisations, NVIDIA annonce un besoin en bande passante mémoire en baisse de 25% en passant de Kepler à Maxwell. Avant d'attaquer en détail l'évolution des SM, un dernier mot pour préciser que suivant l'accroissement du bus mémoire à 384-bit, le nombre de ROP (vous savez, les petites bêtes chargées d'écrire en mémoire) passe ainsi à 96 qui peuvent être pleinement alimentés puisque les moteurs de rastérisation sont capables de générer 16 pixels par cycle (contre 8 sur les GX1xx), soit là-aussi 96 en tout pour les 6 GPC. Cette valeur peut être soutenue sur un GM200 complet car les SMM sont de leur côté capables de traiter 4 pixels 32-bit par cycle et donc 96 au total puisqu'ils sont 24. De quoi proposer un fillrate très élevé particulièrement utile avec les très hautes définitions. Rappelons à présent le détail de ces fameux SMM :

 

Diagramme des SMM [cliquer pour agrandir]

Un SMM, au coeur de Maxwell

 

Afin de développer l'efficience des SM au sein de sa nouvelle architecture, NVIDIA a revu sérieusement leur composition façon diète. Le nombre d'unités de calcul scalaires (abusivement nommées Core par le marketing) passe ainsi de 192 pour un SMX (Kepler) à 128 pour un SMM. Toutefois, cela n'a pas pour conséquence une perte sèche de 33% de la puissance de calcul de ces derniers par rapport à leurs devanciers comme on pourrait le penser en premier lieu : ces "Cores" sont en fait exploités au sein du SM par groupe de 32 créant ainsi des unités vectorielles SMID. Sur les SMX de Kepler on en compte donc 6 (192 Cuda Cores) pour 4 ordonnanceurs seulement conduisant en pratique à une sous exploitation de ces unités SMID. Le caméléon a donc aligné ces 2 valeurs à 4 sur les SMM ce qui augmente mécaniquement leur efficacité puisque toutes les unités sont exploitables de manière optimale cette fois. Autre régime sévère, les TMU ou unités de texturing qui sont de par leur conception très gourmandes, passent de 16 à 8 avec Maxwell, l'évolution des moteurs 3D déplaçant le besoin en faveur du calcul par rapport au texturing devrait limiter l'impact de cet arbitrage.

 

La gestion des calculs DP assurée par de complexes unités 64-bit est très limitée (1/32 du débit en SP), ce point n'a aucune incidence pour le rendu 3D, par contre cela peut en avoir dans certains cas particuliers pour un usage pro. C'est un arbitrage qui ne nous contrarie pas le moins du monde puisque nous nous désolions lors de notre dossier sur Fermi de l'inutilité de nombreux transistors pour un usage ludique, il serait mal venu à présent de se plaindre de la disparition d'une partie de ces derniers... Toujours est-il que c'est le premier GPU haut de gamme (xx0) récent du caméléon qui se voit ainsi limité dans ce domaine à l'instar des puces Performances (xx4) et Mainstream (xx6). La hiérarchie mémoire au sein du SMM évolue aussi, ainsi, de 64 ko communs entre le cache L1 et la mémoire partagée on passe à 96 ko intégralement dédiés à cette dernière puisque le L1 est déplacé vers le cache Texture doublé pour l'occasion (12 => 24 Ko). Le Polymorph Engine qui gère la géométrie est toujours présent mais passe en version 3.0 avec des gains annoncés jusqu'à 50% par rapport à la précédente version dans les cas d'utilisation intensive de la Tesselation.

 

En tenant compte de l'inflation de la puce, les unités de calcul passent donc de 2048 sur GM204 à 3072 sur GM200. Face au GK110 qui est le véritable devancier du nouveau venu, le gain est plus limité (2880) mais l'efficience de ces dernières est bien supérieure avec Maxwell. Du côté des TMU, les 192 que compte GM200 sont en croissance à nouveau de 50% par rapport à GM204, mais en retrait par rapport aux 240 de GK110. Tout cela nous donne un joli bébé de 8 Milliards de transistors pour 601 mm² gravé en 28nm soit le plus gros GPU jamais produit. Le précédent GPU haut de gamme se "contentait" lui de 569 mm² pour 7.1 Milliards de transistors...

 

Die GM200

Le monstrueux Die du GM200

 

Passons à présent aux diverses nouveautés apportées par cette génération 2 de Maxwell en page suivante.



Un poil avant ?

Aqua Computer sort six waterblocks pour la Titan X

Un peu plus tard ...

Les puces Maxwell ne sont pas potes avec les barbus

Les 50 ragots
Les ragots sont actuellement
verrouillage dossierouverts aux ragoteurs logués