COMPTOIR
register

×

Diagramme Kepler

Test • nVIDIA GeFORCE GTX 680
Diagramme Kepler

• Kepler, une nouvelle architecture ?

Cette année 2012 est une année charnière dans le monde des GPU, car elle inaugure comme d'autres avant elle un nouveau procédé de fabrication pour les puces graphiques. Pour rappel, les 2 principaux concepteurs de GPU (destinés à des cartes graphiques et excluant donc Intel) sont dépourvus d'outils de production propres. En conséquence, cette dernière est sous-traitée à des sociétés tierces, TSMC se taillant la part du lion dans ce domaine. Depuis plus de 2 ans, les GPU utilisaient le 40 nm du fondeur, à présent la fabrication bascule vers le processus 28 nm gage de davantage de transistors par mm² permettant ainsi de réduire la consommation et augmenter la complexité des puces pour un coût de production similaire.

 

C'est généralement par ce biais que les plus gros gains sont observés d'une génération de GPU à une autre. L'architecture de la puce a également son mot à dire et les orientations prises par les 2 concepteurs peuvent entraîner des gains instantanés plus ou moins importants à l'exemple des HD 7900 bien plus complexes que la génération précédente par le biais du 28 nm, mais avec de nombreux arbitrages en faveur du GPU computing qui ne se retrouvent pas forcément en performance 3D. Le caméléon, adepte des puces monolithiques imposantes n'a pour ce GK104 pas battu pour autant des records de complexité. En effet, ce dernier est annoncé comme comportant "seulement" 3,5 Milliards de transistors contre 3 Milliards au GF110 de la GTX 580 et 4,3 Milliards pour Tahiti des HD 7900. En conséquence, la surface du die se limite à 294 mm² contre 365 mm² à la puce concurrente et 520 mm² au GF110.

 

Die GK104

Photo du Die d'un GK104 "Kepler" et de ses 3,5 milliards de transistors

 

AMD faisant des puces plus complexes que nVIDIA, voilà une situation que l'on avait plus connue depuis belle lurette, toutefois la numérotation de ce GPU GK104 indique qu'il ne s'agit pas ici de la puce la plus complexe de la lignée, puisque pour cette dernière le 0 serait de mise à la fin du code GPU (ici GK100 ou GK110) pour le haut de gamme. D'un autre côté, le "680" de la nouvelle carte ne laisse aucun doute quant à son positionnement, bref on serait tenté de croire qu'il s'agit ici d'une carte haut de gamme animée par un GPU moyen de gamme, tout du moins dans sa numérotation puisqu'au-delà de celle-ci et de la surface de die utlisée, c'est bien les performances qui dictent sa valeur commerciale ! Voyons donc ce qui a été concocté pour ce GK104.

 

Pour rappel, nVIDIA a lancé sa première architecture compatible Direct3D 11 en mai 2010 qui portait le nom de Fermi. Elle s'articulait autour de blocs multifonctions nommés SM pour Streaming Multiprocessors, capables de réaliser les opérations sur les shaders, la géométrie et le texturing. Ces SM sont regroupés en GPC (Graphics Processing Clusters) en liaison avec les contrôleurs mémoires, cache L2 unifié et interfaces. Pour Kepler, les GPC (4) sont toujours à la base de la puce comme en témoigne le schéma de principe suivant :

 

Diagramme Kepler [cliquer pour agrandir]

Diagramme Kepler - Cliquer pour afficher un seul SMX en gros plan

 

Toutefois ces derniers ne sont plus composés de SM mais de SMX, Késako ? En fait nVIDIA a orienté son approche vers une meilleure performance par Watt qui était, il faut bien le reconnaitre, le talon d'Achille de Fermi. C'est dans cette optique qu'a été décidé l'abandon du domaine de fréquence spécifique pour les shaders, qui pour mémoire étaient deux fois plus rapides que le reste du GPU (soit ~1,5 GHz pour la GTX 580). En effet, pour assurer de telles fréquences, les unités étaient jusqu'à 4 fois plus gourmandes du fait d'un pipeline deux fois plus complexe et moulinant à deux fois la fréquence ! Le passage au 28 nm permet par contre d'accroitre la densité de transistors et en compensation les SMX se voient dotés de 192 Cuda Cores (unité de calcul scalaire) contre 32 aux SM de Fermi soit un ratio de 6 !

 

NVIDIA a également multiplié par 8 le nombre d'unités effectuant les opérations complexes (SFU) par SMX et par 4 les unités de texturing. Ces dernières sont d'ailleurs modifiées pour s'affranchir de la limite de 128 textures par cycle, toutefois cette fonctionnalité n'est accessible que sous OpenGL pour le moment en attendant une éventuelle prise en charge dans une future version de DirectX. Un gros travail de simplification a été réalisé au niveau du scheduler qui attribue les ressources matérielles selon les besoins du code : nVIDIA a réalisé que l'information permettant d'envoyer au rendu une instruction prête pouvait être dans de nombreux cas déterminée à l'avance (latence constante) et s'affranchir ainsi des ressources matérielles précédemment utilisées pour cette tâche en la confiant au compilateur.

 

Scheduler simplifié sur Kepler

Un exemple de scheduling : Fermi vs Kepler, ou la simplification du hardware

 

Last but not least concernant les SMX, le Polymorph Engine qui est la pierre angulaire de la supériorité architecturale du caméléon sur la concurrence dans le domaine géométrique (unités découplées et démultipliées par SM limitant ainsi l'engorgement d'une ou deux unités pour le GPU) se voit révisée en permettant le traitement de 2 fois plus données par cycle que la version incluse dans Fermi. Chaque SMX se voit toujours doté d'un cache L1  de 64 Ko et de cache dédié aux instructions et textures.

 

Au final, le GK104 inclut 8 SMX (bizarre tiens, le même nombre que pour les GF104/114 ce qui en dit long sur le placement originel de cette puce) en son sein ce qui conduit à la présence de 1536 Cuda Cores, 128 TMU et 8 Polymorph Engine. Ces derniers sont donc divisés par 2 par rapport au GF110 qui comptait 16 SM, nous verrons en pratique s'ils sont réellement 2 fois plus performants. Lorsque l'on couple tous ces éléments aux différentes variations de fréquences (plus rapide pour le GPU, moins pour les shaders), le nouveau-né serait 2 fois plus performant en calcul, 2,6x en texturing et 1,3x en géométrie que le précédent flagship du caméléon. Pour le reste, on note toujours la présence d'un cache L2 unifié de 512 Ko dont la bande passante est en hausse de 73% pour s'adapter à la puissance des SMX.

 

Les ROP passent de 48 à 32, soit une baisse de 33% proportionnelle à la réduction du bus mémoire, qui n'est plus composé que de 4 contrôleurs 64-bit (256-bit en tout) contre 6 au GF110 (pour un bus total de 384-bit sur ce dernier). Le caméléon n'a par contre pas lésiné sur les moyens pour conserver intact la bande passante disponible en développant des contrôleurs mémoire GDDR5 capables d'atteindre 6 Gb/s pour un débit mémoire inchangé ou presque à 192 Go/s. NVIDIA indique avoir travaillé dur sur le design du circuit physique et l'intégrité du signal pour atteindre de telles fréquences.

 

vue à loscilloscope de GDDR5 à 6 Gb/s

Une vue du signal à 6 Gb/s

 

Passons en revue les nouvelles fonctionnalités apportées par Kepler page suivante.



Un poil avant ?

Les GeForce 301.10 WHQL pour GTX 680 sont disponibles

Un peu plus tard ...

GlobalFoundries fête son 250 000e wafer 32nm

Les 271 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par Un ragoteur temporaire, le Samedi 14 Avril 2012 à 19h29  
Pour une solution tri-écran, l'eyefinity adapter marcherait avec? Nvidia prévoit-il de commercialiser un convertisseur dans le même style?
par Eric B., le Dimanche 25 Mars 2012 à 17h40  
Pour GTA4 tu as répondu toi même, pour Crysis, il fallait bien s'arrêter un moment dans le panel, toutefois je vais retoucher ce dernier, certains jeux ne sont plus assez "gourmands" pour départager nos cartes, Crysis reviendra peut-être, à voir.
par Wh!te Sh4dow, le Dimanche 25 Mars 2012 à 15h30  
Vous n'effectuez plus de tests sous GTA IV ? Trop dépendant du CPU et pas assez du GPU ?
Et qu'en est-il de Crysis 1 ? N'est il pas plus exigeant que Crysis Warhead ou Crysis 2 ? Cela aurait été intéressant de voir les performances de la GTX 680 sous le premier Crysis, pour vérifier si ce jeu est enfin jouable dans d'excellentes conditions "tout à fond"
par Un ragoteur temporaire, le Samedi 24 Mars 2012 à 21h03  
par Un ragoteur lambda le Samedi 24 Mars 2012 à 17h48
Pourquoi toujours des test de jeu en high alors qu'il peuvent aller en very high
ces test sont fait pour tirer meilleur partie de la carte ou tirer meilleur parti du jeu? pourtant lors du test de la HD7970 tout était a fond. J'en connait qu'on des actions chez nvidia , vous avez sautez au plafond quant nvidia a sortie le Tegra 3?
la creme de la creme enorme lui
par Eric B., le Samedi 24 Mars 2012 à 20h35  
<img src='http://www.forumsducomptoir.com/public/style_emoticons/<#EMO_DIR#>/wacko.gif' class='bbc_emoticon' alt='' /> ?? Les jeux sont testés avec les options poussées au maximum, c'est écrit dans le protocole et rien n'a changé à ce niveau depuis le dossier des 7900. Bref avant d'écrire de tels propos totalement farfelus et faux, il serait bon de prendre la peine de lire un minimum le dossier !
par Un ragoteur lambda, le Samedi 24 Mars 2012 à 17h48  
Pourquoi toujours des test de jeu en high alors qu'il peuvent aller en very high
ces test sont fait pour tirer meilleur partie de la carte ou tirer meilleur parti du jeu? pourtant lors du test de la HD7970 tout était a fond. J'en connait qu'on des actions chez nvidia , vous avez sautez au plafond quant nvidia a sortie le Tegra 3?

par Eric B., le Samedi 24 Mars 2012 à 14h27  
par Un ragoteur inspiré le Samedi 24 Mars 2012 à 10h54
Puce qui a 2-3 mois de retard, qui fait un peu plus que la 7970 (le minimum syndical quand on a du retard), je me demande si ça mérite vraiment le diamant.
Seul le GPU a obtenu le diamant, au regard du fait qu'étant moins complexe et donc moins coûteux à produire que son concurrent direct, il le devance, est plus économe énergétiquement parlant (hormis en vieille prolongée ou Tahiti garde l'avantage via ZeroCore Power) et propose divers petits plus pour le gamer. C'est d'ailleurs ce retour à l'orientation gamer qui est aussi récompensée. Ajoutons que l'avance prise par AMD avec la HD 7970 n'est flagrante que depuis quelques semaines entre le paper launch initial et les prix surévalués du fait d'une disponibilité tendue au départ, bref pas vraiment significative. Pour nous oui c'est justifié, la GTX 680 "se contente" elle de l'Or c'est à dire un peu mieux que la HD 7970. Des cartes issues de Southern Islands, cette dernière n'est d'ailleurs pas la plus intéressante, loin s'en faut !
par Un ragoteur inspiré, le Samedi 24 Mars 2012 à 11h00  
Bon, au moins, ils ont pensé à moi avec un eyefinity Nvidia
par Un ragoteur de transit, le Samedi 24 Mars 2012 à 10h55  
Je viens d'avoir les ASUS GTX 680, je suis a 8600 en performance avec ma vielle 920 OC en 3,5Ghz, j'ai une question a vous poser, j'ai pas le cable pour mettre en SLI, j'ai trouver dans mon grenier, un cable en Way-SLI, est ce que ça marchera en SLI juste, concernant l'alim, je ne peux plus mettre d'autre câble, mais dans les carton d'ASUS, j'ai un câble, 6 broche je crois, qui peux alimenter des disque par exemple, est ce que je peux utiliser ce cable pour alimenter ma 2eme carte, ou ce cable ce sert a rien, car sous alimenté ?
par Un ragoteur inspiré, le Samedi 24 Mars 2012 à 10h54  
Puce qui a 2-3 mois de retard, qui fait un peu plus que la 7970 (le minimum syndical quand on a du retard), je me demande si ça mérite vraiment le diamant.
par Un ragoteur qui passe, le Vendredi 23 Mars 2012 à 21h19  
par Pascal M. le Vendredi 23 Mars 2012 à 20h55
fooooooort longtemps c'est quoi l'intérêt d'une telle question ?
Y en a qui ont des bon taff quoi
par Pascal M., le Vendredi 23 Mars 2012 à 20h55  
fooooooort longtemps c'est quoi l'intérêt d'une telle question ?