Intel Architecture Day 2021 • Alder Lake, une architecture doublement nouvelle

RTX 5070 TI : 68 refs en stock de 797.00 € à 1497.16 € Tendance haussière
RTX 5090 : 42 refs en stock de 2422.78 € à 4301.97 € Tendance haussière
RADEON RX 9070 : 43 refs en stock de 557.99 € à 988.90 € Tendance baissière
RADEON RX 9070 XT : 61 refs en stock de 593.99 € à 970.68 € Tendance haussière
RADEON RX 9060 XT : 69 refs en stock de 309.00 € à 498.06 € Tendance baissière
RTX 5060 : 98 refs en stock de 274.55 € à 550.07 € Tendance haussière
RTX 5060 Ti : 116 refs en stock de 359.10 € à 682.35 € Tendance baissière
Core Ultra 5 245K : 8 refs en stock de 237.88 € à 369.99 € Tendance haussière
Core Ultra 7 265K : 9 refs en stock de 287.99 € à 499.90 € Tendance baissière
Core i7-14700k : 14 refs en stock de 319.00 € à 459.90 € Tendance haussière
Core Ultra 9 285K : 2 refs en stock de 635.66 € à 729.99 € Tendance baissière
Ryzen 5800X3D : 1 ref en stock à 544.16 € Tendance haussière
RTX 4060 ti : 29 refs en stock de 322.99 € à 14359.75 € Tendance baissière
Tendance haussière
RTX 4070 TI SUPER : 1 ref en stock à 1217.93 € Tendance haussière
Ryzen 9700X : 1 ref en stock à 399.90 € Tendance haussière
Ryzen 7700X : 3 refs en stock de 263.00 € à 349.99 € Tendance baissière
Ryzen 7800X3D : 7 refs en stock de 329.99 € à 537.00 € Tendance baissière
ryzen 9800X3D : 7 refs en stock de 466.00 € à 614.99 € Tendance haussière
Ryzen 9900X : 5 refs en stock de 384.00 € à 584.00 € Tendance baissière
RTX 4090 : 8 refs en stock de 2499.99 € à 2989.99 € Tendance baissière
RADEON RX 7700 XT : 13 refs en stock de 399.00 € à 567.99 € Tendance haussière
Ryzen 7950X3D : 5 refs en stock de 637.00 € à 829.99 € Tendance baissière
PS5 Pro : 4 refs en stock de 741.76 € à 799.99 € Tendance haussière

La réception • Actualités • Processeurs

Tout comme à la fin de l’année 2018 en présentiel et en 2020 en format vidéo, voilà que les bleus réitèrent leur événement destiné à envoyer la poudre aux yeux des consommateurs : l’Intel Architecture Day. Entre l’arrivée de X^e sur le segment grand public (HPG) et professionnel (HPC), Alder Lake/Sapphire Rapids pour ce qui est des processeurs et quelques rajouts spécialement conçus par la firme, le fondeur de Santa Clara a pu concocter un pot-pourri qui ne manque pas de densité et qui, pour le coup, devrait préfigurer la gamme dans un futur proche.

Commençons avec le cœur de métier de la maison : les processeurs. Avec Alder Lake, Intel poursuit la voie entamée avec Lakefield et proposera un CPU hétérogène, c’est-à-dire dont les cœurs intégrés au sein du processeur ne partagent pas tous le même design, ici soit l’Efficient Core, soit le Performance Core. Or, qui dit deux design dit deux microarchitectures différentes, et, sur ce coup, Intel a su mettre les bouchées doubles pour sortir, d’un côté, le successeur de Tremont, Gracemont ; et, de l’autre, Golden Cove descendant de Willow Cove. Désormais, ces deux familles « Mont » et « Cove », dont Intel préfère désormais les patronymes d’Efficient et Performance Core (ou E-core et P-core), évolueront ainsi en parallèle, tout du moins tant que le design hétérogène reste au goût du jour.

L’Efficient Core, un design... meilleur que Skylake ?

Lorsque l’annonce d’un design hétérogène a été officielle, nombreuses ont été les interrogations. En effet, proposer une configuration à 16 cœurs est alléchant sur papier, mais s’il s’agit de 8 faibles cœurs et 8 cœurs corrects, le résultat n’est pas forcément fameux (l’expérience Xeon Phi l’a très bien démontré : mettre 50 Atom ensemble ne fait pas un foudre de guerre). Cependant, Alder Lake ne devrait pas réitérer les mêmes erreurs, car Intel s’est montré plus que rassurant sur les performances des bouzins : grâce aux optimisations opérées, les cœurs se montreront plus efficients que Skylake, avec soit un gain estimé par Intel jusqu'à 40 % de performances pour la même consommation, soit une réduction de 40 % de l’énergie nécessaire, à performance égale. Une fois rassemblé en cluster, le résultat est encore plus éloquent : 4 cœurs efficients proposeraient 80 % de consommation en moins ou 80 % de performances en plus par rapport à un dual core/quad thread Skylake, l’hyperthreading n’étant par contre pas de partie sur cette microarchitecture là. Attention néanmoins à garder une certaine distance dans la lecture de ces chiffres, Intel ne précise ici ni la version de Skylake utilisée (les diverses moutures du 14 nm ayant des différences notables sur la consommation), et se contente de résultats basés sur SPEC en version int : il y a fort à parier que la FP soit davantage dans les choux.

Un coeur efficient bien efficient tout seul [cliquer pour agrandir]

Un petit tour d'horizon des nouveautés du coeur efficace [cliquer pour agrandir]

En interne, les progrès sont nombreux : le front-end change relativement peu si ce n’est le cache des instructions, qui grandit pour passer à 64 kio, et le prédicteur de branchements qui prend également de l’embonpoint, sans plus de précision. Pour le reste, le double décodeur est toujours capable de fournir un maximum de 6 instructions par cycle, encore heureux d’ailleurs !

Un étage de décodage qui envoie du pâté ! [cliquer pour agrandir]

Par contre, le back-end, lui, est radicalement chamboulé : passage à une fenêtre de réordonnancement de 256 entrées, une allocation gérant 5 micro-instructions en parallèle et la terminaison de 8 micro-instructions, mais, surtout, pas moins de 17 ports de traitement, contre 8 précédemment.

Pour être large, il est bien large ce back-end ! [cliquer pour agrandir]

Le sous-système mémoire n’est pas en reste avec 4 Mio de L2 maximum supporté pour un débit de 64 octets par cycle et une latence de 17 cycles, le tout supportant un maximum de 64 requêtes en attente. Enfin, pour ce qui est des extensions supportées, pas de panique : l’AVX2 est bien présent (comprenant les VNNI et les FMA), tout comme l’Intel CET récemment introduit.

Le Performance Core, l’évolution logique de Tiger Lake !

Pour ce qui est de poutrer, le cœur Performance devrait bien répondre « présent ». Boostés aux hormones avec, principalement, deux ports de calculs supplémentaires et le support de l’extension Intel AMX, les gros cœurs sont donnés pour supplanter Rocket Lake et son Cypress Cove de 19 % en moyenne à isofréquence, soit l’écart déjà réalisé entre Skylake et Ice Lake. Si les fréquences suivent, les gains en situation réelle devraient être conséquents.

Un coeurs Performance qui envoie du lourd ! [cliquer pour agrandir]

Un graphique qui sent le déjà-vu !

Une fois encore, ces chiffres ne sortent pas du chapeau : le design a été passé en revu ici et là afin de grossir toujours plus les bus et fournir toujours davantage de puissance brute exploitable.

performance core recap t [cliquer pour agrandir]

Le front-end est bien testicouillu avec des augmentations au niveau de l’iTLB, qui passe à 256 entrées pour les pages de 4 kio, et 32 entrées pour des hugepages, mais aussi du chamboulement sur le muop cache qui double quasiment en passant à 4 kilo-entrées, et qui alimente désormais une queue de 72 muops et non plus 70. Pour finir, les décodeurs évoluent (enfin !), sont au nombre de 8 et déroulent le code par tranches de 32 octets, fournissant ainsi 8 muops maximum par cycles.

performance core recap t [cliquer pour agrandir]

Côté back-end, les changements sont du même ordre : rajout d’un port de chargement des donnés et un port généraliste d’ALU ; le tout nourri par un ROB à 512 entrées et un scheduleur gérant 6 muops à la fois. De plus, les ports 0 et 1 prennent une unité supplémentaire, le Fast Add, permettant de réaliser des additions flottantes en 1 cycles.

performance core recap t [cliquer pour agrandir]

La mémoire progresse en parallèle avec 1,25 Mio de L2 pour les processeurs grand public et 2 Mio pour les pro, et le sous-système gère maintenant 48 requêtes en attentes maximums afin de gloutonner les 3 chargements 256-bit désormais possibles, ou 2 chargements 512-bits.

Du côté des extensions supportées, l’AVX-512 est au rendez-vous pour les opérations vectorielles, et l’AMX pour les opérations matricielles (offrant, par exemple, un débit 8 fois supérieur à une implémentation VNNI-256 équivalente lors d’une utilisation sur des entiers 8-bit) ainsi que le cocktail déjà présent sur les E-cores.

La synthèse des deux : Alder Lake, une architecture hybride

Intel l’ayant crié sur tous les toits auparavant, la surprise n’est pas bien grande... mais tout de même : Alder Lake sera la réunion de ces E-cores et P-cores sous un même die, et ce, selon trois saveurs différentes. En effet, la gamme — s’étendant, au passage, des TDP de 9 W à 125 W — sera composée de 3 dies : un pour les ordinateurs de bureau, l’autre pour les PC portables et le troisième pour les ultraportables.

Différent facteurs de forme pour Alder Lake... [cliquer pour agrandir]

Qui dit différents facteurs de forme dit différentes configurations, dont voici les spécifications maximales :

kiki ?	Coeurs (Efficient + performance)	Threads	Cache L3	iGPU	Support mémoires
Le gros	8+8	24	30 Mio	32 EU Xe	DDR5-4800 DDR4-3200 LPDDR5-5200 LPDDR4x-4266
Le moyen	8+6	20	24 Mio	96 EU Xe
Le petit	8+2	12	12 Mio	96 EU Xe

kiki ?

Coeurs

(Efficient + performance)

Threads

Cache L3

iGPU

Support mémoires

Le gros

8+8

30 Mio

32 EU Xe

DDR5-4800

DDR4-3200

LPDDR5-5200

LPDDR4x-4266

Le moyen

8+6

24 Mio

96 EU Xe

Le petit

8+2

12 Mio

96 EU Xe

Outre la grande nouveauté de la DDR5, le PCIe 5.0 est également présent, doublant la bande passante offerte... pour le GPU. Les quatre lignes supplémentaires offertes par le CPU, usuellement utilisées pour des SSD NMVe, demeurent en 4.0, tandit que la liaison avec le chipset est, quant à elle, inconnue. Pour ce qui est des fréquences, par contre, il va encore falloir attendre la sortie officielle des produits pour savoir de quoi il en retourne... patience !

... pour différents die d'Alder Lake [cliquer pour agrandir]

Détail de taille : sur Alder Lake, n’espérez pas voir ni AVX-512, ni AMX, réservé aux CPU pour datacenters. En effet, par souci d’intercompatibilité des jeux d’instructions, Intel va désactiver de manière permanente cette extension sur les CPU grand public, afin que les threads puissent être librement assignés à un P-core ou un E-core sans vérification de l’ISA. De ce fait, le VNNI, initialement lancé sur 512 bits, est ici présent dans une version 256-bit.

Intel Thread Director: une aide matérielle à l’ordonnancement

Petite surprise de la part des bleus, Alder Lake embarquera une aide hardware au scheduler : l’Intel Thread Director, un composant chargé de la migration des processus sur les threads disponibles. L’idée est simple : donner la priorité aux applications en cours d’exécution les plus gourmandes, là où les processus en attente où les daemons réalisant des tâches légères seront associés à des cœurs efficients. Pour autant, cette unité n’est pas capable de migrer les processus en tant que tels : cette décision demeure du ressort de l’OS... et heureusement, vu le travail que cela requiert !

Tout dans le hard', et hop ! [cliquer pour agrandir]

Pour cela, l’Intel Thread Director permet de compléter les informations possédées par le scheduler, en lui ajoutant une métrique sur le niveau de performance requis pour chaque processus basée sur une télémétrie matérielle (mesure de l’utilisation des différentes unité de calcul/extensions vectorielles), guidant ainsi la décision d’affectation d’un E-core ou d’un P-core. Notez que, dans le cas où une application serait détectée comme requérant un P-core alors que tous sont déjà pris, le CPU remontera directement au noyau un conseil sur le processus à déplacer afin de laisser une place libre pour le nouveau venu. De plus, un processus préalablement détecté comme gourmand pourra être requalifié par la suite en économe si jamais la nature de son travail venait à changer (et inversement). Une idée plutôt puissante dans la théorie, il faut tout de même espérer que l’algorithme utilisé soit suffisamment intelligent pour sélectionner la bonne application le moment venu.

Le mot de la fin

Comme à chaque présentation architecturale uniquement, il nous est bien difficile de conclure. En effet, l’absence de chiffres de performances en situation réelle et de prix de vente risque de casser tout jugement préliminaire sur le produit. Néanmoins, Alder Lake présente, sur le papier, bien des avantages : en situation standard, la structure hétérogène devrait fournir d’un côté la pêche nécessaire aux applications de premier plan et, de l’autre, les cœurs économes pourront se charger de threads moins gourmands, laissant ainsi les Watts sauvés aux premiers cités. Quant au Thread Director, son principe est inséparable de la notion même d’hétérogénéité, bien que nous redoutons que son usage se limite à Windows 11 et Linux, et soit alors utilisé comme un argument de mise à jour. Rajoutons également que les progrès en matière de consommation ne sont pas tous imputables aux modifications architecturales, mais également à la finesse de gravure utilisée, l’Intel 7, qui permet par ailleurs une baisse de la tension de fonctionnement sur les E-core. Une finesse sur laquelle nous avons peu de recul sur sa capacité à monter dans les tours ; mais, puisqu’il s’agit d’un dérivé du 10 nm (merci le renommage...), nous devrions avoir relativement peu de souci de ce côté-là. À vérifier lors du test du produit fini !

Par ici pour la conférence complète !

Un poil avant ?

Des Raptors dans un lac, une scène leakée à voir !

Un peu plus tard ...

NVIDIA admet que l'acquisition d'Arm n'est pas encore gagnée...

Alder Lake promet des merveilles en matières de performance, mais comment cela est-il obtenu en pratique ?

8 minutes, parfait pour procrastiner intelligemment

Sur le comptoir, au ~même sujet

	L’Intel Baseline Profile diminue d’environ 9 % les performances du Core i9-14900K
	Intel Core : une légère baisse des performances à cause d’un correctif de sécurité
	Test • Intel Core i9-14900K, Core i7-14700K & Core i5-14600K
	Intel et AMD désormais partenaires, pour le bien du x86
	x86 : le choc de simplification d'Intel, ce ne sera pas pour tout de suite
	Intel tourne la page des Alder Lake
	Core i9-14900KS : Intel persiste dans la surenchère de GHz et de watts
	Core Ultra 9 285K : plus efficient que le Core i9-14900K, mais pas meilleur, prévient Intel
	Core Ultra 200S : avec Arrow Lake-S, Intel mise désormais sur la sobriété
	Intel vous implore d’acheter un Core en vous octroyant deux jeux (MAJ)
	Intel officialise les Core Ultra 200S Plus, des Arrow Lake-S améliorés
	Lunar Lake : dans la guerre des NPU, Intel promet plus de 100 TOPS pour ses prochains Core