COMPTOIR
  
register

+50% de cache L2 sur les P-Cores Lion Cove d'Arrow Lake, une logique implacable ?

Tandis que les fuites affluent de plus belle sur les Core de 14e génération aka Raptor Lake Refresh, d'autres rumeurs plus intéressantes se font faire écho au détour des webs, et il s'agit cette fois d'Arrow Lake-S. Cette génération escomptée pour être la 15e génération de processeurs Core, et inaugurer la plateforme LGA 1851 au passage, est clairement attendue pour apporter un gap de performance plus enthousiasment que ce que nous observons depuis l'arrivée de la gen 12 / Alder Lake ; d'autant qu'il devra se fritter avec des Ryzen 8000 qui eux suscitent déjà de l'attente auprès du grand public.

 

Quoi de mieux pour aider à y parvenir, au-delà du nouveau node de gravure (Intel 20A), des nouveaux Lion Cove (pour les P-core) et Skymont (pour les E-core), qu'une augmentation significative du cache ? C'est en tout cas ce qui se profilerait si l'on en croit le cochon doré, colporté par twiX. Une supposition somme toute de bonne logique, puisque Raptor Lake-S voyait déjà son contingent de cache — 2 Mo par cœur Raptor Cove —augmenté de +60 % par rapport à Alder Lake — 1.25 Mo par cœur Golden Cove —, qui porterait ainsi la quantité de cache L2 sur les cœurs Lion Cove à 3 Mo. Soit un tout aussi massif + 50 % cette fois. Les cœurs Cypress Cove (gen 11) et avant lui Sunny Cove (gen 10) n'en avaient que 512 Ko.

 

arrow lakeArrow Lake, c'est là

 

Mais au fait, il sert à quoi ce cache ? Un processeur, ce n'est pas qu'une histoire de puissance de calcul. Car pour calculer, le CPU doit avoir des données & instructions, et de fait doit y accéder entre ses calculs. C'est le rôle de ces zone de tampon où sont stockées les dernières variables utilisées ; on parle de cache L1, L2, L3, voire L4, où le chiffre indique littéralement la "distance" entre les transistors des cœurs et les transistors des caches, rendant leur accès plus ou moins coûteux en cycles d'horloges. On estime d'ailleurs qu'un CPU « perd » 10 à 30 % de son temps dans ses accès.

Ainsi, il faut ~deux fois plus de temps aux cœurs pour accéder au L1 par rapport aux registres processeurs, ~deux à trois fois plus de temps pour accéder au L2 par rapport au L1, ~dix fois plus de temps pour accéder au L3 par rapport au L1, ~30 fois plus de temps pour accéder à la RAM toujours par rapport au L1.

 

Pourquoi ne pas concevoir des puces avec des caches L1 ou encore mieux des registres nettement plus importants ? Entre autres, le coût en transistors bien sûr (et donc en complexité), le L1 et la plupart de temps le L2 n'étant pas partagés il sont propres à chaque cœur, et doubler leur quantité ne signifie pas pour autant doubler les performances, bien au contraire. Dans les architectures aux caches multicouches modernes, un gros cache L1 ne servirait pas à grand-chose, puisque dans les grandes lignes chercher une variable dans un L1 trop vaste serait presque aussi coûteux en latence... que d'aller dans la RAM. Sans parler du coût énergétique. Le L2 agit peu ou prou comme le L1 tout en étant plus facile à caser dans le package du CPU que ce dernier ; tandis que le L3, partagé entre tous les cœurs, fait office de pool de cache général.

 

Bref, revenons à nos moutons, d'autant que ces caches appartiennent peut-être déjà au passé. Faut-il voir dans cette augmentation potentielle du L2 un élargissement des ports d'exécution du back-end, ou plutôt — soyons fous — une unification des tuiles entre les segments grand public et les segments pro qui, on l'a déjà vu dans le passé avec Golden Cove par exemple livrés avec plus de L2  ? Ou rien de ces deux suppositions ? Et qu'en serait-il du L3 ? En attendant des réponses, un Meteor Lake-S / LGA 1851 s'est également retrouvé sous le feu des paparazzis, et donne une bonne idée de ce à quoi Arrow Lake va ressembler physiquement.. Sans grosse loupe pour voir dedans comment c'est fichu :

 

Un poil avant ?

14 Go/s, 2.5 M d'IOPS & 3.5 W : le SM2508 dézingue l'E26... qui du coup grimpe aussi à 14 Go/s

Un peu plus tard ...

En cabine • Icy Dock ToughArmor MB111VP-B

Les 14 ragots
Les ragots sont actuellement
ouverts à tous, c'est open bar !
par Ragoteur Processeur embusqué, le Mercredi 23 Août 2023 à 07h34  
par Jemporte, le Samedi 19 Août 2023 à 12h50
En réponse Zen 5 ferait un saut niveau perfs par core aussi.
ET surtout au dernières nouvelles AMD va aussi passer sur du BIG.little avec équivalent P-core et E-core sauf que les deux auront de l'HT, oui, même les E-core.
par Jemporte, le Samedi 19 Août 2023 à 12h50  
Intel rafistole ses CPU.
On peut s'interroger sur quelle architecture Jim Keller a bien pu travailler.
En théorie ce serait justement Arrow Lake qui sera sensiblement plus perfomant que la génération précédente.
Or il semblerait qu'Arrow Lake n'est pas finalisé à tous les niveaux et donc ferait l'impasse sur l'hyper-threading sur les P-cores (il aurait du avoir un HT 4 voies au lieu de 2) et malgré cela serait supérieur aux P-Cores Raptor Lake de l'ordre de 30 à 40%.

En réponse Zen 5 ferait un saut niveau perfs par core aussi.

Les prochains CPU et GPU feront donc un saut significatif niveau performances. Ce saut s'explique aussi par l'usage d'une gravure sensiblement plus dense et performante, et donc un dessin de ces chips adapté à ces gravures. Donc nombre de transistors substantiellement à la hausse et la consommation qui va avec. Tout ça devrait être gravé en 3nm que ce soit en finfet optimisé chez TSMC ou en Gaafet chez Samsung.
par Un ragoteur qui pipotronne du Grand Est, le Mercredi 16 Août 2023 à 18h18  
par Un ragoteur 'ArthaX' du Centre-Val de Loire, le Mardi 15 Août 2023 à 17h28
Dans quelles axes les constructeurs doivent ils travailler pour ne pas augmenter la quantité de mémoires cache ?
@++
"La solution" repose sur la multiplication des niveaux de cache, un gros L3/L4 pas forcément terriblement rapide fait le job.

Par contre, à terme, le SMT sera certainement la solution : à l'extrême, plus de souci de cohérence des caches entre cores si il n'y en a qu'un.
par Pascal M., le Mercredi 16 Août 2023 à 13h19  
par Un ragoteur qui aime les BX en Auvergne-Rhône-Alpes¶, le Mercredi 16 Août 2023 à 13h07
Pour éviter les cache miss (donnée nécessaire mais pas disponible/préchargée dans le cache) on peut améliorer la prédiction des données a charger.
(...)
Plein de choses possibles !
Intéressante intervention. La mécanique est.. plutôt complexe. Tu es du secteur ?
par Un ragoteur qui aime les BX en Auvergne-Rhône-Alpes, le Mercredi 16 Août 2023 à 13h07  
par Un champion du monde embusqué¶, le Mercredi 16 Août 2023 à 12h39
J ai envie de dire
Tout n est pas qu une question hardware
Le gros du pb c est plutôt coté middleware et ce qui se passe entre la chaise et le clavier
L'habituelle finesse de gravure qui augmente la densité et les fréquences. Il y a la disposition des puces où on cherche a minimiser la distance entre certains blocs pour améliorer la qualité du signal / les fréquences / baisser la consommation tout en gérant la contrainte des points chauds.

Pour éviter les cache miss (donnée nécessaire mais pas disponible/préchargée dans le cache) on peut améliorer la prédiction des données a charger.

Avec l'hyperthreading et autres techno équivalente on peut charger au maximum les instructions de calcul. Du coup comme pour les GPU il faut le bon mix des différentes unités de calcul (cpu ça va être int, float, etc, GPU on va avoir les différentes unités pour les différentes étapes du rendu).

Comme Apple, on peut faire table rase et partir sur un nouveau jeu d'instruction qui peut énormément faciliter les choses au prix d'une absence de rétro compatibilité ou émulation coûteuse.

Juste pour déconner a l'époque de la grande URSS, il y avait même des ordinateurs ternaires ! un petit lien tout mignon

Sans aller jusque là, on parle de faire des calculs directement dans la RAM pour le machine learning.
Encore plus loin il y a l'abandon du cuivre pour de l'optique ou même du quantique !

Plein de choses possibles !
par Un champion du monde embusqué, le Mercredi 16 Août 2023 à 12h39  
par Un ragoteur 'ArthaX' du Centre-Val de Loire, le Mardi 15 Août 2023 à 17h28
Dans quelles axes les constructeurs doivent ils travailler pour ne pas augmenter la quantité de mémoires cache ?

@++
J ai envie de dire
Tout n est pas qu une question hardware
Le gros du pb c est plutôt coté middleware et ce qui se passe entre la chaise et le clavier
par Un ragoteur 'ArthaX' du Centre-Val de Loire, le Mardi 15 Août 2023 à 17h28  
par Un ragoteur qui pipotronne du Grand Est¶, le Mardi 15 Août 2023 à 15h11
De l'eau a coulé sousles ponts, depuis...

L'architecture système multi-cores a imposé de revoir les classiques mécanismes WT/WB et de gros caches privatifs deviennent vite un problème quand le scheduler de l'OS fait de la merde, soit à peu près systématiquement.
Dans quelles axes les constructeurs doivent ils travailler pour ne pas augmenter la quantité de mémoires cache ?

@++
par Un ragoteur qui pipotronne du Grand Est, le Mardi 15 Août 2023 à 15h11  
par Un ragoteur 'ArthaX' du Centre-Val de Loire, le Mardi 15 Août 2023 à 11h22
J'avais testé avec un ami les CPU Duron 650, Pentium III 600EB et Pentium III 650.
...
rAprès faut voir pour privilégier la L2 ou la L3.
De l'eau a coulé sousles ponts, depuis...

L'architecture système multi-cores a imposé de revoir les classiques mécanismes WT/WB et de gros caches privatifs deviennent vite un problème quand le scheduler de l'OS fait de la merde, soit à peu près systématiquement.
par Unragoteursansespace en Auvergne-Rhône-Alpes, le Mardi 15 Août 2023 à 12h19  
par Un énarque des ragots en Île-de-France, le Lundi 14 Août 2023 à 15h09
Un vieux souvenir, peut être faux, me dit que ce genre d'aumentations de cache est souvent un cache-misère ?
Un cache-L2-misère ?
par Un ragoteur 'ArthaX' du Centre-Val de Loire, le Mardi 15 Août 2023 à 11h22  
par Un hardeur des ragots du Grand Est, le Lundi 14 Août 2023 à 15h46
Cela me rappelle un vieux test entre un Athlon II X2 (1Mo cache L2/cœur) et un Phenom II X2 (0,5Mo L2/cœur + 6Mo L3) à fréquence égales de 3GHz, l'écart était d'environ 3%.
J'avais testé avec un ami les CPU Duron 650, Pentium III 600EB et Pentium III 650.
Pour Quake III, le Pentium III 600EB dominait le Duron 650 de peu. Mais le Pentium III 650 était légèrement moins véloce que le Duron 650.
La différence entre les deux Pentium III, c'était que le Pentium III 650 avait la L2 de 512Ko mais la vitesse était de la moitié du processeur, alors que le Pentium III 600EB avait la L2 de 256Ko mais à pleine vitesse.
Par contre pour faire un tri sous Access 2.0, le PIII 650 mettait une claque au 600EB et le Duron 650 était bon dernier, avec ~5% derrière le 600EB.

Tout ça pour dire que certaines applications peuvent utiliser un max de mémoire cache. Intel et AMD le voient bien dans les testes. Même pour les serveurs la mémoire cache devient un enjeu, avec des données de plus en plus importantes à traiter. Après faut voir pour privilégier la L2 ou la L3.

@++
par Un #ragoteur inspiré en Auvergne-Rhône-Alpes, le Lundi 14 Août 2023 à 22h45  
par Un hardeur des ragots du Grand Est, le Lundi 14 Août 2023 à 15h46
Cela me rappelle un vieux test entre un Athlon II X2 (1Mo cache L2/cœur) et un Phenom II X2 (0,5Mo L2/cœur + 6Mo L3) à fréquence égales de 3GHz, l'écart était d'environ 3%.
Je doute que l'ipc soit egal
par Un hardeur des ragots du Grand Est, le Lundi 14 Août 2023 à 15h46  
Cela me rappelle un vieux test entre un Athlon II X2 (1Mo cache L2/cœur) et un Phenom II X2 (0,5Mo L2/cœur + 6Mo L3) à fréquence égales de 3GHz, l'écart était d'environ 3%.