Le plus gros des coeurs Arm a aussi été revu : faites place au Cortex-X3 ! |
————— 04 Juillet 2022 à 17h28 —— 13349 vues
Le plus gros des coeurs Arm a aussi été revu : faites place au Cortex-X3 ! |
————— 04 Juillet 2022 à 17h28 —— 13349 vues
Entre le refresh du petit cœur Armv9 et la sortie d’une mise à jour du plus gros, nous pouvions croire que la fête d’Arm s’arrêtait là… mais que nenni : voilà que le segment « vas-y-Jacky c’est bon et tant pis pour le pompage de jus » a également droit à un nouveau modèle : le Cortex-X3. Destiné à être intégré en un unique exemplaire sur les SoC de téléphone portable, ou en plus d’exemplaire pour des bousins vraiment gourmands (laptop ou CPU orientés serveurs), cette version prolonge — officiellement tout du moins — la montée du haut de gamme des Britanniques avec un sympathique gain de 11 % en performance par rapport au Cortex-X2 précédent.
Comme d’habitude, les gains ne sont pas magiques et proviennent d’une mise à niveau de la microarchitecture, que nous décomposons en deux parties : le front-end (tout ce qui permet d’envoyer un flot d’instruction toujours plus important au CPU) et le back-end (un pêle-mèle du reste). Du côté de devant, le décodeur suit la tendance du Cortex-A715 et ne propose pas de rétrocompatibilité 32-bit — c’était même déjà le cas de son prédécesseur, dans lequel une simple coupe avait été faite à ce niveau —, mais se paye en plus des optimisations spécifiques à l’Armv9 : un plan d’Arm en 2 étapes pour étaler les gains sur plusieurs générations. Entre autres, il est désormais possible de décoder 6 instructions en un cycle, contre 5 précédemment. Le cache des MOP, directement situé après le décodeur, est réduit pour passer de 3 000 à 1 500 entrées, mais conserve son débit de 8 MOPs/cycle et améliore sa latence d’accès d’un cycle pour passer à 9 cycles.
La prédiction de branchement est revue avec un rehaussement de la capacité du buffer de stockage des cibles de branchements (ou BTB pour faire simple, le français n’aidant pas à la compréhension…) de 50 %, obligeant l’introduction d’un niveau L2 en plus des L0 et L1 précédent — sachant que le L0 a grandi d’un facteur 10.
Au niveau des entrailles, les unités de calculs ne sont que peu modifiées : contrairement au Cortex-A715, la largeur du pipeline est augmentée, entrainant de facto une augmentation du débit. Pour suivre, le ROB est augmenté de 288 à 320 entrées (soit 640 instructions dans le meilleur des cas, grâce à la fusion d’instructions), histoire que goinfrer les 2 ALU supplémentaires (6 au total). Par contre, la partie vectorielle et flottante reste globalement inchangée : ça sera pour la prochaine itération ? Côté mémoire, les bandes passantes sont aussi revues à la hausse avec 32 o/cycle possible en chargement d’entiers (contre 34 auparavant), sachant que le cache L2 est configurable de 512 kio à 1 Mio selon la cible visée.
Voilà en tout cas une sacrée refonte du cœur, mais, seulement à la vue des spécifications, difficile de dire si cela suffira en pratique pour concurrencer les cadors du genre, qu’il s’agisse d’Apple sur iPhone, ou, sur PC laptop et serveur, du duo Intel-AMD, renforcé depuis peu par les M1-M2 de la pomme. Rendez-vous dans quelques mois pour les premières fuites de terminaux équipés ? (Source : WikiChip)
Un poil avant ?Ventes de jeux vidéo : le soulèvement des machins | Un peu plus tard ...Pour vendre sa plus grosse RTX 3090 Ti, EVGA offre une grosse boite à électrons avec ! |