Ordinateurs

Alder Lake Extravaganza : Intel dévoile les détails de son processeur de nouvelle génération

Cette semaine, Intel a partagé des détails importants sur sa famille de processeurs Alder Lake avec beaucoup plus d’informations que nous n’en avions auparavant concernant la conception du cœur des processeurs, les performances et l’efficacité énergétique attendue.

Il s’agit d’un lancement critique pour Intel. Les processeurs de bureau du fabricant sont bloqués sur 14 nm depuis plus de six ans maintenant, et les fissures dans ce nœud de processus sont visibles depuis au moins deux ans. Rocket Lake est actuellement en concurrence avec AMD dans le milieu de gamme et le bas de gamme du marché tant que vous ne vous souciez pas de l’efficacité énergétique, mais AMD a un avantage dans le haut de gamme. Alder Lake a pour but de changer cela. Bien que Pat Gelsinger n’ait pas été PDG d’Intel assez longtemps pour avoir beaucoup contribué à la conception, il s’agit toujours du premier lancement majeur de son mandat et du premier produit construit sur la prochaine itération d’Intel de son nœud 10 nm.

Après six ans bloqués sur 14 nm, Intel doit démontrer qu’il peut reprendre le leadership en matière de processus et de performances. Personne ne s’attend à ce que cela se produise du jour au lendemain, mais Gelsinger a parié le modèle commercial de Chipzilla sur le résultat. Au lieu de se tourner vers des partenariats de fonderie purs et de ne pas construire son propre matériel, comme le souhaitaient certaines sociétés d’investissement activistes, Intel a choisi de jouer simultanément pour les deux côtés de l’activité de fonderie. Il continuera à fabriquer son propre matériel et offrira des services de fonderie et des conceptions de cœur x86 sous licence aux entreprises qui souhaitent acheter l’un ou l’autre.

Intel a peu d’intérêt à être une fonderie de second rang ou à poursuivre des contrats de fabrication de produits de base sur des puces à faible coût, et la nature capitalistique de son activité exclut probablement une telle stratégie dans tous les cas. Parce qu’il construit ses propres puces, Intel peut tirer parti d’Alder Lake comme preuve d’une compétitivité améliorée, à condition que le processeur tienne réellement cette promesse. Alder Lake est également le premier processeur x86 à s’inspirer du livre d’Apple et à déployer à la fois des « gros » et des « petits » cœurs.

Rencontrez Gracemont

Alder Lake est un processeur hybride contenant deux types différents de cœurs de processeur. Les cœurs Efficiency sont basés sur Gracemont, l’architecture basse consommation d’Intel qui a évolué à partir de l’Atom original en 2008. Les cœurs Performance sont basés sur une nouvelle architecture, Golden Cove. Ce sont les dernières normes d’Intel pour les petits cœurs et les gros cœurs et les deux sont de nouvelles conceptions. Parlons d’abord de Gracemont :

Gracemont-8

Gracemont conserve certains éléments de conception en commun avec Tremont. Les deux cœurs de processeur offrent une double unité de décodage à 3 largeurs, mais Gracemont double le cache d’instructions (64 Ko). C’est la deuxième fois qu’Intel augmente le cache d’instructions L1 ; Tremont est passé de 24 Ko à 32 Ko il y a quelques années. Le processeur contient le premier décodeur de longueur d’instruction à la demande d’Intel et une forte augmentation du nombre total de ports d’exécution, de 10 à 17. Comme Tremont, Gracemont manque d’Hyper-Threading et est un cœur de processeur à un seul thread.

Selon Intel : « Un décodeur de longueur d’instruction à la demande décode les données d’instruction pour déterminer où les instructions commencent et se terminent. La sortie est ensuite utilisée pour diriger les données d’instruction vers les décodeurs, ou elle peut être enregistrée avec les octets d’instruction parallèlement au cache d’instructions pour marquer le début/la fin de la récupération et du décodage futurs. Cela ressemble à une fonctionnalité qui pourrait être utilisée pour compenser les instructions de longueur variable de x86 et peut aider le processeur à extraire une efficacité supplémentaire en lui donnant plus d’informations.

Gracemont peut émettre cinq instructions et en retirer huit par cycle, là où Tremont pourrait émettre quatre instructions et en retirer huit, et il peut résoudre deux branches par cycle d’horloge. Intel n’est pas entré dans beaucoup de détails sur le moment où Gracemont peut réellement décoder et utiliser les six instructions par horloge – la puce a deux encodeurs de largeur 3, pas une solution de largeur 6 – mais lorsque Tremont a été lancé, Intel a affirmé que deux trois Les décodeurs larges ont permis d’économiser de l’énergie et de l’espace sur les puces par rapport à un grand cache micro-op ou à un décodeur unifié à six largeurs.

Selon Intel, « quatre cœurs efficaces offrent 80 % de performances supplémentaires tout en consommant moins d’énergie que deux cœurs Skylake exécutant quatre threads ou les mêmes performances de débit tout en consommant 80 % d’énergie en moins ». Intel affirme également que Gracemont peut fournir 40 % de performances à un seul thread de plus que Skylake dans la même enveloppe de puissance ou des performances identiques avec moins de 40 % de puissance.

Une chose à garder à l’esprit lors de l’évaluation de ces affirmations est qu’Intel ne donne pas de vitesse d’horloge de référence ou de TDP. Les grands avantages d’efficacité par rapport à Skylake pourraient s’expliquer en partie par les faibles performances du processeur dans les plages de TDP que Gracemont est conçu pour servir. Le Core i3-6100U avait un TDP configurable de 7,5 W et une vitesse d’horloge de 800 MHz à ce TDP. Si Intel compare dans des plages et des horloges TDP faibles, cela expliquerait l’énorme amélioration de l’efficacité.

Gracemont dispose d’un cache L2 partagé, chaque quadricœur partageant jusqu’à 4 Mo de L2, une latence L2 de 17 cycles et prend en charge AVX, AVX2 et AVX-VNNI. AVX-VNNI fait partie de la spécification AVX-512, mais Intel ne revendique pas la prise en charge complète d’AVX-512 et il existe plusieurs instructions AVX-512 que Gracemont ne peut pas exécuter.

Nous avons inséré certaines des diapositives supplémentaires d’Intel dans le diaporama ci-dessous si vous souhaitez plus d’informations sur Gracemont. Vous pouvez cliquer sur chaque diapositive pour l’ouvrir, en taille réelle, dans une nouvelle fenêtre.

[metaslider id=”325979″]

Saluez Golden Cove

Le mantra pour le développement de Golden Cove, selon Intel, était « Plus large, plus rapide, plus intelligent », et c’est une bonne façon de résumer les diverses améliorations apportées au processeur. Golden Cove est issu du noyau Willow Cove du processeur Tiger Lake d’Intel, mais il contient un nombre important de mises à niveau et d’améliorations par rapport à cette conception.

« Wider, Deeper, Smarter » a apparemment battu « Wider, Deeper, Faster ». Je ne peux pas imaginer pourquoi.

Golden Cove augmente le nombre de décodeurs frontaux à six, contre quatre, et étend considérablement les iTLB d’Intel. Le processeur prend désormais en charge le décodage de 32 octets, au lieu de 16 octets par cycle, et la file d’attente micro-op est légèrement plus large. Il prend désormais en charge 72 entrées par thread, au lieu de 70, et le cache micro-op peut contenir des micro-opérations 4K, au lieu de 2,25K. Le taux de réussite du cache micro-op et la bande passante frontale ont tous deux été augmentés.

Il y a maintenant 12 ports d’exécution, au lieu de 10, avec un tampon de réorganisation plus profond (512 entrées, au lieu de 352 à Sunny Cove/Willow Cove). Le cache L1 prend désormais en charge trois ports de chargement, au lieu de deux, et peut gérer des charges 3 × 256 bits ou 2 × 512 bits en un seul cycle. Le cache de données L1 est désormais de 96 Ko (Tiger Cove contient 64 Ko), avec 16 préchargeurs et la possibilité de prendre en charge quatre parcours de table de pages, contre deux auparavant.

Golden Cove offrira soit 1,25 Mo de L2 pour l’informatique client (plat par rapport à Tiger Lake) ou 2 Mo dans les applications de centre de données. Il prend également en charge le nouvel ensemble d’extensions Advanced Matrix Extensions (AMX) d’Intel, qui, selon Intel, offre une augmentation considérable des performances de l’IA. En utilisant VNNI, un processeur Intel peut exécuter 256 instructions INT8 par cycle. AMX permet à la même puce d’exécuter 2 048 instructions INT8 par cycle.

Cela pourrait considérablement améliorer les performances de l’IA basée sur le processeur d’Intel dans les applications pertinentes, bien que les mises en garde habituelles concernant l’adoption et l’optimisation du SIMD s’appliquent. Il faudra peut-être quelques années avant qu’AMX ne soit beaucoup utilisé dans les applications commerciales, mais les gains de performances impliquent que les processeurs Intel peuvent être une alternative raisonnable aux GPU Nvidia pour certaines tâches liées à l’IA et à l’apprentissage automatique. Les processeurs peuvent déjà effectuer des charges de travail d’inférence d’IA à des vitesses raisonnables, il sera donc intéressant de voir si cela améliore les performances du processeur dans la formation des modèles d’IA ou si cela les rend simplement plus compétitifs en matière d’inférence.

Ajoutez tout cela et voici ce que vous obtenez :

Cette diapositive est en fait un peu trompeuse, à mon avis, mais pas d’une manière qui favorise Intel. Pour une fois, l’utilisation d’un point de départ différent de zéro donne à Intel une apparence pire, pas meilleure. L’écart de performances entre Rocket Lake et Alder Lake dans le sous-test le moins performant est d’environ 92% à l’extrême gauche du graphique, tandis qu’Alder Lake serait jusqu’à 1,6 fois plus rapide dans une poignée de tests. Le gain médian est de 1,19x, selon Intel.

Alors qu’Intel a pris beaucoup de chaleur pour son incapacité à fournir de nouveaux nœuds de processus au cours des six dernières années, une augmentation des performances de 1,19 fois par rapport à une nouvelle génération de produits est respectable. Rocket Lake a augmenté l’IPC par rapport à Comet Lake, mais Intel a dû échanger des cœurs pour que le TDP fonctionne. En conséquence, un RKL à huit cœurs et un CML à 10 cœurs sont globalement similaires dans de nombreuses applications. Alder Lake combine jusqu’à huit cœurs Golden Cove et 16 threads GC avec jusqu’à huit cœurs Gracemont (1T chacun), pour un grand total de 16 cœurs et 24 threads dans un SKU haut de gamme.

Si vous souhaitez consulter les diapositives Golden Cove supplémentaires d’Intel, nous les avons compilées dans un deuxième diaporama ci-dessous.

[metaslider id=”326014″]

Noter: Après plusieurs rebranding 10nm, Intel s’est mis d’accord sur une nouvelle nomenclature pour ses nœuds de processus. Alder Lake est construit sur Intel 7 (sans suffixe « nm »). Intel 7 est toujours un nœud de 10 nm – il aurait été baptisé «Enhanced SuperFin» sous l’ancienne nomenclature – mais Intel revendique une amélioration de 10 à 15% des performances par watt et diverses optimisations des transistors FinFET. Plus d’informations sur les plans de mise à jour à long terme des nœuds d’Intel peut être trouvé ici.

Faire en sorte que tout fonctionne ensemble

La répartition des charges de travail entre les petits et les gros cœurs nécessite une prise en charge supplémentaire. Intel a intégré une planification matérielle améliorée dans ses puces, baptisée Thread Director. Thread Director surveille le processeur et s’assure que chaque charge de travail se retrouve sur le cœur approprié.

Bien qu’il soit difficile de montrer les démos qu’Intel nous a données ou de les évaluer sans être pratique, la société a donné un exemple de la façon dont Thread Director distribuerait plusieurs threads sur les cœurs de performance et d’efficacité. Dans l’image ci-dessous, les tâches vertes sont des charges de travail scalaires, les tâches orange représentent une nouvelle charge de travail AI qui vient d’être lancée et les tâches bleues sont des tâches d’arrière-plan.

Dans des conditions appropriées, le processeur planifiera les charges de travail sur les cœurs de performance et d’efficacité. Intel n’a pas révélé la probabilité que cela se produise dans des conditions réelles ni le type d’amélioration des performances qu’il attendait des cœurs P en tirant parti du débit supplémentaire disponible de Gracemont.

Intel a développé Thread Director en coopération avec Microsoft et Alder Lake fonctionnera mieux sous Windows 11, bien que la puce prenne également en charge Windows 10. Avant l’introduction de Thread Director, le planificateur du système d’exploitation n’avait aucune idée du thread qu’il exécutait ou quel noyau il devrait être programmé. Selon Intel, Thread Director comble cette lacune et fournit plus d’informations au système d’exploitation concernant la planification. La puce est également capable de prendre des décisions de planification de la charge de travail avec une fidélité à la microseconde et la planification est plus fine qu’elle ne l’était avant l’introduction de Windows 11.

Les tests ont indiqué que le précédent processeur hybride d’Intel, Lakefield, pourrait ramasser 5 à 6 % sous Windows 11 contre Windows 10. Lakefield manque de Thread Director, nous sommes donc curieux de voir à quoi ressemblera le delta d’Alder Lake entre les deux systèmes d’exploitation.

Bien que ces aspects du système soient déjà connus, Alder Lake introduira la prise en charge PCIe 5.0 et l’évolutivité des enveloppes TDP 9W à 125W. ADL offre 1 × 16 voies PCIe 5.0 attachées au CPU, une seule connexion x4 PCIe 4.0 et 16 voies PCIe 3.0 et 4.0 via le southbridge. Les fournisseurs de cartes mères auront probablement la possibilité d’activer la prise en charge de PCIe 5.0 si un seul GPU est branché ou de revenir à 2 × 8 liaisons PCIe 4.0 si plusieurs GPU sont connectés. Une liaison x8 PCIe 5.0 fournirait la même quantité de bande passante qu’une connexion x16 PCIe 4.0, il ne devrait donc pas y avoir de pénalité de bande passante dans n’importe quelle configuration, même dans les charges de travail exigeantes.

Conclusion

Bien que nous ne puissions tirer aucune conclusion sur Alder Lake tant que nous n’aurons pas le silicium en main, la profondeur et l’étendue de la révélation d’Intel suggèrent que la société se sent confiante dans le produit final. Une augmentation de 1,19x de l’IPC est assez bonne, d’autant plus que RKL a réussi à faire le lien avec la dernière génération de CML. Si un Rocket Lake à huit cœurs peut correspondre à peu près à un Comet Lake à 10 cœurs, un Alder Lake à huit cœurs devrait être nettement plus rapide dans la majorité des tâches.

Intel n’a pas partagé de données de référence précises ni de chiffres de performances spécifiques, mais sa divulgation indique des gains significatifs en termes d’efficacité énergétique et de performances brutes. AMD prévoit que ses puces Zen 3 équipées de V-NAND gagneront environ 1,15 fois en performances, mais n’a pas encore divulgué d’efficacité supplémentaire ou de modifications améliorant les performances des futurs processeurs qu’elle lancera à la fin de cette année ou au début de 2022.

Maintenant lis:

Bouton retour en haut de la page