Ordinateurs

Les puces spécialisées ne nous sauveront pas d’un « mur d’accélérateur » imminent

Ce site peut gagner des commissions d’affiliation à partir des liens sur cette page. Conditions d’utilisation.

Comme les améliorations des performances du processeur ont ralenti, nous avons vu le industrie des semi-conducteurs passer aux cartes accélératrices pour fournir des résultats nettement meilleurs. Nvidia a été l’un des principaux bénéficiaires de ce changement, mais cela fait partie de la même tendance qui conduit la recherche sur les accélérateurs de réseaux neuronaux, les FPGA et des produits comme le TPU de Google. Ces accélérateurs ont fourni d’énormes gains de performances ces dernières années, laissant espérer qu’ils présentent une voie à suivre, alors même que la mise à l’échelle de la loi de Moore s’épuise. Un nouvel article suggère que cela pourrait être moins vrai que beaucoup le souhaiteraient.

Les architectures spécialisées telles que les GPU, les TPU, les FPGA et les ASIC peuvent fonctionner très différemment d’un processeur à usage généralSEEAMAZON_ET_135 Voir Amazon ET commerce, mais ils sont toujours construits en utilisant les mêmes nœuds de processus qu’un processeur x86, ARM ou POWER. Cela signifie que les gains de performances de ces accélérateurs ont également dépendu des améliorations de performances apportées par la mise à l’échelle des transistors, au moins dans une certaine mesure. Mais quelle part des gains a dépendu de ces améliorations de fabrication et des gains de densité fournis par la loi de Moore par opposition aux améliorations sous-jacentes des performances du domaine ciblé ? Quel degré d’amélioration s’est produit indépendamment du budget transistor ?

David Wentzlaff, professeur agrégé de génie électrique à l’Université de Princeton, et son doctorant Adi Fuchs ont créé un modèle qui leur permet de mesurer ce taux d’amélioration. La paire a construit un modèle utilisant les caractéristiques de 1 612 CPU et 1 001 GPU mis en œuvre sur une gamme de nœuds de processus et de plages de puissance pour quantifier les gains attribuables aux améliorations des nœuds de processus. Wentzlaff et Fuchs ont créé une métrique pour toutes les améliorations de performances apportées par les avancées CMOS (CMOS-Driven Return) par rapport aux gains liés à une exécution plus efficace de la charge de travail (Chip Specialization Return). Plus de données sur l’outil qu’ils ont développé pour aider à quantifier le potentiel CMOS, baptisé Rankine, est disponible ici.

eq1

Ce que l’équipe a trouvé donne à réfléchir. Les gains de performances dans le silicium spécialisé sont fondamentalement liés au nombre de transistors disponibles par millimètre de silicium sur le long terme, ainsi qu’aux améliorations de ces transistors introduites avec chaque nouveau nœud de processus. Pire encore, il existe des limites fondamentales à la quantité de performances que nous pouvons extraire d’une conception d’accélérateur améliorée sans améliorations simultanées de la mise à l’échelle du CMOS.

L’expression « à long terme » est importante. Les recherches de Wentzlaff et Fuchs montrent qu’il n’est pas rare que les performances de la charge de travail s’améliorent considérablement lors du déploiement initial des accélérateurs. Au fil du temps, à mesure que des méthodes pour accélérer de manière optimale une charge de travail donnée sont explorées et que des pratiques exemplaires sont établies, les chercheurs convergent vers les approches les plus optimales possibles. Les problèmes qui ont tendance à bien répondre aux accélérateurs sont ceux qui sont bien définis, parallélisables (pensez aux charges de travail GPU) et existent dans un domaine mature et bien étudié. Mais cela signifie également que les mêmes caractéristiques qui rendent un problème susceptible d’accélération limitent également l’avantage total obtenu à long terme en le faisant. L’équipe appelle cela le « mur de l’accélérateur ».

Le marché du HPC en a peut-être conscience depuis un certain temps. En 2013, nous avons écrit une histoire sur le route difficile vers l’exascale pour les supercalculateurs grand public. Même à l’époque, le TOP500 prédisait que les accélérateurs offriraient un bond unique dans le classement des performances, mais pas une amélioration fréquence d’amélioration des performances.

Tendance de l'efficacité énergétique

Mais les implications de ces découvertes vont au-delà du marché HPC. En examinant les GPU, par exemple, Wentzlaff et Fuchs ont constaté que les gains spécifiquement attribuables aux gains non CMOS étaient assez faibles.

Figure5

La figure 5 montre les gains de performances absolues du GPU (avec les avancées CMOS incluses) et les améliorations strictement attribuables aux avancées de la RSE. La RSE peut être vaguement considérée comme les améliorations qui subsistent lorsque les avancées de la technologie CMOS sous-jacente sont supprimées de la conception d’un GPU.

La figure 6 rend la relation un peu plus claire :

Figure6-7

Une baisse de la RSE n’a pas signifie qu’un GPU plus récent est plus lent, en termes absolus, qu’un modèle antérieur. Selon Adi Fuchs :

Le CSR normalise les gains « par potentiel CMOS », et ce « potentiel » prend en compte le nombre de transistors, ainsi que les différentes vitesses, efficacités de puissance/surface/énergie, etc. (sur toutes les générations CMOS). Dans la figure 6, nous avons approximé une comparaison de pommes à pommes de combinaisons « architecture + nœud CMOS », en triangulant toutes les applications de référence partagées entre les combinaisons et en appliquant des relations transitives entre les combos qui ne partagent pas suffisamment d’applications (c’est-à-dire moins de cinq) .

Une manière intuitive d’aborder cette analyse que la figure 6 (a) comme « ce que les ingénieurs et les gestionnaires voient » et la figure 6 (b) est « ce que nous voyons, lors de l’élimination du potentiel CMOS ». Je peux spéculer et dire que vous vous souciez davantage de savoir si votre puce surpasse son prédécesseur, que de savoir si cela est dû à de «meilleurs transistors» ou à un «meilleur X» (où X représente les différentes parties de la pile de spécialisation sous la forme CSR).

GPUSEEAMAZON_ET_135 Voir Amazon ET commerce sont un marché bien établi, mature et spécialisé et AMD et Nvidia ont toutes les raisons de se surpasser avec des conceptions améliorées. Malgré cela, nous constatons que la majorité des améliorations de performances proviennent de facteurs liés au CMOS, et non de l’impact de la RSE.

Les FPGA et les blocs de décodeurs vidéo matériels que les chercheurs ont examinés correspondent à ces caractéristiques fondamentales, même si les gains relatifs attendus au fil du temps étaient plus ou moins importants en raison de la maturité du marché. Les mêmes caractéristiques qui font qu’un champ répond bien à l’accélération limitent finalement la capacité des accélérateurs à améliorer les performances. À propos des GPU, Fuchs et Wentzlaff écrivent : « Alors que la fréquence d’images des graphiques GPU s’est améliorée d’un taux de 16x, nous prévoyons d’autres améliorations des performances et de l’efficacité énergétique de 1,4 – 2,5x et 1,4 – 1,7x, respectivement. » Il ne reste peut-être pas beaucoup de marge de manœuvre à AMD et Nvidia pour augmenter les performances via des améliorations spécifiques au CMOS si cela s’avère vrai.

Les implications de ce travail sont importantes. Il prédit que les architectures spécifiques à un domaine ne continueront pas à fournir des améliorations significatives des performances une fois que la mise à l’échelle de la loi de Moore sera tombée en panne. Même si les concepteurs de puces sont en mesure de se concentrer davantage sur l’amélioration des performances dans des budgets de transistors fixes, ces gains sont intrinsèquement limités par des rendements marginaux décroissants pour des problèmes bien compris.

Les travaux de Wentzlaff et Fuch soulignent la nécessité d’une approche fondamentalement nouvelle de l’informatique. d’Intel Architecture méso est une alternative potentielle. Fuchs et Wentzlaff ont également suggéré l’utilisation de matériaux non CMOS et d’autres types de spécialisation au-delà du CMOS, y compris l’exploration de l’utilisation de matrices de stockage de mémoire émergentes non volatiles comme type d’accélérateur de charge de travail. Vous pouvez en savoir plus sur les efforts de l’équipe dans ce domaine ici.

Maintenant lis:

Bouton retour en haut de la page