Der Benchmark-Test für die Leistung von KI, MLPerf, erfreut sich immer größerer Beliebtheit

  • Sep 05, 2023

Die Computerhersteller Asus und H3C schließen sich Nvidia und Qualcomm beim Bake-off der KI-Branche für Computergeschwindigkeit und -effizienz an.

Am Mittwoch hat das MLCommons, das Branchenkonsortium, das einen beliebten Test der Leistung maschinellen Lernens, MLPerf, überwacht, hat seinen neuesten Benchmark-Testbericht veröffentlichtDies zeigt neue Anhänger, darunter die Computerhersteller ASUS, H3C und ZhejiangLab, ein gegründetes Forschungsinstitut von der Regierung der Provinz Zhejiang in China, der Zhejiang-Universität und dem chinesischen Einzelhandels- und KI-Riesen Alibaba.

Diese Parteien schließen sich den häufigen Einsendern Nvidia, Qualcomm, Dell und Microsoft an.

Der Geschäftsführer der MLCommons, David Kanter, lobte die Rekordzahl der Einsendungen von über 3.900. Diese Ergebnisse umfassen ein breites Spektrum an Computern, von Rechenzentren bis hin zu sogenanntem „TinyML“, das auf Geräten wie eingebetteten Mikrochips läuft, die Bruchteile eines Watts Strom verbrauchen.

„Das ist ein riesiger Dynamikbereich“, sagte Kanter. Die schnellste Leistung auf dem Benchmark ResNet-50 sei eine Million Mal schneller als die des langsamsten Systems, stellte er fest. „Es ist schwierig, in einem breiten Leistungsbereich zu arbeiten, aber das ist uns tatsächlich sehr gut gelungen.“

Beispielsweise wurden beim Inferenztest in Cloud-Rechenzentren, bei dem der Großteil der Einsendungen erfolgt, dieses Mal 926 eindeutige Testergebnisse auf 84 Systemen von 14 Parteien gemeldet. Das ist ein Anstieg gegenüber den 754 gemeldeten Testergebnissen von 67 Systemen, die von 13 Einsendern in der September-Version des Benchmarks eingereicht wurden.

Verschiedene Unternehmen, die sich an der vier Jahre alten Initiative beteiligen, werden möglicherweise von einem Bericht zum nächsten nicht mehr angezeigt. Beispielsweise fehlten Intel und Hewlett Packard Enterprise, die beide im September mehrere Einreichungen zu melden hatten, im neuesten Bericht.

Bei verschiedenen Benchmark-Ergebnissen zeigen die Ergebnisse laut MLCommons eine bis zu 3,3-fache Beschleunigung Computer, die neuronale Netzwerkaufgaben wie die Verarbeitung natürlicher Sprache, Bilderkennung und Sprache ausführen Erkennung.

Ein Highlight des Berichts ist dieses Mal, dass mehr Anbieter mehr Ergebnisse zur Messung des Stromverbrauchs ihrer Computersysteme bei KI-Aufgaben eingereicht haben. Als ZDNetim September gemeldet, war die Zahl der Einreichungen zum Stromverbrauch von 864 auf nur noch 350 gesunken im April-Bericht.

Diesmal wurden 576 Leistungsergebnisse für Rückschlüsse in Cloud-Rechenzentren und Cloud-„Edge“-Geräten über 30 verschiedene Systeme gemeldet. Es gab weitere 3.948 Leistungsmessungen, die von Krai gemeldet wurden KI-Start im Stealth-Modus das immer eine große Anzahl von Testergebnissen in der Kategorie „Open Edge“ einreicht, wobei es den Einreichern freisteht, nicht standardmäßige neuronale Netzwerkansätze zu verwenden.

Krai meldete diesmal viel mehr Kombinationen von Chips, während zuvor nur Nvidias Jetson AGX Xavier-Beschleuniger gemeldet worden war. Dieses Mal berichtete Krai über Ergebnisse für Dutzende eingebetteter Raspberry Pi-Computergeräte.

„Dieses Mal stieg der Prozentsatz der geschlossenen Einreichungen mit Leistungsmessung von 15,7 % auf 17,6 %, also ein Anstieg, aber wir haben hier noch viel zu tun“, sagte Kanter. „Geschlossen“ bezieht sich auf Einsendungen, die sich strikt an die Benchmark-Konfiguration des neuronalen Netzwerks von MLCommon halten.

In der „offenen“ Vision, in der sich die Einreicher bei der Bildung neuronaler Netzwerke Freiheiten nehmen können, ist das so Laut Aussage stieg die Zahl der Einreichungen mit Leistungsmessungen, die von Krai dominiert werden, von 32 % auf 86 % Kanter.

„Wir hatten einige Einsender, die beim letzten Mal aufgrund von Lieferkettenproblemen keinen Leistungsmesser bekommen konnten“, sagte Kanter.

Die Ausweitung der Einreichungen wurde laut Kanter durch einige neue Ansätze von MLCommons unterstützt. Diesmal war es den Einreichern beispielsweise gestattet, das sogenannte „Frühstoppen“ zu nutzen, wo dies für den Einreicher möglich ist Brechen Sie die Prüfung ab, bevor eine bestimmte Anzahl von Trainings-„Epochen“ verstrichen ist, anstatt so lange zu trainieren möglich.

Dies bedeutete, dass langsamere Systeme, die kaum einen Benchmark-Test bestehen würden, insbesondere leistungsschwächere Geräte wie der Raspberry Pi, nicht länger im extremen Nachteil waren.

„Frühes Anhalten ist super hilfreich“, sagte Kanter. „Wenn Sie Ihre Laufzeit um den Faktor zehn verkürzen können, können Sie zehnmal so viele Benchmarks durchführen.“ 

Im Abschnitt MLPerf TinyML, wo Benchmark-Aufgaben Dinge wie die Latenz beim Erkennen eines „Wake Words“ umfassen – das, was aktiviert einen intelligenten Lautsprecher oder einen anderen KI-Assistenten – acht Anbieter konkurrierten mit neuartigen Prozessoren, darunter der Computerchip-Designer Andes Technologie. Die „AndesCore“-Chips von Andes nutzen den Open-Source-RISC-V-Computerbefehlssatz Konkurriert mit ARM und Intel um einen Befehlssatz, der für jede Art von Befehlen frei geändert werden kann Computergerät.

Bei einer gemeinsamen Aufgabe, „Visual Wake Words“, die den als COCO 14 bekannten Datensatz „Common Objects in Context“ nutzt, um die Objekterkennung zu testen Bilder, die höchste Punktzahl in Bezug auf die Latenz erzielte das Startup Plumerai, das seine eigene Software entwickelt, um KI-Modelle auf Standardbasis zu trainieren und bereitzustellen Mikroprozessoren.

Unter Verwendung eines STMicroelectronics-Chips mit einem ARM-Cortex-M7-Prozessorkern lieferte Plumerai COCO-14-Ergebnisse mit einer Latenz von 59,4 Millisekunden.

Die einzige Kategorie, die einen Rückgang der gemeldeten Ergebnisse verzeichnete, war die Kategorie mobiles ML, bestehend aus Ergebnissen für Mobiltelefone und Laptops. Qualcomm und Samsung haben jeweils ein System, ein Smartphone, eingereicht, aber die Kategorie für Laptops war komplett leer, während es im Oktober eine Einreichung von Intel gab.

Auf die Frage nach dem Mangel an Berichten für Mobiltelefone antwortete Kanter von MLCommons, dass die Kategorie „Mobilgeräte“ schwierig sei, weil Mobiltelefone eine Kategorie seien Produktlinie, über die niemand sprechen möchte, bevor die Telefone angekündigt werden, im Gegensatz zu Cloud- und Edge-Servern, die eine lange Produktlebensdauer haben Fahrräder.

„Viele der Mobilfunkmitglieder [von MLCommons] sind System-on-Chip-Hersteller und möchten die Telefone ihrer Partner möglicherweise nicht in einer Vorabversion verwenden“, sagte Kanter. Auf der anderen Seite besteht bei Telefonen, die drei oder vier Monate alt sind, weniger Motivation, Benchmark-Ergebnisse einzureichen.

Kanter sagte, dass die MLCommons in Zukunft daran arbeiten, diese Lücke zu schließen, indem sie es Smartphone-Herstellern erleichtern, ihre Produktvorstellungen einzureichen, ohne sie preiszugeben.

„Längerfristig möchten wir es so gestalten, dass es eine Möglichkeit gibt, beispielsweise am 23. April ein Smartphone auf den Markt zu bringen Sie können an diesem Tag mit einer MLPerf-Nummer auf der Bühne erscheinen, damit wir unseren Partnern und Mitgliedern den Start mit MLPerf ermöglichen“, sagte Kanter.

Die von Qualcomm und Samsung eingereichten Telefone umfassten im Fall von Qualcomm ein Xiaomi MI12-Telefon und das Samsung Galaxy S22+ 5G, das seine jeweiligen Prozessoren, Snapdragon 8 Gen1 und Exynos, zur Schau stellte 2200. Bei Aufgaben wie Bilderkennung und Verarbeitung natürlicher Sprache wiesen die Xiaomi-Ergebnisse von Qualcomm in den meisten Tests eine geringere Latenz auf als die Leistung des Samsung Galaxy.

Weitere technische Details zum MLPerf-Benchmark-Ansatz finden Sie in das Original-Forschungspapier, das 2019 von der Gruppe veröffentlicht wurde.