KI verändert die gesamte Natur der Datenverarbeitung

  • Sep 05, 2023

Maschinelles Lernen, insbesondere Deep Learning, erzwingt eine Neubewertung der Art und Weise, wie Chips und Systeme entworfen werden, die die Richtung der Branche in den kommenden Jahrzehnten verändern wird.

Die Welt der Computer, von Chips über Software bis hin zu Systemen, wird sich in den kommenden Jahren durch die Verbreitung des maschinellen Lernens dramatisch verändern. Wir bezeichnen diese Computer möglicherweise immer noch als „universelle Turing-Maschinen“, wie wir es seit achtzig oder mehr Jahren tun. Doch in der Praxis werden sie anders sein als bisher.

Eine solche Änderung ist sowohl für jeden interessant, der sich für die Funktionsweise von Computern interessiert, als auch für jeden, der sich für maschinelles Lernen in all seinen Formen interessiert.

Im Februar erklärte Facebooks Leiter A.I. Research, Yann LeCun, hielt einen Vortrag auf der International Solid State Circuits Conference in San Francisco, eine der am längsten laufenden Computerchip-Konferenzen der Welt. Beim ISSCC machte LeCun deutlich, wie wichtig Computertechnologie für die KI ist. Forschung.

„Hardwarefunktionen und Softwaretools motivieren und begrenzen gleichzeitig die Art von Ideen, die sich KI-Forscher vorstellen und die sie verfolgen wollen“, sagte LeCun. „Die uns zur Verfügung stehenden Werkzeuge prägen unsere Gedanken mehr, als wir zugeben möchten.“

Es ist nicht schwer zu erkennen, dass dies bereits der Fall war. Der Aufstieg des Deep Learning ab 2006 erfolgte nicht nur aufgrund der Unmengen an Daten, sondern auch neuer Daten Techniken des maschinellen Lernens wie „Dropout“, sondern auch aufgrund immer größerer Rechenleistung Leistung. Insbesondere der zunehmende Einsatz von Grafikprozessoren oder „GPUs“ von Nvidia führte zu einer stärkeren Parallelisierung der Rechenleistung. Dies ermöglichte das Training weitaus größerer Netzwerke als in der Vergangenheit. Die in den 1980er Jahren aufgestellte Prämisse der „parallelen verteilten Verarbeitung“, bei der Knoten eines künstlichen Netzwerks gleichzeitig trainiert werden, wurde endlich Wirklichkeit.

Einige glauben, dass maschinelles Lernen nun bereit ist, den Großteil der weltweiten Computeraktivitäten zu übernehmen. Während dieses ISSCC im Februar hat LeCun sprach mit ZDNet über die sich verändernde Computerlandschaft. LeCun sagte: „Wenn man fünf, zehn Jahre in die Zukunft blickt und sich anschaut, womit Computer ihre Zeit verbringen, denke ich, dass sie es hauptsächlich tun wird Dinge wie Deep Learning tun – gemessen am Rechenaufwand.“ Deep Learning macht möglicherweise nicht den Großteil der Computerverkäufe aus nach Umsatz, fügte LeCun hinzu, aber „im Hinblick darauf, wie wir unsere Milliwatt oder unsere Operationen pro Sekunde ausgeben, werden sie für neuronale Zwecke ausgegeben.“ Netze.“

Deep Learning wächst exponentiell

Da Deep Learning immer mehr in den Fokus der Informatik rückt, verschiebt es bis zu einem gewissen Grad die Grenzen dessen, was heutige Computer leisten können die „Inferenzaufgabe“, bei der neuronale Netze Vorhersagen treffen, aber noch viel mehr für das Training eines neuronalen Netzes, das rechenintensiver ist Funktion.

Laut OpenAI hat sich der Rechenbedarf von Deep-Learning-Netzwerken seit 2012 alle 3,5 Monate verdoppelt.

OpenAI

Moderne neuronale Netze wie GPT-2 von OpenAI umfassen über eine Milliarde Parameter oder Netzwerkgewichte, die parallel trainiert werden müssen. Als Facebook-Produktmanager für PyTorch, die beliebte Trainingsbibliothek für maschinelles Lernen, sagte ZDNet im Mai„Models werden immer größer, sie sind wirklich, wirklich groß und sehr teuer in der Ausbildung.“ Heutzutage können die größten Modelle oft nicht vollständig in den mitgelieferten Speicherschaltkreisen gespeichert werden GPU.

Auch: Laut Google verändert das „exponentielle“ Wachstum der KI die Art der Datenverarbeitung

Und die Nachfrage nach Rechenzyklen nimmt immer stärker zu. Entsprechend Daten von OpenAI, das ehrwürdige Bilderkennungssystem AlexNet, das bereits 2012 entwickelt wurde, verbrauchte umgerechnet 1.000 Billionen Gleitkommaoperationen pro Sekunde, ein „Petaflop“, während der gesamten Trainingszeit, die sich auf einen Bruchteil von a belief Tag. Aber AlphaZero, das neuronale Netz, das 2016 von Googles DeepMind entwickelt wurde, um die Weltmeister in Schach, Go und Shoji zu schlagen, verbrauchte Petaflops im Wert von mehr als tausend Tagen pro Sekunde. Dieser Anstieg der Rechenzyklen zwischen AlexNet und AlphaZero bedeutet eine Verdoppelung des Rechenverbrauchs alle 3,5 Monate. Und das waren Daten, die bereits 2016 gesammelt wurden. Das Tempo wird sich inzwischen zweifellos erhöht haben.

Eine Krise bei Computerchips

Die Welt verfügt nicht einmal über Petaflop-Chips, mit denen sie laufen kann. Ein erstklassiger Chip für Deep-Learning-Training, wie der Tesla V100 von Nvidia, läuft mit 112 Billionen Operationen pro Sekunde. Man müsste also acht davon 1.000 Tage lang betreiben oder viele davon zu Systemen zusammenfassen, die immer mehr Energie verbrauchen.

Schlimmer noch: Das Tempo der Chip-Verbesserung in den letzten Jahren ist ins Stocken geraten. Wie UC Berkeley-Professor David Patterson und Alphabet-Vorsitzender John Hennessy in einem Artikel zuvor betonten Jahr ist das Mooresche Gesetz, die Faustregel, die besagt, dass sich die Leistung von Chips alle zwölf bis achtzehn Monate verdoppelt, abgelaufen Gas. Intel hat diesen Punkt lange bestritten, aber die Daten liegen auf der Seite von Patterson und Hennessy. Wie sie im Bericht erwähnen, steigt die Chipleistung nur noch um magere 3 % pro Jahr.

Die Informatiker David Patterson und John Hennessy haben Daten zu neuen Chips verfolgt, die das zeigen Das gesamte Feld bildet eine Asymptote, wobei die neuesten Chips eine Leistungssteigerung von nicht mehr als 3 % erzielen pro Jahr.

Verband für Computermaschinen/John L. Hennessy, David A. Patterson

Das bedeutet nach Ansicht beider Autoren, dass sich das Design von Chips, ihre sogenannte Architektur, ändern muss drastisch, um mehr Leistung aus Transistoren herauszuholen, die selbst keine Leistung erbringen Vorteile. (Patterson hat Google bei der Entwicklung seines „Tensor Processing Unit“-Chips geholfen, daher weiß er einiges darüber, wie Hardware maschinelles Lernen beeinflussen kann und umgekehrt.)

Da die Prozessorverbesserung ins Stocken gerät, sich der Bedarf an maschinellem Lernen jedoch alle paar Monate verdoppelt, muss etwas nachgeben. Glücklicherweise kann maschinelles Lernen selbst ein Segen für das Chip-Design sein, wenn man es richtig betrachtet. Weil maschinelles Lernen nur sehr wenig Unterstützung für Legacy-Code erfordert – es muss weder Excel noch Word oder Oracle DB ausgeführt werden – und weil Aufgrund der stark repetitiven Natur seiner grundlegendsten Berechnungen ist maschinelles Lernen, wie man sagt, eine Art „grüne Chance“ für Chip-Designer.

Bau einer neuen Maschine

Im Mittelpunkt stehen Faltungs-Neuronale Netze und Netzwerke mit langem Kurzzeitgedächtnis, zwei der Grundpfeiler des Deep Learning, und sogar in In den moderneren Netzwerken wie Googles Transformer handelt es sich bei den meisten Berechnungen um lineare Algebra-Berechnungen, die als Tensor bekannt sind Mathematik. Am häufigsten werden einige Eingabedaten in einen Vektor umgewandelt und dieser Vektor dann mit multipliziert Spalten einer Matrix neuronaler Netzwerkgewichte und die Produkte all dieser Multiplikationen werden addiert zusammen. Diese als Multiplikations-Additionen bekannten Berechnungen werden im Computer mithilfe sogenannter „Multiplikations-Akkumulations“-Schaltkreise oder „MACs“ durchgeführt. Somit kann man das maschinelle Lernen sofort verbessern, indem man einfach den MAC verbessert und viel mehr davon auf einem Chip erstellt, um ihn zu steigern Parallelisierung.

Der Multiplikations-Akkumulations-Schaltkreis oder „MAC“, einer der grundlegenden Schaltkreise beim Deep Learning, von „Ein 8-Bit x 8-Bit-Multiplikatordesign mit hoher Geschwindigkeit und geringem Stromverbrauch unter Verwendung neuartiger XOR-Gatter mit zwei Transistoren,“ 2015, von Himani Upadhyay und Shubhajit Roy Chowdhury.

Himani Upadhyay und Shubhajit Roy Chowdhury

Sowohl Nvidia, das A.I. Training, und Intel, dessen CPUs die Inferenz beim maschinellen Lernen dominieren, haben versucht, ihre Produkte so anzupassen, dass sie die Vorteile dieser atomaren linearen Algebra-Funktionen nutzen. Nvidia hat seinen Tesla-GPUs „Tensorkerne“ hinzugefügt, um die Matrixmultiplikationen zu optimieren. Intel hat 30 Milliarden US-Dollar für den Kauf von Unternehmen ausgegeben, die sich mit maschinellem Lernen befassen, darunter Mobileye, Movidius und Nervana Systeme, von denen das letzte irgendwann zu einem „Nervana Neural Network Processor“ führen soll, obwohl es solche gab Verzögerungen.

Bisher sind diese Schritte nicht zufriedenstellend für Menschen, die sich mit maschinellem Lernen befassen, wie beispielsweise LeCun von Facebook. Während seines Gesprächs mit ZDNet im Februar meinte LeCun: „Was wir brauchen, sind Konkurrenten zu den, wissen Sie, „Derzeit ist [Nvidia] der dominierende Anbieter.“ Das liegt nicht daran, sagte er, dass Nvidia keine guten Chips herstelle tun sie. Das liegt daran, „weil sie Annahmen treffen“, fuhr er fort, „und es wäre schön, eine andere Hardware zu haben.“ geht von verschiedenen Annahmen aus, die ergänzend dazu verwendet werden können, dass die aktuelle GPU-Generation gut ist bei."

Auch: Warum ist die KI-Berichterstattung so schlecht?

Eine dieser Annahmen, die fehlerhaft sei, sagte er, sei die Annahme, dass es sich beim Training eines neuronalen Netzwerks um eine „saubere Anordnung“ handele, die bearbeitet werden könne. Stattdessen werden zukünftige neuronale Netze wahrscheinlich viele Netzwerkgraphen verwenden, bei denen Elemente des Rechengraphen eines neuronalen Netzwerks als Zeiger an den Prozessor gestreamt werden. Laut LeCun werden Chips immer noch viele Multiplikations-Additionen ausführen, allerdings mit anderen Erwartungen, wie diese Multiplikations-Additionen dem Prozessor präsentiert werden.

Cliff Young, ein Google-Softwareentwickler, der an der Entwicklung des TPU-Chips mitgewirkt hat, bringt es deutlicher auf den Punkt als er letzten Oktober eine Keynote hielt bei einem Chip-Event im Silicon Valley. „Wir haben uns sehr lange zurückgehalten und gesagt, dass Intel und Nvidia wirklich großartig darin sind, Hochleistungssysteme zu bauen“, sagte Young. „Diese Schwelle haben wir vor fünf Jahren überschritten.“

Aufstieg der Startups

In die Lücke kommen neue Chips sowohl von der KI als auch von der KI. Titanen selbst wie Google, aber auch eine Reihe von risikokapitalfinanzierten Start-ups.

Zusätzlich zu Googles TPU, das sich mittlerweile in der dritten Version befindet, verfügt Microsoft über einen programmierbaren Prozessor, einen „FPGA“, namens Project Brainwave, den Kunden über seinen Azure-Clouddienst mieten können. Amazon hat angekündigt, noch in diesem Jahr einen eigenen Chip namens „Inferentia“ auf den Markt zu bringen. Als LeCun im Februar mit ZDNet sprach, erwähnte er, dass Facebook eigene Chip-Projekte betreibt.

„Sicherlich ist es für Unternehmen wie Google und Facebook, die ein hohes Volumen haben, sinnvoll, an ihren eigenen Engines zu arbeiten“, sagte LeCun. „Es gibt diesbezüglich interne Aktivitäten.“

Zu den Startups gehören Unternehmen wie Graphcore, ein fünf Jahre altes Startup in Bristol, einer Hafenstadt anderthalb Stunden südwestlich von London; Cornami, Effinix, Und Flex Logix, die alle von ZDNet profiliert wurden; und Cerebras Systems aus Los Altos im Silicon Valley, ein Unternehmen, das sich immer noch im Stealth-Modus befindet.

Viele dieser Startups haben eines gemeinsam: Sie wollen die Fläche eines Unternehmens erheblich vergrößern Computerchip, der Matrixmultiplikationen widmet, die MAC-Einheiten, um aus jedem Takt die größtmögliche Parallelisierung herauszuholen Zyklus. Graphcore ist von allen Startups am weitesten fortgeschritten und das erste, das tatsächlich Produktionschips an Kunden ausliefert. Eines der Dinge, die am ersten Chip am meisten auffallen, ist der riesige Speicher. Koloss, wie der Chip genannt wird, zu Ehren des ersten digitalen Computers der Welt, ist gigantisch und misst 806 Quadratmillimeter. Chief Technology Officer Simon Knowles rühmt sich, es sei „der komplexeste Prozessorchip, der jemals gebaut wurde“.

Der „Colossus“-Chip von Graphcore, benannt nach dem ersten digitalen Computer, verfügt über über tausend identische Vektoren Prozessorkerne, die eine hohe Parallelität ermöglichen, unterstützt durch beispiellose 304 Megabyte On-Chip SRAM. Mit 806 Quadratmillimetern ist er einer der größten Chips, die jemals hergestellt wurden.

Graphcore

Der Koloss besteht aus 1.024 einzelnen Kernen, die als „Intelligenzverarbeitungseinheiten“ bezeichnet werden und von denen jeder unabhängig Matrixmathematik verarbeiten kann. Und jede sogenannte IPU verfügt über einen eigenen dedizierten Speicher, 256 Kilobyte schnellen SRAM-Speicher. Insgesamt sind die 304 Megabyte an Speicher der größte, der je in einem Chip verbaut wurde.

Niemand weiß, wie das Vorhandensein von so viel Speicher auf dem Chip die Art der aufgebauten neuronalen Netze verändern wird. Es könnte sein, dass sich mit dem Zugriff auf immer mehr Speicher und mit sehr geringer Latenzzeit mehr neuronale Netze darauf konzentrieren, im Speicher gespeicherte Werte auf neue und interessante Weise wiederzuverwenden.

  • Was ist KI? Alles, was Sie wissen müssen
  • Was ist Deep Learning? Alles, was Sie wissen müssen
  • Was ist maschinelles Lernen? Alles, was Sie wissen müssen
  • Was ist Cloud Computing? Alles, was Sie wissen müssen

Das Software-Rätsel

Bei all diesen Chip-Bemühungen besteht das Problem natürlich darin, dass sie dank der „CUDA“-Programmiertechnologie des Unternehmens nicht über die jahrelange Software verfügen, die für Nvidia entwickelt wurde. Die Antwort von Graphcore und anderen wird zweifach sein. Zum einen bieten die verschiedenen Programmier-Frameworks für maschinelles Lernen wie TensorFlow und PyTorch eine Möglichkeit, die Details des Chips selbst zu vermeiden und sich auf die Programmstruktur zu konzentrieren. Alle auf den Markt kommenden Chips unterstützen diese Frameworks, von denen ihre Entwickler glauben, dass sie mit Nvidia auf Augenhöhe sind.

Der zweite Punkt ist, dass Graphcore und andere ihre eigenen Programmiertechnologien entwickeln. Sie können argumentieren, dass ihre proprietäre Software sowohl die Frameworks übersetzt als auch den zahlreichen MAC-Einheiten und Vektoreinheiten auf einem Chip intelligent parallele Berechnungen zuweist. Das ist das Argument, das Graphcore für seine Software „Poplar“ anführt. Poplar zerlegt den Rechengraphen eines neuronalen Netzwerks in „Codelets“ und verteilt jedes Codelet an einen anderen Kern von Colossus, um die Parallelverarbeitung zu optimieren.

Der „Poplar“-Compiler von Graphcore nutzt ein neuronales Netzwerk und verteilt seine verschiedenen Funktionselemente effizient als unabhängige „Codelets“ im gesamten Colossus-Prozessor.

Graphcore

In den letzten zwanzig Jahren wurden Big Data und schnelle parallele Berechnungen zur Norm und trieben maschinelles Lernen voran, was zu Deep Learning führte. Bei der nächsten Welle von Computerhardware und -software wird es wahrscheinlich um große Speichermengen gehen Neuronale Netze, die dynamisch aufgebaut sind, um die Vorteile hochparalleler Chips zu nutzen Architekturen. Die Zukunft sieht sehr interessant aus.

Die Technologie, die uns verändert hat: 50 Jahre Durchbrüche

Künstliche Intelligenz

7 erweiterte ChatGPT-Tipps zum Schreiben von Eingabeaufforderungen, die Sie kennen müssen
Die 10 besten ChatGPT-Plugins des Jahres 2023 (und wie Sie das Beste daraus machen)
Ich habe viele KI-Tools für die Arbeit getestet. Das sind bisher meine 5 Favoriten
Mensch oder Bot? Dieses Turing-Testspiel stellt Ihre KI-Erkennungsfähigkeiten auf die Probe
  • 7 erweiterte ChatGPT-Tipps zum Schreiben von Eingabeaufforderungen, die Sie kennen müssen
  • Die 10 besten ChatGPT-Plugins des Jahres 2023 (und wie Sie das Beste daraus machen)
  • Ich habe viele KI-Tools für die Arbeit getestet. Das sind bisher meine 5 Favoriten
  • Mensch oder Bot? Dieses Turing-Testspiel stellt Ihre KI-Erkennungsfähigkeiten auf die Probe