Die Alexa-Wissenschaftler von Amazon zeigen, dass eine größere KI nicht immer besser ist

Trotz der Besessenheit von Deep Learning mit großen Modellen und generalistischen Ansätzen zeigt Amazon, dass mit wirtschaftlichen Modellen Spitzenergebnisse erzielt werden können.

Screenshot von Textabschnitten, gefolgt von einer Zusammenfassung in einem Satz — Eine einfache Aufgabe, alle Wörter in einem Artikel auf eine kompakte Wortfolge zu reduzieren, die den Kernpunkt des Artikels erklärt, gehört zu den Benchmark-Aufgaben beim Deep Learning. Hier sagen die Alexa-KI-Wissenschaftler von Amazon, dass sie die Leistungen weitaus größerer Computerprogramme von DeepMind, Google, Meta, OpenAI und anderen übertreffen können. Die Arbeit hat Auswirkungen auf den Energieverbrauch und die Effizienz des CO2-Fußabdrucks.
Amazon Alexa AI 2022

Heutzutage dominieren zwei Forschungsrichtungen das maschinelle Lernen stark: Programme in ihrem Ansatz allgemeiner zu gestalten (um jede potenzielle Aufgabe zu bewältigen) und sie größer zu machen.

Die größten neuronalen Netze erreichen, gemessen an ihren Parametern oder „Gewichten“, über eine halbe Billion Gewichte. Modelle wie das Pathways Language Model oder PaLM von Google sowie das von Nvidia und Microsoft

Megatron-Turing NLG 530B gehören mit 540 bzw. 530 Milliarden Parametern zu den größten. Je mehr Parameter ein Programm im Allgemeinen hat, desto mehr Rechenleistung verbraucht es zum Trainieren und auch zum Ausführen von Vorhersagen Inferenz.

Künstliche Intelligenz

7 erweiterte ChatGPT-Tipps zum Schreiben von Eingabeaufforderungen, die Sie kennen müssen
Die 10 besten ChatGPT-Plugins des Jahres 2023 (und wie Sie das Beste daraus machen)
Ich habe viele KI-Tools für die Arbeit getestet. Das sind bisher meine 5 Favoriten
Mensch oder Bot? Dieses Turing-Testspiel stellt Ihre KI-Erkennungsfähigkeiten auf die Probe

Die Kenner der KI bestehen darauf, dass der Weg in Bezug auf die Parameterzählung definitiv aufwärts gerichtet ist. in Richtung einer Billion Parameter und weit darüber hinaus in nicht allzu ferner Zukunft. Die Zahl von 100 Billionen ist eine Art magisches Ziel, weil sie es ist Es wird angenommen, dass es sich um die Anzahl der Synapsen im menschlichen Gehirn handeltEs dient also als eine Art Benchmark.

Auch: Nvidia stellt Megatron-Turing-Skalierungsanspruch klar

Gleichzeitig besteht das Bestreben, tiefe neuronale Netze zu schaffen, die so allgemein wie möglich sein können. Während eines Großteils der Geschichte des maschinellen Lernens in den letzten 40 Jahren waren Programme auf Aufgaben wie Bilderkennung oder Spracherkennung spezialisiert. Das hat sich in den letzten Jahren geändert, da sich immer mehr Programme als Generalisten anbieten, wie beispielsweise DeepMind Wahrnehmender ARund ein weiteres DeepMind-Programm, Gato, der als „allgemeiner Agent“ bezeichnet wird und in der Lage ist, unzählige Aufgaben zu lösen.

Die verallgemeinernde Tendenz wurde durch die Beobachtungen von Pionieren des maschinellen Lernens wie Richard Sutton verstärkt, der dies bemerkt hat „In der Vergangenheit haben generische Modelle, die die Berechnung besser nutzen können, tendenziell auch die spezialisierteren domänenspezifischen Ansätze überholt letztlich."

Auch: „Gato“ von DeepMind ist mittelmäßig, warum haben sie es also gebaut?

Und doch gibt es Deep-Learning-Ergebnisse, die manchmal in die entgegengesetzte Richtung verlaufen: von groß und allgemein zu sparsam und einigermaßen fokussiert, wenn nicht sogar spezialisiert.

Im Gegensatz zu diesen Mega-Anstrengungen stellten Forscher bei Amazon letzte Woche ein neuronales Netzprogramm mit nur 20 Milliarden Parametern vor übertrifft einige der größten und allgemeinsten Modelle bei einigen wichtigen Benchmark-Aufgaben des Deep Learning, z. B. wie man ein zusammenfasst Artikel.

In dem Artikel „AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model“ letzte Woche auf arXiv gepostet, zeigen Autor Saleh Soltan und Kollegen von Amazon Alexa AI, dass 20 Milliarden Parameter ausreichen, um größere Modelle wie PaLM bei bestimmten Aufgaben zu schlagen, etwa beim Zusammenfassen eines Artikels in wenigen Sätzen.

Neben dem Papier Soltan hat einen Blogbeitrag zu diesem Thema geschrieben.

Die Arbeit von Amazon ist Teil eines breiten Trends in der neueren Literatur, Alternativen zur Vergrößerung zu finden. Ein letzte Woche von Meta Properties (Eigentümer von Facebook und Instagram) veröffentlichter Artikel mit dem Titel „Few-Shot-Lernen mit Retrieval Augmented Language-Modellen„ ist ein gutes Beispiel. Es beschreibt ein Sprachmodell namens Atlas, das nur 11 Milliarden Parameter hat und anhand von lediglich 64 Beispieldatenpunkten trainiert wird.

Wie bei AlexaTM 20B schlägt das Atlas-Programm PaLM deutlich, schreiben die Autoren, selbst mit nur 64 Beispielen. Der Schlüssel zu Atlas besteht darin, das vorab trainierte Sprachmodell mit der Möglichkeit zu kombinieren, Informationen aus Online-Quellen wie Wikipedia abzurufen, als würde man einen Freund anrufen, um die Antwort zu erhalten.

Auch: DeepMinds Perceiver AR: Ein Schritt zu mehr KI-Effizienz

Im Fall von AlexaTM 20B verwenden die Amazon-Autoren drei Optimierungen, um ihre Punktzahl zu erreichen.

Amazon 2022 AlexTM 20B-Diagramm

Amazonas

Die erste interessante Änderung besteht darin, zu den Grundlagen zurückzukehren und etwas wiederherzustellen, das aus den jüngsten riesigen Sprachmodellen übernommen wurde. Die Basis von AlexaTM 20B ist die gleiche wie bei PaLM und GPT-3 und anderen, einem Transformer-Encoder-Decoder – der Ansatz, der 2017 von den Google-Wissenschaftlern Ashish Vaswani und Kollegen entwickelt wurde.

Der Transformer verwendet Einheiten namens „Selbstaufmerksamkeit“, um einen Wahrscheinlichkeitswert dafür zu ermitteln, wie jedes Wort im Kontext anderer Wörter gefunden werden kann. Diese Punktzahl wird dann verwendet, um die Lücken bei der Vorhersage von Wörtern zu füllen, um sinnvolle Textblöcke zu bilden.

Im Fall von AlexaTM 20B weichen Soltan und Kollegen entscheidend von PaLM und GPT-3 und anderen gigantischen Nachkommen des ursprünglichen Transformers ab. Diese neueren Modelle verzichteten auf eine Hälfte des Transformers, den sogenannten Encoder (das Ding, das Eingabedaten in verborgene Zustände abbildet, um sie dann in eine Antwort zu dekodieren). Stattdessen führen PaLM und GPT-3 die Eingabe mit dem Decoder zusammen, um ein abgespecktes Programm zu bilden, das ein „nur Decoder“-Modell ist.

Das Alexa-Team fügt den Encoder wieder in das Programm ein. Sie behaupten, dass die Verwendung beider Elemente dazu beiträgt, die Genauigkeit des sogenannten „Entrauschens“ zu verbessern. Dabei handelt es sich um die Rekonstruktion eines ursprünglichen Satzes, bei dem einige Wörter weggelassen wurden.

Im Nur-Decoder-Modell verläuft die bedingte Wahrscheinlichkeit des vorhergesagten Textes nur in eine Richtung: Jede nächste Antwort basiert nur auf dem, was vorher kam. Im Gegensatz dazu bewertet das Modell in der vollständigen Encoder-Decoder-Version die Wahrscheinlichkeiten in beide Richtungen: was vor einem bestimmten Wort stand und was folgt. Das eignet sich besser für Aufgaben, bei denen man nicht nur das nächste Element in einem Satz generiert, sondern auch Dinge wie Wort-für-Wort-Vergleiche durchführt, wie zum Beispiel bei Übersetzungsaufgaben von einer Sprache in eine andere.

Amazon 2022 AlexTM 20B-Decoder-Modelle

Amazonas

Auch: Metas umfangreiches mehrsprachiges Übersetzungswerk stößt immer noch auf Griechisch, Armenisch und Oromo

Sie schreiben: „AlexaTM 20B erreicht in der Zero-Shot-Einstellung im Denoising-Modus einen neuen Stand der Technik von 82,63 %.“ Der Hauptgrund dafür, dass der Rauschunterdrückungsmodus bei dieser Aufgabe eine bessere Leistung erbringt, liegt darin, dass im Rauschunterdrückungsmodus die Eingabe nicht erfolgt Dies wird im Encoder und Decoder wiederholt, sodass das Modell sowohl Encoder als auch Decoder vollständig nutzen kann, um das Beste zu finden antworten."

Das zweite, was die Autoren hinzufügen, ist das Trainieren des Modells mit der sogenannten „kausalen Sprachmodellierung“. Kurz gesagt, CLM ist die Aufgabe, die in GPT-3 und anderen Nur-Decoder-Transformern verwendet wird. Es stellt speziell dar, dass jedes Wort nur von den vorherigen Wörtern abhängig ist – eine sequentielle, einseitige Abhängigkeit, die darauf trainiert ist, Sätze basierend auf einer anfänglichen Eingabeaufforderung zu generieren.

Die Autoren mischen beim Training von AlexaTM 20B die Entrauschungsaufgabe mit der kausalen Aufgabe, wobei die Entrauschung 80 % der Trainingsaktivität einnimmt und die kausale Modellierung das verbleibende Fünftel.

Der Vorteil des Hinzufügens von Kausalmodellierung besteht darin, dass es, ähnlich wie GPT-3, das unterstützt, was als „im Kontext“ bezeichnet wird Lernen.“ „In-Kontext-Lernen“ ist eine weit gefasste Rubrik, die alle Modelle abdeckt, die Zero-Shot oder Few-Shot ausführen können Lernen. Das bedeutet, dass das Programm über keine domänenspezifischen Kenntnisse verfügt; Sie geben einfach eine Beispielaufforderung ein und das Programm trifft eine Vorhersage, die mit der Art der gestellten Frage übereinstimmt.

Aufgrund dieses hybriden Trainingsprogramms ist AlexTM 20B nicht nur gut darin, Sätze zu rekonstruieren – die Entrauschungsaufgabe, Es sei außerdem „das erste mehrsprachige seq2seq-Modell [Sequenz-zu-Sequenz], das in der Lage ist, im Kontext zu lernen“, so die Autoren schreiben. Mit anderen Worten: Es handelt sich um ein Hybridprogramm.

Die dritte interessante Optimierung von Soltan und Kollegen besteht darin, die Anzahl der Datenpunkte, die während des Trainings in das Programm eingegeben werden, enorm zu erhöhen. Während des Trainings geben sie eine Billion „Tokens“, einzelne Datenelemente, ein; Das sind mehr als dreimal so viele, wie GPT-3 empfängt. Die Trainingsdatensätze bestehen in diesem Fall aus Wikipedia-Einträgen und auch dem sogenannten mC4, einem Datensatz zum Training von Transformern letztes Jahr eingeführt von Linting Xue und Kollegen bei Google. Es basiert auf Text in natürlicher Sprache in 101 Sprachen aus den im Common Crawl Web gescrapten Datenquellen.

Auch: Empfindungsfähig? Google LaMDA fühlt sich an wie ein typischer Chatbot

Die Verwendung einer sehr großen Menge an eingegebenen Trainingsdaten ist eines der Schlüsselelemente der Alexa-Arbeit. Soltan und sein Team haben beschlossen, diesen Weg zu gehen, schreiben sie, basierend auf einer Beobachtung von Jordan Hoffman und Kollegen von OpenAI, die im vergangenen März in einem Artikel veröffentlicht wurde: „Training rechenoptimierter großer Sprachmodelle."

In diesem Artikel kommen Hoffman und Kollegen zu dem Schluss, dass „aktuelle große Sprachmodelle deutlich untertrainiert sind, eine Folge der jüngsten Fokussierung auf Skalierung.“ Dabei wird die Menge der Trainingsdaten konstant gehalten.“ Indem man eine breite Palette von Sprachmodellen unterschiedlicher Größe nimmt und sie alle damit testet Aufgrund unterschiedlicher Mengen an Eingabe-Tokens kamen die Autoren zu dem Schluss, dass „für ein rechenoptimales Training die Modellgröße und die Anzahl der Trainings-Tokens skaliert werden sollten.“ gleichermaßen."

Daher ist AlexaTM 20B nicht nur sparsam – es soll beweisen, dass weniger Parameter mit mehr Trainingsdaten in Einklang gebracht werden können, um eine überzeugende Leistung zu erzielen.

ZDNET Empfiehlt

Welches Amazon Echo kaufen? So wählen Sie das beste Alexa-Gerät für Ihre Bedürfnisse aus

Amazon verfügt mittlerweile über eine ganze Armee von Echo-Geräten. Manche hören dir zu. Manche beobachten dich auch. Welches sollten Sie wählen? Wir helfen Ihnen bei der Entscheidung.

Lies jetzt

Im Übrigen legen die Autoren Wert darauf, den Großteil des Inputs möglichst natürlich zu gestalten gesprochen Text, Groß- und Kleinschreibung und Zeichensetzung weglassen, was in einer Alexa-Umgebung wichtig ist. „Wir beziehen mehr gesprochenen als geschriebenen Text ein, um unsere internen Anwendungsfälle zu erfüllen“, schreiben sie.

Einige der Technologien des Alexa AI-Teams werden in Alexa-Produkten verwendet, obwohl Amazon dies mitgeteilt hat ZDNet in einer E-Mail, dass die Gruppe „auch zukunftsorientierte Forschung betreibt“. Das AlexaTM 20B-Modell sei, so Amazon, „derzeit in erster Linie ein Forschungsprojekt“.

Amazon fügte hinzu: „Es ist möglich, dass dieses Modell in Zukunft in der Produktion eingesetzt wird, aber nur die modifizierte Version mit Leitplanken wird zur Entwicklung von Alexa-Funktionen und -Produkten verwendet.“

Auch: Die umfangreiche Sprachübersetzungsarbeit von Google zeigt, wo Fehler gemacht werden

Die Autoren trainieren das AlexaTM 20B-Modell „120 Tage lang auf 128 [Nvidia] A100-GPUs für insgesamt 500.000 Updates mit der kumulierten Stapelgröße von 2 Millionen Token (insgesamt 1 Billion Token-Updates)“, sie schreiben.

Das hört sich vielleicht nach viel an, ist aber weniger als PaLM, das von Google auf zwei davon trainiert wurde TPU-Pods der vierten Generation, bestehend aus 3.072 TPU-Chips in jedem Pod, die an 768 Hosts angeschlossen sind Computers.

Als Google-Autoren Aakanksha Chowdhery und Team im April vermerktDas sei „die bislang größte beschriebene TPU-Konfiguration“.

Die Ergebnisse werden in konkreten Testergebnissen dargelegt. Soltan und sein Team legen besonderen Wert auf den Erfolg bei bestimmten Aufgaben jeden Aufgabe denkbar. Soltan und sein Team stellen beispielsweise fest, dass „AlexaTM 20B eine bessere oder gleichwertige Leistung erbringt wie das bisher größte reine Decodermodell mit hoher Dichte (d. h. PaLM). 540B) bei der Zusammenfassung sowohl in 1-Shot- als auch in Feinabstimmungseinstellungen. Dies gilt insbesondere für eine Aufgabe zum Zusammenfassen von Absätzen, die als bekannt ist MLSum; Auf Deutsch, Spanisch und Französisch schlug AlexaTM 20B PaLM deutlich.

Der MLSum-Benchmark-Test, im Jahr 2020 eingeführt Das vom französischen Nationalen Zentrum für wissenschaftliche Forschung herausgegebene Buch umfasst 1,5 Millionen Artikel aus Zeitungen. Die Aufgabe besteht darin, dass ein Sprachmodell einige Textsätze ausgibt, die die im gesamten Artikel dargelegte Idee zum Ausdruck bringen. Dies erfordert natürlich eine erhebliche Reduzierung von Hunderten von Wörtern auf vielleicht ein paar Dutzend.

Amazonas

Tauschen Sie Ihre Altgeräte gegen Amazon-Geschenkkarten ein. Hier ist wie
Amazon erweitert sein Echo-Sortiment um vier Produkte: Alexa erhält neue Lautsprecher, Displays und Ohrhörer
Amazon arbeitet an einem eigenen KI-Chatbot, um seine Käufer zu unterstützen
Amazon Fire Stick vs. Roku Streaming Stick: Welcher ist der richtige für Sie?
Amazon Anywhere ändert die Definition von In-App-Käufen

Bei einem vierten Test, XSum, der auf Englisch durchgeführt wurde, belegte das AlexaTM 20B-Modell knapp den zweiten Platz und schlug a Version von PaLM, die größer als AlexaTM 20B, aber kleiner als die 540-Milliarden-Parameter-Version von war Palme.

Während es bei der Zusammenfassung hervorragend ist, fällt der AlexTM 20B bei einigen anderen Aufgaben zurück. Getestet zum Beispiel anhand von „Reasoning“-Datensätzen (wie MultiArith) und „Chain-of-Thinking“-Argumentationsaufgaben (die sehr einfach sind). Rechenaufgaben, die in natürlicher Sprache geschrieben sind), bleibt das Programm weit hinter dem zurück, was die viel größeren Modelle leisten können GPT-3.

Auch: Die Zukunft der KI ist eine Software-Geschichte, sagt der CEO von Graphcore

Soltan und sein Team schreiben: „AlexaTM 20B schneidet etwas besser ab als Modelle ähnlicher Größe, wir haben jedoch keinen Gewinn beobachtet.“ Viel größere Modelle wie GPT3 175B zeigen solche speziellen Eingabeaufforderungen an, d. h. Hinweise, die dem Programm über den nächsten Schritt in einem gegeben werden Problem.

„Die Ergebnisse zeigen, dass die Skalierung der Modellparameter entscheidend für eine gute Leistung ist.“ „Argumentation“-Aufgaben, wie sie zuvor in reinen Decoder-Architekturen demonstriert wurden Instruct-GPT3-Modelle.“

Wenn Soltan und sein Team sich auf die erfolgreiche Aufgabe wie die Zusammenfassung konzentrieren, kommen sie zu dem Hauptschluss, dass sie gemischt sind Der Ansatz zum Trainieren des Programms – der sowohl die Ziele der Rauschunterdrückung als auch der kausalen Sprachmodellierung nutzt – ist ein Schlüssel, um die Dinge besser zu machen effizient.

„Dies deutet darauf hin, dass gemischtes Vortraining und nicht unbedingt zusätzliches Multitasking-Training […] der Schlüssel zum Training starker seq2seq-basierter Large-Scale Language Models (LLM) ist“, schreiben sie.

Um auf die ursprüngliche Frage der Größe zurückzukommen: Wie in vielen Zusammenhängen festgestellt wurde, ist der Energieverbrauch immer größerer KI-Programme ein Problem ethische Bedenken bei KI-Praktiken. Die Autoren belegen nachdrücklich die Relevanz ihres effizienteren Ansatzes.

Auch: Ethik der KI: Vorteile und Risiken künstlicher Intelligenz

Denn der AlexaTM 20B „ist viel kleiner als Modelle wie GPT3 175B, erreicht aber bei verschiedenen Aufgaben eine ähnliche oder bessere Leistung“ Sie schreiben: „Die anhaltenden Umweltauswirkungen der Verwendung von AlexaTM 20B für Inferenzen sind viel geringer als die größerer Modelle (ungefähr 8,7-mal). untere)."

Sie fügen hinzu: „Daher hat AlexaTM 20B im Laufe der Zeit auch einen geringeren CO2-Fußabdruck.“

Die Autoren bieten eine Tabelle mit Statistiken an, die den relativen CO2-Fußabdruck zeigen, und es gibt einen großen Unterschied in den Zahlen.

Dies ist eine Vergleichstabelle des Amazon 2022 AlexTM 20B zum CO2-Fußabdruck.

Amazonas

Diese Tabelle mit den CO2-Fußabdrücken ist vielleicht der interessanteste Aspekt von all dem. Es scheint, dass in der Deep-Learning-Forschung versucht wird, Bewertungen für Umweltbewertungen zu erstellen, um zu zeigen, wie energieeffizient ein bestimmter Ansatz sein kann. Dies steht im Einklang mit der weltweit zunehmenden Fokussierung auf „ESG“, also Umwelt-, Sozial- und Governance-Faktoren in allen Bereichen.

Das könnte bedeuten, dass umweltbewusstes Handeln in gewisser Weise zum Ziel der Mainstream-KI-Forschung geworden ist.

Auch: KI in sechzig Sekunden

Innovation

Ich habe Apple Vision Pro ausprobiert und es übertrifft meine Erwartungen bei weitem

Dieser winzige Satellitenkommunikator ist vollgepackt mit Funktionen und sorgt für Sicherheit

So verwenden Sie ChatGPT: Alles, was Sie wissen müssen

Das sind meine 5 Lieblings-KI-Tools für die Arbeit

Ich habe Apple Vision Pro ausprobiert und es übertrifft meine Erwartungen bei weitem
Dieser winzige Satellitenkommunikator ist vollgepackt mit Funktionen und sorgt für Sicherheit
So verwenden Sie ChatGPT: Alles, was Sie wissen müssen
Das sind meine 5 Lieblings-KI-Tools für die Arbeit