Googles Supermodel: DeepMind Perceiver ist ein Schritt auf dem Weg zu einer KI-Maschine, die alles und jedes verarbeiten kann

  • Oct 20, 2023

Der Perceiver ist eine Art Zwischenstation auf dem Weg zu dem, was Google-KI-Chef Jeff Dean als ein Modell beschrieben hat, das jede Aufgabe bewältigen und mit weniger Daten schneller „lernen“ kann.

Wohl eine der Premierenveranstaltungen, die es gegeben hat KI In den letzten Jahren erlangte die Erfindung des Transformers durch Ashish Vaswani und Kollegen große Aufmerksamkeit bei Google im Jahr 2017. Der Transformer führte zu vielen Sprachprogrammen wie Googles BERT und OpenAIs GPT-3 die in der Lage waren, überraschend menschlich wirkende Sätze zu produzieren, die den Eindruck erweckten, Maschinen könnten wie ein Mensch schreiben.

Hervorgehoben

  • Ist Windows 10 zu beliebt für sein eigenes Wohl?
  • 5 Wege, den besten Ort für den Berufseinstieg zu finden
  • So wird generative KI die Gig Economy zum Besseren verändern
  • 3 Gründe, warum ich dieses 300-Dollar-Android dem Pixel 6a von Google vorziehe

Nun wollen Wissenschaftler von DeepMind in Großbritannien, das zu Google gehört, die Vorteile des Transformers über den Text hinaus nutzen. damit es andere Materialien revolutionieren kann, darunter Bilder, Töne und Videos sowie räumliche Daten, mit denen ein Auto aufzeichnet LiDAR.

The Perceiver, diese Woche von DeepMind in einem vorgestellt Artikel auf arXiv veröffentlicht, passt den Transformer mit einigen Optimierungen an, damit er alle diese Eingabetypen verarbeiten und ausführen kann verschiedene Aufgaben, wie zum Beispiel die Bilderkennung, für die üblicherweise eigene Arten neuronaler Netze entwickelt werden.

Die DeepMind-Arbeit scheint eine Zwischenstation auf dem Weg zu einem angestrebten Supermodell von zu sein tiefes Lernen, ein neuronales Netzwerk, das eine Vielzahl von Aufgaben ausführen könnte und schneller und mit weniger Daten lernen würde, was Jeff Dean, Leiter der KI-Abteilung bei Google, als „große Herausforderung“ für die Disziplin bezeichnet hat.

Ein Modell, das sie alle beherrscht? Der Perceiver von DeepMind weist bei mehreren Eignungstests eine ordentliche Leistung auf, obwohl das Programm im Gegensatz zu den meisten spezialisierten neuronalen Netzen nicht für eine bestimmte Art von Eingabe konzipiert ist. Perceiver kombiniert ein mittlerweile standardmäßiges Transformer-Neuronales Netzwerk mit einem Trick namens „Induktionspunkte“. als Zusammenfassung der Daten, um den Bedarf an Rohdaten aus Pixeln oder Audio oder Video zu reduzieren berechnet.

DeepMind

Das Papier, Wahrnehmender: Allgemeine Wahrnehmung mit iterativer Aufmerksamkeit, von den Autoren Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals und Joao Carreira, soll diesen Monat im vorgestellt werden Internationale Konferenz zum maschinellen Lernen, die am 18. Juli beginnt und dieses Jahr als virtuelle Veranstaltung stattfindet.

Perceiver setzt den seit einigen Jahren bestehenden Trend zur Generalität fort, das heißt, immer weniger aufgabenspezifisch in ein KI-Programm einzubauen. Vor Vaswani et al.s Transformer wurden die meisten Programme in natürlicher Sprache mit einem Gespür für die jeweilige Sprachfunktion erstellt, wie etwa der Beantwortung von Fragen oder der Sprachübersetzung. Transformer beseitigte diese Unterschiede und produzierte ein Programm, das eine Vielzahl von Aufgaben bewältigen konnte, indem es eine ausreichend geschickte Darstellung der Sprache erstellte.

Auch: KI in sechzig Sekunden

Ebenso stellt Perceiver die Idee in Frage, dass unterschiedliche Arten von Daten, wie Ton oder Bild, unterschiedliche neuronale Netzwerkarchitekturen benötigen.

Der Wahrnehmende weist jedoch auf etwas Tiefgründigeres hin. Letztes Jahr, auf der International Solid State Circuits Conference, einem jährlichen technischen Symposium in San Francisco, beschrieb Googles Dekan in seiner Keynote adressieren eine zukünftige Richtung des Deep Learning als „Ziel, ein Modell trainieren zu können, das Tausende oder Millionen von Aufgaben in einem einzigen Modell ausführen kann“.

„Der Aufbau eines einzigen maschinellen Lernsystems, das Millionen von Aufgaben bewältigen kann … ist eine echte große Herausforderung im Bereich der künstlichen Intelligenz und der Computersystemtechnik“, sagte Dean.

In eine Unterhaltung mit ZDNet Auf der Konferenz erklärte Dean, wie aus der jahrelangen Arbeit an neuronalen Netzen eine Art Supermodell entstehen würde Kombinieren Sie „Modalitäten“, verschiedene Arten von Eingaben wie Text und Bilder sowie Kombinationen von Modellen, die als „Mischung von“ bekannt sind Experten":

Meiner Meinung nach wird eine Mischung aus Expertenansätzen und Multitasking- und multimodalen Ansätzen, bei denen man quasi lernt, wichtig sein Darstellungen, die für viele verschiedene Dinge nützlich sind, und lernen sozusagen gemeinsam gute Darstellungen, die Ihnen helfen, neue Lösungen zu finden Erledigen Sie Aufgaben schneller und mit weniger Daten und weniger Beispielen für Ihre Aufgabe, da Sie bereits alle Dinge nutzen, die Sie bereits kennen die Welt.

Perceiver ist im Geiste dieses Multitasking-Ansatzes. Es nimmt drei Arten von Eingaben auf: Bilder, Videos und sogenannte Punktwolken, eine Ansammlung von Punkten, die beschreiben, was ein LiDAR-Sensor oben auf einem Auto von der Straße „sieht“.

Sobald das System trainiert ist, kann es einige aussagekräftige Ergebnisse bei Benchmark-Tests erzielen, einschließlich des klassischen ImageNet-Tests der Bilderkennung; Audio Set, ein bei Google entwickelter Test, der ein neuronales Netz benötigt, um Arten von Audioclips aus einem Video auszuwählen; und ModelNet, ein 2015 in Princeton entwickelter Test, bei dem ein neuronales Netz 2.000 Punkte im Raum nutzen muss, um ein Objekt korrekt zu identifizieren.

Auch: Google experimentiert mit KI, um seine hauseigenen Computerchips zu entwickeln

Der Wahrnehmende schafft es, die Aufgabe mit zwei Tricks oder vielleicht einem Trick und einem Cheat zu lösen.

Der erste Trick besteht darin, die Datenmenge zu reduzieren, die der Transformer direkt verarbeiten muss. Während große Transformer-Neuronale Netze mit Gigabytes an Textdaten gespeist wurden, ist die Datenmenge in Bildern, Video- oder Audiodateien oder Punktwolken potenziell wesentlich größer. Denken Sie nur an jedes Pixel in einem 244 x 244 Pixel großen Bild von ImageNet. Im Fall einer Sounddatei „entspricht 1 Sekunde Audio bei Standard-Sampling-Raten etwa 50.000 Roh-Audio-Samples“, schreiben Jaegle und sein Team.

Also machten sich Jaegle und sein Team auf die Suche nach einer Möglichkeit, die sogenannte „Dimensionalität“ dieser Datentypen zu reduzieren. Sie lehnen sich an die Arbeit von Juho Lee und Kollegen an der Universität Oxford an, die das einführten, was sie nannten Transformator einstellen. Der Set Transformer reduzierte den Rechenaufwand für einen Transformer, indem er eine zweite Version jeder Datenprobe erstellte, eine Art Zusammenfassung, die sie als induzierende Punkte bezeichneten. Betrachten Sie es als Datenkomprimierung.

Jaegle und sein Team adaptieren dies als etwas, das sie als „gelerntes latentes Array“ bezeichnen, wobei die Beispieldaten auf eine Zusammenfassung reduziert werden, die weitaus weniger datenhungrig ist. Der Wahrnehmende agiert auf „asymmetrische“ Weise: Einige seiner Fähigkeiten werden für die Untersuchung der tatsächlichen Daten verwendet, andere betrachten jedoch nur die Zusammenfassung, die komprimierte Version. Dadurch verringert sich der Gesamtzeitaufwand.

Der zweite Trick, eigentlich eine Art Betrug, besteht darin, dem Modell einige Hinweise auf die Struktur der Daten zu geben. Das Problem mit einem Transformer besteht darin, dass er nichts über die räumlichen Elemente eines Bildes oder den Zeitwert eines Audioclips weiß. Ein Transformer heißt immer Permutationsinvariante, Das bedeutet, dass diese Details der Struktur der jeweiligen Art von Daten unempfindlich sind.

Das ist ein potenzielles Problem, das in der Allgemeinheit des Wahrnehmenden verankert ist. Neuronale Netze, die beispielsweise für Bilder entwickelt wurden, haben ein gewisses Gespür für die Struktur eines 2D-Bildes. Ein klassisches Faltungs-Neuronales Netzwerk verarbeitet Pixel als Gruppen in einem Bildabschnitt, der als Lokalität bezeichnet wird. Transformer und Derivate wie Perceiver sind nicht auf diese Weise aufgebaut.

Überraschenderweise zitieren die Autoren den deutschen Philosophen des 18. Jahrhunderts Immanuel Kant, der sagte, dass ein solches strukturelles Verständnis von entscheidender Bedeutung sei.

„Räumliche Beziehungen sind für das sensorische Denken unerlässlich“, schreiben Jaegle und sein Team unter Berufung auf Kant, „und diese Einschränkung ist eindeutig unbefriedigend.“

Also, die Autoren, um dem Neuronen einen Eindruck von der Struktur von Bildern oder Tönen zu vermitteln Netzwerk, leihen Sie sich eine Technik aus, die Matthew Tancik und Kollegen von Google letztes Jahr angewendet haben, was sind angerufen Fourier-Funktionen. Fourier-Funktionen kennzeichnen jede Eingabe explizit mit einigen aussagekräftigen Informationen zur Struktur.

Beispielsweise können die Koordinaten eines Pixels in einem Bild einem Array „abgebildet“ werden, sodass die Lokalität der Daten erhalten bleibt. Der Wahrnehmende berücksichtigt dann dieses Tag, diese Strukturinformationen, während seiner Trainingsphase.

Wie Jaegle und sein Team es beschreiben:

Wir können den Mangel an expliziten Strukturen in unserer Architektur kompensieren, indem wir positions- und modalitätsspezifische Merkmale damit verknüpfen jedes Eingabeelement (z. B. jedes Pixel oder jedes Audio-Sample) – diese können mithilfe von High-Fidelity-Fourier gelernt oder konstruiert werden Merkmale. Dies ist eine Möglichkeit, Eingabeeinheiten mit einer hochpräzisen Darstellung von Position und Modalität zu markieren, ähnlich der früher verwendeten Strategie mit markierten Linien Erstellen Sie topografische und sensorübergreifende Karten in biologischen neuronalen Netzen, indem Sie die Aktivität einer bestimmten Einheit mit einer semantischen oder räumlichen Verknüpfung verknüpfen Standort.

Die Ergebnisse der Benchmark-Tests sind interessant. Perceiver ist hinsichtlich der Genauigkeit besser als das Industriestandard-Neuronale Netzwerk ResNet-50 auf ImageNet und besser als ein an Bilder angepasster Transformer, der Vision Transformer dieses Jahr eingeführt von Alexey Dosovitskiy und Kollegen bei Google.

Beim Audio-Set-Test übertrifft der Perceiver die meisten, aber nicht alle hochmodernen Modelle in puncto Genauigkeit. Und auch beim ModelNet-Test von Punktwolken erhält der Perceiver recht gute Noten.

Jaegle und sein Team behaupten für ihr Programm eine Art Überkompetenz, die dadurch gewinnt, dass sie rundum die Besten ist: „Beim Vergleich Wenn man diese Modelle über alle in der Arbeit betrachteten Modalitäten und Kombinationen betrachtet, schneidet der Perceiver insgesamt am besten ab.“

Es gibt eine Reihe offener Probleme mit Perceiver, die es möglicherweise nicht zu dem idealen Millionen-Aufgaben-Supermodel machen, das Dean beschrieben hat. Einer davon ist, dass das Programm nicht immer so gut funktioniert wie Programme, die für eine bestimmte Modalität erstellt wurden. Bei einigen bestimmten Modellen schlägt es immer noch fehl. Beispielsweise verfehlte der Perceiver bei Audio Set ein Programm letztes Jahr eingeführt von Haytham M. Fayek und Anurag Kumar von Facebook, die Informationen über Audio und Video „verschmelzen“.

In Bezug auf die Punktwolke bleibt es weit hinter einem neuronalen Netzwerk von 2017 zurück, das nur für Punktwolken entwickelt wurde. PointNet++, von Charles Qi und Kollegen in Stanford.

Und bei ImageNet wurde dem Wahrnehmenden offensichtlich durch den Trick geholfen, Fourier-Merkmale zu haben, die die Struktur von Bildern kennzeichnen. Als die Autoren eine Version des Perceivers ausprobierten, bei der die Fourier-Funktionen entfernt waren, die sogenannte „gelernte Position“, schnitt der Perceiver nicht annähernd so gut ab wie ResNet-50 und ViT.

Ein zweites Problem besteht darin, dass nichts an Perceiver die Vorteile einer effizienteren Datenverarbeitung und weniger Daten zu bieten scheint, auf die Dean anspielte. Tatsächlich stellen die Autoren fest, dass die von ihnen verwendeten Daten ist nicht immer groß genug. Sie stellen fest, dass es dem Wahrnehmenden manchmal nicht gelingt, zu verallgemeinern, und witzeln: „Mit großer Flexibilität geht große Überanpassung einher.“ Überanpassung liegt vor, wenn a Ein neuronales Netzwerk ist so viel größer als sein Trainingsdatensatz, dass es in der Lage ist, sich die Daten einfach zu merken, anstatt wichtige Darstellungen zu erhalten, die die Daten verallgemeinern Daten.

Daher: „In zukünftigen Arbeiten möchten wir unser Bildklassifizierungsmodell anhand sehr großer Datenmengen vorab trainieren“, schreiben sie.

Das führt zu einer größeren Frage darüber, was genau in dem vor sich geht, was der Wahrnehmende „gelernt“ hat. Wenn Googles Jeff Dean hat Recht, dann sollte so etwas wie Perceiver Darstellungen lernen, die sich gegenseitig beeinflussen verstärkend. Die Tatsache, dass ein allgemeines Modell trotz seiner Allgemeingültigkeit eine gute Leistung erbringen kann, deutet eindeutig darauf hin, dass etwas Ähnliches vor sich geht. Aber was?

Alles, was wir wissen, ist dieser Wahrnehmende dürfen Lernen Sie verschiedene Arten von Darstellungen. Die Autoren zeigen eine Reihe sogenannter Aufmerksamkeitskarten, visuelle Studien, die darstellen sollen, was der Wahrnehmende in jedem Klumpen von Trainingsdaten hervorhebt. Diese Aufmerksamkeitskarten deuten darauf hin, dass der Wahrnehmende sich dort anpasst, wo er den Schwerpunkt des Rechnens legt.

Jaegle und sein Team schreiben: „Es kann seine Aufmerksamkeit an den Eingabeinhalt anpassen.“

Eine Aufmerksamkeitskarte soll zeigen, was der Wahrnehmende in seinen Videoeingaben hervorhebt, und zeigt, dass er neue Darstellungen lernt, die für die „Modalität“ der Daten spezifisch sind.

DeepMind

Eine dritte Schwäche wird von den Autoren ausdrücklich hervorgehoben, und zwar die Frage der Fourier-Merkmale, der Cheat. Der Cheat scheint in manchen Fällen zu helfen, und es ist nicht klar, wie oder ob überhaupt auf diese Krücke verzichtet werden kann.

Wie die Autoren es ausdrücken: „End-to-End-modalitätsunabhängiges Lernen bleibt eine interessante Forschungsrichtung.“

Aus philosophischer Sicht ist es interessant zu fragen, ob Perceiver zu neuen Arten von Fähigkeiten führen wird, die speziell multimodal sind. Perceiver zeigt keine offensichtliche Synergie zwischen den verschiedenen Modalitäten, so dass Bild, Ton und Punktwolken immer noch getrennt voneinander existieren. Das liegt wohl vor allem an den Aufgaben. Alle in der Auswertung verwendeten Aufgaben wurden für einzelne neuronale Netze konzipiert.

Es ist klar, dass Google einen neuen Maßstab braucht, um Multimodalität zu testen.

Trotz all dieser Einschränkungen ist es wichtig zu erkennen, dass Perceiver möglicherweise nur eine Etappe auf dem Weg zu dem ist, was Dean beschrieben hat. Wie Dean sagte ZDNet, ein eventuelles Supermodell ist eine Art Evolutionsprozess:

Das Schöne an der Vision, ein Modell zu haben, das eine Million Aufgaben erledigt, ist, dass es auf dem Weg gute Zwischenpunkte gibt. Man kann sagen: Nun ja, wir werden nicht auf Multimodalität verzichten, sondern versuchen, zunächst nur hundert Vision-Aufgaben im selben Modell zu erledigen. Und dann ein anderes Beispiel, bei dem wir versuchen, hundert Textaufgaben zu erledigen und nicht, sie miteinander zu vermischen. Und dann sagen wir, das scheint gut zu funktionieren, versuchen wir, die hundert Visionen und hundert Texte zu kombinieren Aufgaben lösen und sie hoffentlich dazu bringen, sich gegenseitig zu verbessern und mit dem Multimodalen zu experimentieren Aspekte.

Auch: Ethik der KI: Vorteile und Risiken künstlicher Intelligenz