Metas KI-Guru LeCun: Die meisten heutigen KI-Ansätze werden niemals zu echter Intelligenz führen

  • Sep 04, 2023

Grundlegende Probleme entziehen sich laut LeCun vielen Formen des Deep Learning, darunter auch dem Rätsel, wie man Informationen misst.

yann-lecun-sept-2022-1

„Ich denke, KI-Systeme müssen in der Lage sein, zu argumentieren“, sagt Yann LeCun, Chef-KI-Wissenschaftler von Meta. Die heute gängigen KI-Ansätze wie Transformers, von denen viele auf seiner eigenen Pionierarbeit auf diesem Gebiet aufbauen, werden nicht ausreichen. „Man muss einen Schritt zurücktreten und sagen: Okay, wir haben diese Leiter gebaut, aber wir wollen zum Mond, und diese Leiter wird uns auf keinen Fall dorthin bringen“, sagt LeCun.

 (Der Artikel wurde mit den Gegenargumenten von Gary Marcus und Jürgen Schmidhuber im Kontext aktualisiert.)

Yann LeCun, Chef-KI-Wissenschaftler von Meta Properties, Inhaber von Facebook, Instagram und WhatsApp, wird wahrscheinlich viele Leute in seinem Bereich verärgern.

Mit der Veröffentlichung eines Denkbeitrags im Juni auf dem Open Review-Server, bot LeCun einen umfassenden Überblick über einen Ansatz, der seiner Meinung nach vielversprechend ist, um in Maschinen menschliche Intelligenz zu erreichen.

Hervorgehoben

  • Ist Windows 10 zu beliebt für sein eigenes Wohl?
  • 5 Wege, den besten Ort für den Berufseinstieg zu finden
  • So wird generative KI die Gig Economy zum Besseren verändern
  • 3 Gründe, warum ich dieses 300-Dollar-Android dem Pixel 6a von Google vorziehe

Im Papier wird die Behauptung impliziert, wenn nicht sogar zum Ausdruck gebracht, dass die meisten der heutigen großen KI-Projekte niemals in der Lage sein werden, dieses Ziel auf menschlicher Ebene zu erreichen.

In einer Diskussion diesen Monat mit ZDNET über Zoom machte LeCun deutlich, dass er viele der derzeit erfolgreichsten Forschungsrichtungen im Bereich Deep Learning mit großer Skepsis betrachtet.

„Ich denke, sie sind notwendig, aber nicht ausreichend“, sagte der Turing-Award-Gewinner gegenüber ZDNET über die Bestrebungen seiner Kollegen.

Dazu gehören große Sprachmodelle wie das Transformer-basierte GPT-3 und dergleichen. Wie LeCun es charakterisiert, glauben die Transformer-Anhänger: „Wir tokenisieren alles und trainieren gigantische Modelle, um diskrete Vorhersagen zu treffen, und irgendwie wird daraus KI entstehen.“

„Sie liegen nicht falsch“, sagt er, „in dem Sinne, dass es sich möglicherweise um eine Komponente eines zukünftigen intelligenten Systems handelt, aber ich denke, es fehlen wesentliche Teile.“

Auch: Metas KI-Koryphäe LeCun erforscht die Energiegrenzen des Deep Learning

Es ist eine verblüffende Kritik dessen, was scheinbar funktioniert, von dem Gelehrten, der die Verwendung von perfektioniert hat Faltungs-Neuronale Netze, eine praktische Technik, die sich beim Deep Learning als unglaublich produktiv erwiesen hat Programme.

LeCun sieht Mängel und Grenzen in vielen anderen äußerst erfolgreichen Bereichen der Disziplin.

Auch Reinforcement Learning werde nie ausreichen, behauptet er. Forscher wie David Silver von DeepMind, der das AlphaZero-Programm entwickelt hat, das Schach, Shogi und Go beherrscht, konzentrieren sich auf Programme die „sehr handlungsbasiert“ sind, stellt LeCun fest, aber „die meisten Lernprozesse, die wir machen, machen wir nicht durch tatsächliches Handeln, sondern durch.“ beobachten.“ 

Der 62-jährige Lecun drückt aus der Perspektive jahrzehntelanger Erfolge dennoch die Dringlichkeit aus, sich mit dem auseinanderzusetzen, was er für richtig hält die Sackgassen, in die viele vielleicht rennen, und zu versuchen, sein Fachgebiet in die Richtung zu locken, in die es seiner Meinung nach gehen sollte gehen.

„Wir sehen viele Forderungen, was wir tun sollten, um die KI auf menschlicher Ebene voranzutreiben“, sagt er. „Und es gibt Ideen, die meiner Meinung nach fehlgeleitet sind.“

„Wir sind noch nicht so weit, dass unsere intelligenten Maschinen so viel gesunden Menschenverstand haben wie eine Katze“, stellt Lecun fest. „Also, warum fangen wir nicht dort an?“ 

Er hat seinen früheren Glauben an die Nutzung generativer Netzwerke beispielsweise für die Vorhersage des nächsten Frames in einem Video aufgegeben. „Es war ein kompletter Fehlschlag“, sagt er.

LeCun verurteilt diejenigen, die er die „religiösen Probabilisten“ nennt, die „glauben, dass die Wahrscheinlichkeitstheorie der einzige Rahmen ist, den man zur Erklärung maschinellen Lernens verwenden kann“.

Der rein statistische Ansatz sei unlösbar, sagt er. „Es ist zu viel verlangt, dass ein Weltmodell völlig probabilistisch ist; Wir wissen nicht, wie wir es machen sollen.

Nicht nur die Akademiker, sondern auch die industrielle KI muss tiefgreifend überdacht werden, argumentiert LeCun. Die Gruppe der selbstfahrenden Autos, Start-ups wie Wayve, seien „etwas zu optimistisch“ gewesen, sagt er, indem sie dachten, sie könnten „Daten auf“ große neuronale Netze werfen „und man kann so ziemlich alles lernen.“

„Wissen Sie, ich denke, es ist durchaus möglich, dass wir autonome Autos der Stufe fünf ohne gesunden Menschenverstand haben werden“, sagt er und bezieht sich auf das „ADAS“. fortschrittliches Fahrerassistenzsystem Begriffe für selbstfahrendes Fahren, „aber da muss man sich verdammt noch mal anstrengen.“

Er glaubt, dass eine solche überentwickelte selbstfahrende Technologie genauso knarrend und brüchig sein wird wie alle Computer-Vision-Programme, die durch Deep Learning überholt wurden.

„Letztendlich wird es eine zufriedenstellendere und möglicherweise bessere Lösung geben, die Systeme einbezieht, die die Funktionsweise der Welt besser verstehen.“

Unterwegs äußert LeCun einige vernichtende Ansichten über seine größten Kritiker, wie zum Beispiel NYU-Professor Gary Marcus – „Er hat nie etwas dazu beigetragen.“ KI“ – und Jürgen Schmidhuber, Co-Direktor des Dalle Molle Institute for Artificial Intelligence Research – „ist es sehr einfach, Flaggen zu pflanzen.“

Über die Kritik hinaus ist der wichtigere Punkt von LeCun, dass die gesamte KI mit bestimmten grundlegenden Problemen konfrontiert ist, insbesondere mit der Frage, wie Informationen gemessen werden können.

„Man muss einen Schritt zurücktreten und sagen: Okay, wir haben diese Leiter gebaut, aber wir wollen zum Mond, und da ist sie.“ Diese Leiter wird uns auf keinen Fall dorthin bringen“, sagt LeCun über seinen Wunsch, ein Umdenken in der Grundhaltung anzustoßen Konzepte. „Grundsätzlich schreibe ich hier: Wir müssen Raketen bauen. Ich kann Ihnen nicht im Detail sagen, wie wir Raketen bauen, aber hier sind die Grundprinzipien.“

Der Artikel und LeCuns Gedanken im Interview können durch die Lektüre von LeCuns Gedanken besser verstanden werden Interview Anfang des Jahres mit ZDNET, in dem er sich für energiebasiertes selbstüberwachtes Lernen als Weg nach vorne für tiefes Lernen einsetzt. Diese Überlegungen vermitteln einen Eindruck vom Kernansatz dessen, was er als Alternative zu den Dingen aufbauen möchte, von denen er behauptet, dass sie es nicht bis zur Ziellinie schaffen werden.

Robotik

  • Diese KI-gestützte Handprothese verleiht einem lebensverändernden Produkt Design und Stil
  • Die besten Roboterstaubsauger, die derzeit erhältlich sind
  • Warum bekommen College-Studenten all die coolen Roboter?
  • Die 5 besten Mähroboter: Freihändige Rasenpflege

Was folgt, ist eine leicht bearbeitete Abschrift des Interviews.

ZDNET: Das Thema unseres Chats ist dieser Artikel mit dem Titel „Ein Weg zur autonomen Maschinenintelligenz“, dessen Version 0.9.2 die vorhandene Version ist, nicht wahr?

Yann LeCun: Ja, ich betrachte das sozusagen als ein Arbeitsdokument. Also habe ich es auf Open Review gepostet und darauf gewartet, dass die Leute Kommentare und Vorschläge machen, vielleicht zusätzliche Referenzen, und dann werde ich eine überarbeitete Version erstellen.

ZDNET: Ich sehe, dass Jürgen Schmidhuber bereits einige Kommentare zu Open Review hinzugefügt hat.

YL: Nun ja, das tut er immer. Ich zitiere dort in meinem Artikel einen seiner Artikel. Ich denke, dass die Argumente, die er in den sozialen Netzwerken vorbrachte, dass er das alles im Grunde 1991 erfunden habe, wie er es auch in anderen Fällen getan habe, einfach nicht der Fall seien. Ich meine, es ist sehr einfach, Flaggen zu pflanzen und sozusagen eine Idee zu schreiben, ohne Experimente, ohne Theorie, schlagen Sie einfach vor, dass Sie es auf diese Weise tun könnten. Aber wissen Sie, es ist ein großer Unterschied, ob man nur eine Idee hat und sie dann bei einem Spielzeugproblem in die Tat umsetzt. und es dann bei einem echten Problem zum Laufen zu bringen, und dann eine Theorie aufzustellen, die zeigt, warum es funktioniert, und dann einzusetzen Es. Es gibt eine ganze Kette, und seine Vorstellung von wissenschaftlicher Anerkennung ist, dass die allererste Person, die sozusagen die Idee dazu hatte, die ganze Anerkennung erhalten sollte. Und das ist lächerlich.

(Aktualisieren: Antwortet Jürgen Schmidhuber, „LeCun behauptet, dass mein ‚Die Vorstellung von wissenschaftlicher Anerkennung besteht darin, dass die allererste Person, die sozusagen auf die Idee dazu gekommen ist, alle Anerkennung erhalten sollte.‘ In keinem Universum ist das wahr. wie ich geschrieben habe [DLC]: „Der Erfinder einer wichtigen Methode sollte Anerkennung dafür erhalten, dass sie sie erfunden hat.“ Sie ist möglicherweise nicht immer diejenige, die es populär macht. Dann sollte dem Popularisierer Anerkennung dafür zuteil werden, dass er es populär gemacht hat (aber nicht dafür, dass er es erfunden hat).‘ LeCun gibt sich jedoch offenbar nicht mit der Anerkennung zufrieden Popularisierung die Erfindungen anderer; er will auch das Erfinder Kredit. Er verdoppelt seinen Einsatz unhaltbare Lage Das ist mit den grundlegenden, allgemein anerkannten Regeln wissenschaftlicher Integrität unvereinbar [T22].")

ZDNET: Glauben Sie nicht alles, was Sie in den sozialen Medien hören.

YL: Ich meine, der Hauptartikel, den ich seiner Meinung nach zitieren sollte, enthält keine der Hauptideen, über die ich in dem Artikel spreche. Er hat dies auch mit GANs und anderen Dingen gemacht, was sich jedoch nicht als wahr herausstellte. Es ist einfach, Flaggen zu pflanzen, aber es ist viel schwieriger, einen Beitrag zu leisten. Und übrigens habe ich in dieser speziellen Arbeit ausdrücklich darauf hingewiesen, dass es sich nicht um eine wissenschaftliche Arbeit im üblichen Sinne des Wortes handelt. Es ist eher ein Positionspapier darüber, wohin diese Sache führen soll. Und es gibt ein paar Ideen, die vielleicht neu sind, die meisten davon aber nicht. Ich beanspruche grundsätzlich keine Priorität für das meiste, was ich in diesem Aufsatz geschrieben habe.

(Aktualisieren: Schmidhuber antwortet, „LeCun behauptet über mich: '... Der Hauptartikel, den ich seiner Meinung nach zitieren sollte, enthält keine der Hauptideen, über die ich in dem Artikel spreche.“ Das macht keinen Sinn. Ich habe nicht nur einen, sondern mehrere relevante Artikel aufgelistet (einschließlich [AC90][UN1][AC02][HRL1][PLAN4]), die das meiste von dem enthalten, was LeCun ausdrücklich als seins bezeichnet 'Haupt-Originalbeiträge'[LEC22a]. sagt LeCun [LEC22c]: 'Ich beanspruche grundsätzlich keine Priorität für das meiste, was ich in diesem Aufsatz geschrieben habe.' Allerdings listete er seine auf „Haupturheberbeiträge“[LEC22a] und ich habe gezeigt, dass sie alles andere als das waren [LEC]. LeCun behauptet über mich 'Er hat das auch mit GANs gemacht.“ Diese falsche Behauptung hat keine Begründung und keine Referenzen. Meine gradientenbasierten generativen und kontradiktorischen NNs von 1990 [AC90-AC90b] beschrieb die (häufig zitierten, implementierten und verwendeten) Grundprinzipien des GAN von 2014 – dessen Papier [GAN1]Die Gutschrift konnte nicht korrekt zugewiesen werden[T22]. Meine peer-reviewte Publikation [AC20] hierzu bleibt unangefochten. )

Auch bestärkendes Lernen wird nie ausreichen, behauptet LeCun. Forscher wie David Silver von DeepMind, der das AlphaZero-Programm entwickelt hat, das Schach, Shogi und Go beherrscht, sind „sehr handlungsbasiert“, stellt LeCun fest, aber „den größten Teil des Lernens, das wir machen, machen wir nicht dadurch, dass wir tatsächlich Maßnahmen ergreifen, sondern indem wir es tun.“ beobachten.“ 

ZDNET: Und das ist vielleicht ein guter Anfang, denn ich frage mich, warum Sie diesen Weg jetzt eingeschlagen haben? Was hat Sie dazu gebracht, darüber nachzudenken? Warum wolltest du das schreiben?

YL: Nun, ich habe schon sehr lange darüber nachgedacht, über einen Weg zu Intelligenz oder Lernen und Fähigkeiten auf menschlicher oder tierischer Ebene. Und in meinen Vorträgen habe ich mich ziemlich lautstark zu dieser ganzen Sache geäußert, die sowohl das beaufsichtigte Lernen als auch Verstärkungslernen reicht nicht aus, um die Art des Lernens nachzuahmen, die wir bei Tieren beobachten Menschen. Ich mache das seit ungefähr sieben oder acht Jahren. Es ist also nicht neu. Ich hatte vor vielen Jahren eine Keynote bei NeurIPS, in der ich im Wesentlichen darauf hingewiesen habe, und es gab verschiedene Vorträge und Aufzeichnungen. Warum jetzt eine Arbeit schreiben? Ich bin zum Punkt gekommen – [Google Brain-Forscher] Geoff Hinton hatte etwas Ähnliches getan – ich meine, sicherlich, er mehr als ich, wir sehen, dass die Zeit davonläuft. Wir sind nicht jung.

ZDNET: Sechzig ist das neue Fünfzig.

YL: Das stimmt, aber der Punkt ist, dass wir viele Behauptungen darüber sehen, was wir tun sollten, um eine KI auf menschlicher Ebene voranzutreiben. Und es gibt Ideen, die meiner Meinung nach fehlgeleitet sind. Eine Idee ist also: Oh, wir sollten den neuronalen Netzen einfach symbolische Argumente hinzufügen. Und ich weiß nicht, wie ich das machen soll. Vielleicht könnte das, was ich in dem Artikel erklärt habe, ein Ansatz sein, der dasselbe ohne explizite Symbolmanipulation bewirken würde. Dies ist traditionell die Art von Gary Marcuses der Welt. Gary Marcus ist übrigens kein KI-Mensch, er ist Psychologe. Er hat nie etwas zur KI beigetragen. Er hat wirklich gute Arbeit in der experimentellen Psychologie geleistet, aber er hat noch nie eine von Experten begutachtete Arbeit über KI geschrieben. Da sind also diese Leute.

(Aktualisieren: Gary Marcus weist die Behauptung zurück, dass es an peer-reviewten Artikeln mangele. Er übermittelte ZDNet per E-Mail die folgenden von Experten begutachteten Artikel: Gesundes Denken über Container, die radikal unvollständige Informationen verwenden In Künstliche Intelligenz; Argumentation aus radikal unvollständigen Informationen: Der Fall der Container In Fortschritte im Zahnradsystem;Umfang und Grenzen der Simulation im automatisierten Denken In Künstliche Intelligenz; Gesundes Denken und gesundes Wissen In Mitteilungen der ACM; Eliminativen Konnektionismus neu denken, Zahnrad-Psy)

Es gibt den weltweit führenden DeepMind-Forschungswissenschaftler David Silvers, der sagt: Belohnung ist genug, im Grunde dreht sich alles um verstärkendes Lernen, wir müssen es nur ein wenig effizienter machen, Okay? Und ich denke, dass sie nicht unrecht haben, aber ich denke, dass die notwendigen Schritte, um das Lernen durch Verstärkung effizienter zu machen, das Lernen durch Verstärkung im Grunde genommen zu einer Art Kirsche auf dem Kuchen degradieren würden. Und der größte Teil, der fehlt, besteht darin, zu lernen, wie die Welt funktioniert, meist durch Beobachtung ohne Handeln. Reinforcement Learning ist sehr handlungsorientiert. Man lernt Dinge über die Welt, indem man Maßnahmen ergreift und die Ergebnisse sieht.

ZDNET: Und es ist belohnungsorientiert.

YL: Es ist belohnungsorientiert und auch aktionsorientiert. Man muss also in der Welt agieren, um etwas über die Welt lernen zu können. Und die Hauptaussage, die ich in der Arbeit über selbstüberwachtes Lernen mache, ist, dass wir den Großteil des Lernens, das wir machen, nicht durch tatsächliches Handeln machen, sondern durch Beobachten. Und es ist sehr unorthodox, insbesondere für Menschen, die Verstärkung lernen, aber auch für viele Psychologen und Kognitionswissenschaftler, die denken, dass Handeln etwas ist – ich sage nicht, dass Handeln es nicht ist wesentlich, es Ist essentiell. Aber ich denke, der Großteil dessen, was wir lernen, dreht sich hauptsächlich um die Struktur der Welt und beinhaltet natürlich Interaktion, Aktion, Spiel und ähnliches, aber vieles davon ist Beobachtung.

ZDNET: Gleichzeitig gelingt es Ihnen auch, die Transformer-Leute, die Language-First-Leute, abzuhaken. Wie können Sie dies zuerst ohne Sprache erstellen? Möglicherweise gelingt es Ihnen, viele Leute abzuhaken.

YL: Ja, daran bin ich gewöhnt. Also, ja, es gibt die Leute, bei denen die Sprache an erster Stelle steht, die sagen, bei Intelligenz geht es um Sprache, das Substrat der Intelligenz ist Sprache, bla, bla, bla. Aber damit wird die tierische Intelligenz gewissermaßen außer Acht gelassen. Wissen Sie, wir sind noch nicht so weit, dass unsere intelligenten Maschinen so viel gesunden Menschenverstand haben wie eine Katze. Warum fangen wir also nicht dort an? Was ermöglicht es einer Katze, die Welt um sie herum wahrzunehmen, ziemlich kluge Dinge zu tun, zu planen und dergleichen, und Hunden sogar noch besser?

Dann gibt es all die Leute, die sagen: Oh, Intelligenz ist eine soziale Sache, oder? Wir sind intelligent, weil wir miteinander reden und Informationen austauschen, und bla, bla, bla. Es gibt alle möglichen unsozialen Arten, die ihre sehr schlauen Eltern nie treffen, wie zum Beispiel Oktopusse oder Orang-Utans. Ich meine, sie [Orang-Utans] werden sicherlich von ihrer Mutter erzogen, aber sie sind keine sozialen Tiere.

Aber die andere Kategorie von Leuten, die ich abhaken könnte, sind Leute, die sagen, dass Skalierung ausreicht. Im Grunde verwenden wir also einfach gigantische Transformer, wir trainieren sie mit multimodalen Daten, die, Sie wissen schon, Video, Text, bla, bla, bla beinhalten. Wir versteinern sozusagen alles und tokenisieren alles und trainieren dann gigantische Modelle, um im Grunde genommen diskrete Vorhersagen zu treffen, und irgendwie wird daraus eine KI entstehen. Sie liegen nicht in dem Sinne falsch, dass dies eine Komponente eines zukünftigen intelligenten Systems sein könnte. Aber ich denke, es fehlen wesentliche Teile.

Raum

  • Was ist Artemis? Alles, was Sie über die Neumondmission der NASA wissen müssen
  • Die NASA hat das Rätsel um die seltsamen Datenübertragungen von Voyager 1 gelöst
  • Der neue winzige Hochleistungslaser der NASA könnte Wasser auf dem Mond finden
  • Die NASA geht einen inspirierenden Weg. Wir müssen sicherstellen, dass jeder dem folgen kann

Es gibt noch eine weitere Kategorie von Menschen, die ich mit diesem Artikel ansprechen werde. Und es sind die Wahrscheinlichkeitsrechnungen, die religiösen Wahrscheinlichkeitsrechnungen. Also die Leute, die glauben, dass die Wahrscheinlichkeitstheorie der einzige Rahmen ist, den man zur Erklärung von maschinellem Lernen nutzen kann. Und wie ich in dem Artikel zu erklären versucht habe, ist es im Grunde zu viel verlangt, dass ein Weltmodell vollständig probabilistisch ist. Wir wissen nicht, wie es geht. Da ist die rechnerische Unlösbarkeit. Deshalb schlage ich vor, diese ganze Idee fallenzulassen. Und natürlich, wissen Sie, ist dies eine enorme Säule nicht nur des maschinellen Lernens, sondern der gesamten Statistik, die den Anspruch erhebt, der normale Formalismus für maschinelles Lernen zu sein.

Die andere Sache - 

ZDNET: Du bist auf dem Vormarsch...

YL: – nennt man generative Modelle. Also die Idee, dass man Vorhersagen lernen kann und durch Vorhersagen vielleicht viel über die Welt lernen kann. Also gebe ich Ihnen ein Video und bitte das System vorherzusagen, was als nächstes im Video passiert. Und ich bitte Sie möglicherweise, tatsächliche Videobilder mit allen Details vorherzusagen. Aber was ich in dem Artikel behaupte, ist, dass das eigentlich zu viel verlangt und zu kompliziert ist. Und das ist etwas, worüber ich meine Meinung geändert habe. Bis vor etwa zwei Jahren war ich ein Verfechter dessen, was ich generative Modelle mit latenten Variablen nenne, Modelle, die vorhersagen, was ist was als nächstes passieren wird, oder die fehlenden Informationen, möglicherweise mit Hilfe einer latenten Variablen, wenn die Vorhersage nicht möglich ist deterministisch. Und ich habe das aufgegeben. Und der Grund, warum ich das aufgegeben habe, basiert auf empirischen Ergebnissen, bei denen Menschen versucht haben, sie sozusagen als Vorhersagen anzuwenden Sie haben versucht, dies auf Bilder anzuwenden, und zwar mit einem rekonstruktionsbasierten Training, wie es in BERT und großen Sprachmodellen verwendet wird völliger Misserfolg. Und der Grund dafür, dass es völlig fehlschlägt, liegt wiederum in den Einschränkungen probabilistischer Modelle, bei denen es relativ ist Es ist einfach, diskrete Token wie Wörter vorherzusagen, da wir die Wahrscheinlichkeitsverteilung über alle Wörter in der berechnen können Wörterbuch. Das ist einfach. Aber wenn wir das System bitten, die Wahrscheinlichkeitsverteilung über alle möglichen Videobilder zu erstellen, haben wir keine Idee, wie man es parametrisiert, oder wir haben eine Idee, wie man es parametrisiert, aber wir wissen nicht, wie man es normalisiert Es. Es trifft auf ein unlösbares mathematisches Problem, von dem wir nicht wissen, wie wir es lösen können.

„Wir sind noch nicht so weit, dass unsere intelligenten Maschinen so viel gesunden Menschenverstand haben wie eine Katze“, stellt Lecun fest. „Also, warum fangen wir nicht dort an? Was ermöglicht es einer Katze, die Welt um sie herum wahrzunehmen, ziemlich kluge Dinge zu tun, zu planen und dergleichen, und Hunden sogar noch besser?“

Deshalb sage ich, lasst uns die Wahrscheinlichkeitstheorie oder den Rahmen für solche Dinge aufgeben, das schwächere, energiebasierte Modelle. Ich setze mich auch schon seit Jahrzehnten dafür ein, das ist also nichts Neues. Aber gleichzeitig die Idee generativer Modelle aufgeben, weil es viele Dinge auf der Welt gibt, die nicht verständlich und nicht vorhersehbar sind. Wenn Sie Ingenieur sind, nennen Sie es Lärm. Wenn Sie Physiker sind, nennen Sie es Wärme. Und wenn Sie ein Mensch sind, der maschinelles Lernen lernt, nennen Sie es irrelevante Details oder wie auch immer.

Das Beispiel, das ich in der Arbeit oder in Gesprächen verwendet habe, ist also: Sie wollen ein Weltvorhersagesystem, das in einem selbstfahrenden Auto helfen würde, oder? Es möchte in der Lage sein, im Voraus die Flugbahnen aller anderen Autos vorherzusagen, was passieren wird auf andere Objekte, die sich bewegen könnten, Fußgänger, Fahrräder, ein Kind, das einem Fußball hinterherläuft, Dinge wie Das. Also alles Mögliche über die Welt. Aber am Rande der Straße könnten Bäume stehen, und heute weht Wind, sodass sich die Blätter im Wind bewegen, und hinter den Bäumen gibt es einen Teich, und im Teich gibt es Wellen. Und das sind im Wesentlichen weitgehend unvorhersehbare Phänomene. Und Sie möchten nicht, dass Ihr Modell eine erhebliche Menge an Ressourcen für die Vorhersage von Dingen aufwendet, die sowohl schwer vorherzusagen als auch irrelevant sind. Deshalb plädiere ich für die gemeinsame Einbettungsarchitektur, also für Dinge, bei denen man die Variable, die man zu modellieren versucht, nicht vorhersagt, sondern versucht, sie vorherzusagen Modellieren Sie es, aber es läuft durch einen Encoder, und dieser Encoder kann viele Details der Eingabe eliminieren, die irrelevant oder zu kompliziert sind – im Grunde gleichbedeutend mit Lärm.

ZDNET: Wir diskutierten früher in diesem Jahr energiebasierte Modelle, die JEPA und H-JEPA. Meiner Meinung nach, wenn ich Sie richtig verstehe, finden Sie den Punkt niedriger Energie, an dem diese beiden Vorhersagen der X- und Y-Einbettungen am ähnlichsten sind, was bedeutet, dass wenn In einem ist eine Taube in einem Baum zu sehen, und im Hintergrund einer Szene befindet sich etwas. Das sind möglicherweise nicht die wesentlichen Punkte, die diese Einbettungen einem solchen nahe bringen ein anderer.

YL: Rechts. Die JEPA-Architektur versucht also tatsächlich, einen Kompromiss, einen Kompromiss zwischen der Extraktion von Darstellungen zu finden maximal informativ über die Eingaben, aber auch voneinander vorhersehbar mit einem gewissen Maß an Genauigkeit oder Zuverlässigkeit. Es findet einen Kompromiss. Wenn es also die Wahl hat, eine große Menge an Ressourcen aufzuwenden, einschließlich der Details der Bewegung der Blätter, und diese dann zu modellieren Dynamik, die darüber entscheidet, wie sich die Blätter in einer Sekunde bewegen, oder sie einfach auf den Boden fallen zu lassen, indem man einfach das Y laufen lässt Variable durch einen Prädiktor, der alle diese Details eliminiert, wird er sie wahrscheinlich einfach eliminieren, weil es einfach zu schwierig zu modellieren ist erfassen.

Künstliche Intelligenz

  • 7 erweiterte ChatGPT-Tipps zum Schreiben von Eingabeaufforderungen, die Sie kennen müssen
  • Die 10 besten ChatGPT-Plugins des Jahres 2023 (und wie Sie das Beste daraus machen)
  • Ich habe viele KI-Tools für die Arbeit getestet. Das sind bisher meine 5 Favoriten
  • Mensch oder Bot? Dieses Turing-Testspiel stellt Ihre KI-Erkennungsfähigkeiten auf die Probe

ZDNET: Überraschend ist, dass Sie ein großer Befürworter der Aussage waren: „Es funktioniert, wir werden uns später mit der Theorie der Thermodynamik befassen, um es zu erklären.“ Hier haben Sie eine genommen Herangehensweise: „Ich weiß nicht, wie wir das unbedingt lösen werden, aber ich möchte einige Ideen zum Nachdenken vorlegen“ und vielleicht sogar eine Theorie oder Hypothese entwickeln. mindestens. Das ist interessant, denn es gibt viele Leute, die viel Geld in die Arbeit am Auto investieren und den Fußgänger sehen können, unabhängig davon, ob das Auto über gesunden Menschenverstand verfügt. Und ich kann mir vorstellen, dass einige dieser Leute nicht verärgert sein werden, sondern sagen werden: „Das ist in Ordnung, uns ist es egal, wenn es keine Gemeinsamkeiten gibt.“ Sinnlich, wir haben eine Simulation erstellt, die Simulation ist erstaunlich, und wir werden uns weiter verbessern, wir werden sie weiter skalieren Simulation." 

Und deshalb ist es interessant, dass Sie jetzt in der Lage sind zu sagen: Machen wir einen Schritt zurück und denken wir darüber nach, was wir tun. Und die Branche sagt, wir werden einfach skalieren, skalieren, skalieren, skalieren, weil diese Kurbel wirklich funktioniert. Ich meine, die Halbleiterkurbel von GPUs funktioniert wirklich.

YL: Da sind ungefähr fünf Fragen. Ich meine also, eine Skalierung ist notwendig. Ich kritisiere nicht die Tatsache, dass wir skalieren sollten. Wir sollten skalieren. Diese neuronalen Netze werden besser, je größer sie sind. Es steht außer Frage, dass wir skalieren sollten. Und diejenigen, die über ein gewisses Maß an gesundem Menschenverstand verfügen, werden groß sein. Daran führt meiner Meinung nach kein Weg vorbei. Die Skalierung ist also gut, sie ist notwendig, aber nicht ausreichend. Das ist der Punkt, den ich anspreche. Es geht nicht nur um Skalierung. Das ist der erste Punkt.

Zweiter Punkt, ob die Theorie an erster Stelle steht und solche Dinge. Ich denke also, dass es Konzepte gibt, die an erster Stelle stehen und bei denen man einen Schritt zurücktreten und sagen muss: „Okay, wir.“ Ich habe diese Leiter gebaut, aber wir wollen zum Mond und diese Leiter wird uns auf keinen Fall erreichen Dort. Was ich hier also schreibe, ist im Grunde, dass wir Raketen bauen müssen. Ich kann Ihnen nicht im Detail sagen, wie wir Raketen bauen, aber hier sind die Grundprinzipien. Und ich schreibe keine Theorie dafür oder so, aber es wird eine Rakete, okay? Oder ein Weltraumaufzug oder was auch immer. Möglicherweise verfügen wir nicht über alle Details der gesamten Technologie. Wir versuchen, einige dieser Dinge zum Laufen zu bringen, so wie ich an JEPA gearbeitet habe. Die gemeinsame Einbettung funktioniert bei der Bilderkennung sehr gut, aber es gibt Schwierigkeiten, damit ein Weltmodell zu trainieren. Wir arbeiten daran und hoffen, dass wir es bald zum Laufen bringen, aber wir könnten dabei auf einige Hindernisse stoßen, die wir möglicherweise nicht überwinden können.

Dann gibt es in der Arbeit eine Schlüsselidee zum Denken: Wenn wir wollen, dass Systeme planen können, was man sich als eine einfache Form des Denkens vorstellen kann, müssen sie latente Variablen haben. Mit anderen Worten: Dinge, die nicht von einem neuronalen Netz berechnet werden, sondern solche, deren Wert abgeleitet wird, um eine objektive Funktion oder eine Kostenfunktion zu minimieren. Und dann können Sie diese Kostenfunktion verwenden, um das Verhalten des Systems zu steuern. Und das ist überhaupt keine neue Idee, oder? Dies ist eine sehr klassische optimale Steuerung, deren Grundlage bis in die späten 50er und frühen 60er Jahre zurückreicht. Ich erhebe hier also keinen Anspruch auf Neuheit. Ich sage aber, dass diese Art der Schlussfolgerung Teil eines intelligenten Systems sein muss, das planen kann und dessen Verhalten spezifiziert oder kontrolliert werden kann Nicht durch ein fest verankertes Verhalten, nicht durch Nachahmung, sondern durch eine objektive Funktion, die das Verhalten antreibt – nicht notwendigerweise das Lernen vorantreibt, aber es treibt es an Verhalten. Wissen Sie, wir haben das in unserem Gehirn, und jedes Tier hat intrinsische Kosten oder intrinsische Motivationen für Dinge. Das treibt neun Monate alte Babys dazu, aufzustehen. Der Preis dafür, glücklich zu sein, wenn man aufsteht, dieser Begriff ist in der Kostenfunktion fest verankert. Aber wie man aufsteht, ist nicht das Lernen.

„Skalierung ist gut, sie ist notwendig, aber nicht ausreichend“, sagt LeCun über riesige Sprachmodelle wie die Transformer-basierten Programme der GPT-3-Variante. Die Transformer-Anhänger glauben: „Wir tokenisieren alles und trainieren riesige Modelle, um diskrete Vorhersagen zu treffen, und irgendwie wird daraus KI entstehen …“ aber ich denke, es fehlen wesentliche Teile.

ZDNET: Um diesen Punkt abzurunden: Ein Großteil der Deep-Learning-Community scheint damit einverstanden zu sein, etwas voranzutreiben, das keinen gesunden Menschenverstand hat. Es scheint, als würden Sie hier ziemlich klar argumentieren, dass es irgendwann in eine Sackgasse gerät. Manche Leute sagen: „Wir brauchen kein autonomes Auto mit gesundem Menschenverstand, denn die Skalierung reicht aus.“ Es hört sich so an, als ob Sie sagen würden, dass es nicht in Ordnung ist, diesen Weg einfach weiterzugehen?

YL: Wissen Sie, ich denke, es ist durchaus möglich, dass wir autonome Autos der Stufe fünf ohne gesunden Menschenverstand haben werden. Aber das Problem bei diesem Ansatz ist, dass er nur vorübergehender Natur sein wird, weil man ihn mit allerlei technischem Aufwand umsetzen muss. Also, wissen Sie, kartieren Sie die ganze Welt, verdrahten Sie alle Arten von spezifischem Eckfallverhalten und sammeln Sie genug Daten, dass Sie all die seltsamen Situationen haben, denen Sie auf der Straße begegnen können, bla, bla, bla. Und meine Vermutung ist, dass man mit genügend Investitionen und Zeit das Ganze einfach umsetzen kann. Aber letztendlich wird es eine zufriedenstellendere und möglicherweise bessere Lösung geben, die Systeme beinhaltet, die Folgendes tun: Wir verstehen besser, wie die Welt funktioniert, und haben, wissen Sie, ein gewisses Maß an Gemeinsamkeit Sinn. Dabei muss es sich nicht um gesunden Menschenverstand auf menschlicher Ebene handeln, sondern um eine Art Wissen, das sich das System durch Beobachten aneignen kann, aber nicht, wenn man jemandem beim Fahren zuschaut, sondern einfach nur zuschaut Dinge bewegen und viel über die Welt verstehen, eine Grundlage an Hintergrundwissen darüber aufbauen, wie die Welt funktioniert, auf deren Grundlage Sie es lernen können fahren.

Lassen Sie mich dafür ein historisches Beispiel nehmen. Die klassische Computer Vision basierte auf vielen festverdrahteten, konstruierten Modulen, auf denen man sozusagen eine dünne Lernschicht hatte. Also, das Zeug, das 2012 von AlexNet geschlagen wurde, hatte im Grunde eine erste Stufe, eine Art handgefertigte Feature-Extraktion, wie SIFTs [Scale-Invariant Feature Transform (SIFT), eine klassische Sichttechnik zur Identifizierung hervorstechender Objekte in einem Bild] und HOG [Histogram of Oriented Gradients, eine weitere klassische Technik] und verschiedene andere Dinge. Und dann die zweite Ebene mit Features mittlerer Ebene, die auf Feature-Kerneln und was auch immer basieren, und einer Art unbeaufsichtigter Methode. Und dann kommt noch eine Support-Vektor-Maschine oder ein relativ einfacher Klassifikator hinzu. Und das war sozusagen die Standardpipeline von Mitte der 2000er bis 2012. Und das wurde durch End-to-End-Faltungsnetze ersetzt, bei denen man nichts davon fest verdrahtet, sondern nur viele Daten hat und diese trainiert Sache von Ende zu Ende, das ist der Ansatz, den ich schon seit langem befürworte, der aber, wissen Sie, bis dahin für große Unternehmen nicht praktikabel war Probleme.

Eine ähnliche Geschichte gab es bei der Spracherkennung, wo wiederum eine Menge detaillierter Technik für die Vorverarbeitung der Daten und die Extraktion von Cepstrum im Massenmaßstab erforderlich war [eine Umkehrung der schnellen Fourier-Transformation für die Signalverarbeitung], und dann gibt es Hidden-Markov-Modelle mit einer Art voreingestellter Architektur, bla, bla, bla, mit einer Mischung aus Gaußsche Gleichungen. Es handelt sich also ein wenig um die gleiche Architektur wie bei Vision, wo man ein handgefertigtes Front-End hat, dann eine etwas unbeaufsichtigte, trainierte Mittelschicht und dann eine überwachte Schicht darüber. Und das wurde nun im Grunde durch durchgängige neuronale Netze ausgelöscht. Ich sehe dort also etwas Ähnliches, bei dem man versucht, alles zu lernen, aber man muss den richtigen Prior, die richtige Architektur, die richtige Struktur haben.

Die Anhänger der selbstfahrenden Autos, Start-ups wie Waymo und Wayve, seien „etwas zu optimistisch“ gewesen, sagt er, indem sie dachten, sie könnten „Daten darauf werfen, und man kann ziemlich viel lernen.“ „Selbstfahrende Autos auf Stufe 5 von ADAS sind möglich, „aber man muss da verdammt viel hinbekommen“ und das Ergebnis wird „fragil“ sein wie frühes Computer Vision Modelle.

ZDNET: Was Sie sagen, ist, dass einige Leute versuchen werden, etwas zu entwickeln, wofür Deep Learning derzeit nicht funktioniert Anwendbarkeit, sagen wir, in der Industrie, und sie werden beginnen, etwas zu schaffen, das 1999 überholt war Computer Vision?

YL: Rechts. Und das ist zum Teil der Grund, warum die Leute, die sich mit autonomem Fahren beschäftigen, in den letzten Jahren etwas zu optimistisch waren, weil, wissen Sie, Sie Es gibt so etwas wie generische Dinge wie Faltungsnetze und Transformer, mit denen man Daten darauf werfen kann, und es kann ziemlich viel lernen irgendetwas. Sie sagen also: „Okay, ich habe die Lösung für dieses Problem.“ Das erste, was Sie tun, ist, eine Demo zu erstellen, bei der das Auto ein paar Minuten lang selbstständig fährt, ohne jemanden zu verletzen. Und dann merkt man, dass es viele Eckfälle gibt, und man versucht, die Kurve zu zeichnen, um wie viel besser es mir geht Ich verdoppele den Trainingssatz und dir wird klar, dass du nie dorthin gelangen wirst, weil es alle möglichen Kurven gibt Fälle. Und Sie brauchen ein Auto, das weniger als alle 200 Millionen Kilometer einen tödlichen Unfall verursacht, oder? Also, was machst du? Nun, Sie gehen in zwei Richtungen.

Die erste Richtung lautet: Wie kann ich die Datenmenge reduzieren, die für das Lernen meines Systems erforderlich ist? Und hier kommt das selbstüberwachte Lernen ins Spiel. Daher sind viele Unternehmen, die selbstfahrende Autos fahren, sehr an selbstüberwachtem Lernen interessiert, da dies eine Möglichkeit des Stillens ist Verwendung gigantischer Mengen an Überwachungsdaten für Nachahmungslernen, aber bessere Leistung durch Vortraining, im Wesentlichen. Und es hat noch nicht ganz geklappt, aber es wird kommen. Und dann gibt es noch die andere Option, die die meisten Unternehmen, die zu diesem Zeitpunkt weiter fortgeschritten sind, übernommen haben, nämlich: Okay, wir können das tun End-to-End-Schulung, aber es gibt viele Eckfälle, die wir nicht bewältigen können, also werden wir einfach Systeme entwickeln, die sich um diese kümmern Eckfälle, und behandeln Sie sie im Grunde genommen als Sonderfälle, verdrahten Sie die Steuerung fest und verdrahten Sie dann viele grundlegende Verhaltensweisen, um mit Sonderfällen umzugehen Situationen. Und wenn Sie über ein ausreichend großes Team an Ingenieuren verfügen, könnten Sie es schaffen. Aber es wird lange dauern, und am Ende wird es immer noch ein wenig spröde sein, vielleicht zuverlässig genug, dass Sie es einsetzen können, aber mit einem gewissen Grad an Sprödigkeit, der mit a Einen stärker lernbasierten Ansatz, der in Zukunft auftauchen könnte, werden Autos nicht haben, weil sie möglicherweise über ein gewisses Maß an gesundem Menschenverstand und Verständnis dafür verfügen, wie die Welt funktioniert.

Kurzfristig wird der gewissermaßen technische Ansatz gewinnen – er gewinnt bereits. Das ist das Waymo und Cruise der Welt und Wayve und was auch immer, das ist es, was sie tun. Dann gibt es noch den Ansatz des selbstüberwachten Lernens, der dem technischen Ansatz wahrscheinlich zu Fortschritten verhelfen wird. Aber auf lange Sicht, auf die diese Unternehmen möglicherweise zu lange warten könnten, würde es wahrscheinlich eine Art integrierteres autonomes intelligentes Fahrsystem geben.

ZDNET: Wir sagen, jenseits des Anlagehorizonts der meisten Anleger.

YL: Das ist richtig. Die Frage ist also, ob die Leute die Geduld verlieren oder kein Geld mehr haben, bevor die Leistung das gewünschte Niveau erreicht.

ZDNET: Gibt es etwas Interessantes darüber zu sagen, warum Sie einige der Elemente ausgewählt haben, die Sie im Modell ausgewählt haben? Weil Sie Kenneth Craik [1943,Die Natur der Erklärung], und Sie zitieren Bryson und Ho [1969, Optimale Kontrolle angewendet], und ich frage mich, warum Sie mit diesen Einflüssen angefangen haben, wenn Sie insbesondere geglaubt haben, dass diese Leute es genauso geschafft haben wie das, was sie getan haben. Warum hast du dort angefangen?

YL: Nun ja, ich glaube nicht, dass alle Details klar waren. Also, Bryson und Ho, das ist ein Buch, das ich 1987 gelesen habe, als ich Postdoktorand bei Geoffrey Hinton in Toronto war. Aber ich kannte diesen Arbeitsbereich bereits, als ich meine Doktorarbeit schrieb, und stellte im Wesentlichen den Zusammenhang zwischen optimaler Kontrolle und Backprop her. Wenn Sie wirklich ein anderer Schmidhuber sein wollten, würden Sie sagen, dass die wahren Erfinder des Backprop tatsächlich die Optimalsteuerungstheoretiker Henry J. waren. Kelley, Arthur Bryson und vielleicht sogar Lev Pontryagin, ein russischer Theoretiker der optimalen Kontrolle in den späten 50er Jahren.

Sie haben es also herausgefunden, und tatsächlich können Sie sehen, dass die Wurzel davon, die Mathematik dahinter, die Lagrange-Mechanik ist. Sie können also tatsächlich auf Euler und Lagrange zurückgreifen und einen Hauch davon in ihrer Definition der klassischen Lagrangeschen Mechanik finden. Im Hinblick auf eine optimale Kontrolle ging es diesen Jungs im Grunde darum, die Flugbahnen von Raketen zu berechnen. Wissen Sie, das war das frühe Weltraumzeitalter. Und wenn Sie ein Modell der Rakete haben, sehen Sie hier den aktuellen Zustand der Rakete T, und hier ist die Aktion, die ich ergreifen werde, also Schub und Aktuatoren verschiedener Art, hier ist der aktuelle Zustand der Rakete t+1.

ZDNET: Ein Zustands-Handlungsmodell, ein Wertemodell.

YL: Das ist richtig, die Grundlage der Kontrolle. Jetzt können Sie den Abschuss Ihrer Rakete simulieren, indem Sie sich eine Folge von Befehlen vorstellen, und dann Sie haben eine Kostenfunktion, nämlich die Entfernung der Rakete zu ihrem Ziel, einer Raumstation oder was auch immer Ist. Und dann kann man durch eine Art Gefälleabstieg herausfinden, wie ich meine Aktionssequenz so anpassen kann, dass meine Rakete tatsächlich so nah wie möglich an das Ziel herankommt. Und das muss durch die zeitliche Rückausbreitung von Signalen geschehen. Und das ist Rückausbreitung, Gradienten-Rückausbreitung. Diese Signale werden in der Lagrange-Mechanik als konjugierte Variablen bezeichnet, aber in Wirklichkeit sind sie Gradienten. Also erfanden sie Backprop, erkannten aber nicht, dass dieses Prinzip zum Trainieren eines mehrstufigen Systems verwendet werden könnte, das Mustererkennung oder ähnliches durchführen kann. Dies wurde vielleicht erst Ende der 70er, Anfang der 80er Jahre wirklich erkannt und dann erst Mitte der 80er Jahre tatsächlich umgesetzt und in die Tat umgesetzt. Okay, hier hat sich Backprop wirklich durchgesetzt, weil die Leute hier ein paar Codezeilen gezeigt haben, mit denen man ein neuronales Netz Ende-zu-Ende und mehrschichtig trainieren kann. Und das hebt die Grenzen des Perzeptrons auf. Und ja, es gibt Verbindungen mit optimaler Kontrolle, aber das ist in Ordnung.

ZDNET: Das ist also weit hergeholt, um zu sagen, dass diese Einflüsse, mit denen Sie angefangen haben, auf Backprop zurückgingen, und das war ein wichtiger Ausgangspunkt für Sie?

YL: Ja, aber ich denke, was die Leute ein wenig vergessen haben, ist, dass in den 90ern oder sogar in den 80ern ziemlich viel daran gearbeitet wurde, auch von Leuten wie Michael Jordan [MIT-Abteilung. of Brain and Cognitive Sciences] und solche Leute, die sich nicht mehr mit neuronalen Netzen beschäftigen, sondern mit der Idee, dass man neuronale Netze zur Steuerung verwenden kann, und dass man klassische Ideen optimaler Steuerung nutzen kann. Also Dinge wie das, was man modellprädiktive Kontrolle nennt, was man jetzt modellprädiktive Kontrolle nennt, diese Idee, die man simulieren kann oder Stellen Sie sich das Ergebnis einer Abfolge von Aktionen vor, wenn Sie über ein gutes Modell des Systems, das Sie steuern möchten, und der Umgebung, in der es sich befindet, verfügen In. Und dann können Sie durch den Gradientenabstieg im Wesentlichen – das ist kein Lernen, das ist Schlussfolgerung – herausfinden, welche Abfolge von Aktionen am besten geeignet ist, mein Ziel zu minimieren. Daher ist die Verwendung einer Kostenfunktion mit einer latenten Variablen für die Schlussfolgerung meiner Meinung nach etwas, das bei der aktuellen Entwicklung großer neuronaler Netze vergessen wurde. Aber es war lange Zeit ein ganz klassischer Bestandteil des maschinellen Lernens. Daher verwendete jedes Bayes'sche Netz, jedes grafische Modell oder probabilistische grafische Modell diese Art von Schlussfolgerung. Sie haben ein Modell, das die Abhängigkeiten zwischen einer Reihe von Variablen erfasst, und Ihnen wird der Wert mitgeteilt von einigen der Variablen, und dann müssen Sie den wahrscheinlichsten Wert des Rests ableiten Variablen. Das ist das Grundprinzip der Inferenz in grafischen Modellen und Bayes'schen Netzen und dergleichen. Und ich denke, das ist im Grunde das, worum es beim Denken gehen sollte: Denken und Planen.

ZDNET: Du bist ein heimlicher Bayesianer.

YL: Ich bin ein nicht-probabilistischer Bayesianer. Den Witz habe ich schon einmal gemacht. Ich war tatsächlich vor ein paar Jahren bei NeurIPS, ich glaube es war 2018 oder 2019, und ich wurde von einem Bayesianer auf Video festgehalten, der mich fragte, ob ich war ein Bayesianer, und ich sagte: „Ja, ich bin ein Bayesianer, aber ich bin ein nicht-probabilistischer Bayesianer, sozusagen ein energiebasierter Bayesianer.“ wollen.

ZDNET: Was definitiv nach etwas von klingt Star Trek. Sie haben am Ende dieses Artikels erwähnt, dass es Jahre harter Arbeit erfordern wird, um Ihre Vorstellungen zu verwirklichen. Erzählen Sie mir, woraus ein Teil dieser Arbeit im Moment besteht.

YL: Deshalb erkläre ich in dem Artikel, wie Sie die JEPA trainieren und aufbauen. Und das Kriterium, das ich befürworte, besteht darin, eine Möglichkeit zu finden, den Informationsgehalt der extrahierten Darstellungen über die Eingabe zu maximieren. Und der zweite Punkt ist die Minimierung des Vorhersagefehlers. Und wenn Sie eine latente Variable im Prädiktor haben, die zulässt, dass der Prädiktor nicht deterministisch ist, müssen Sie auch diese latente Variable regulieren, indem Sie ihren Informationsgehalt minimieren. Sie haben jetzt also zwei Probleme: Wie maximieren Sie den Informationsgehalt der Ausgabe einiger? neuronales Netz, und die andere Frage ist, wie minimiert man den Informationsgehalt einer latenten Variablen? Und wenn Sie diese beiden Dinge nicht tun, wird das System zusammenbrechen. Es wird nichts Interessantes lernen. Es wird für alles null Energie geben, so etwas in der Art, was kein gutes Modell für Abhängigkeit ist. Es ist das Problem der Einsturzverhinderung, das ich erwähne.

Und ich sage, von all den Dingen, die Menschen jemals getan haben, gibt es nur zwei Kategorien von Methoden, um einen Zusammenbruch zu verhindern. Das eine sind kontrastive Methoden und das andere sind die regulierten Methoden. Diese Idee, den Informationsgehalt der Darstellungen der beiden Eingaben zu maximieren und den Informationsgehalt der latenten Variablen zu minimieren, gehört also zu regulierten Methoden. Bei vielen Arbeiten in diesen gemeinsamen Einbettungsarchitekturen werden jedoch kontrastive Methoden verwendet. Tatsächlich sind sie derzeit wahrscheinlich die beliebtesten. Die Frage ist also genau, wie misst man den Informationsgehalt so, dass man ihn optimieren oder minimieren kann? Und hier wird es kompliziert, weil wir nicht wissen, wie wir den Informationsgehalt messen können. Wir können es annähern, wir können es nach oben begrenzen, wir können solche Dinge tun. Aber sie messen nicht wirklich den Informationsgehalt, der tatsächlich zum Teil noch nicht einmal genau definiert ist.

ZDNET: Es ist nicht Shannons Gesetz? Es ist keine Informationstheorie? Es gibt eine bestimmte Menge an Entropie, gute Entropie und schlechte Entropie, und die gute Entropie ist ein Symbolsystem, das funktioniert, schlechte Entropie ist Rauschen. Hat Shannon nicht alles gelöst?

YL: Sie haben Recht, aber da steckt ein großer Fehler dahinter. Sie haben Recht in dem Sinne, dass Sie, wenn Daten auf Sie zukommen, die Daten irgendwie in diskrete Symbole quantisieren und dann messen können die Wahrscheinlichkeit jedes dieser Symbole, dann ist die maximale Menge an Informationen, die diese Symbole enthalten, die Summe über die möglichen Symbole von Pi log Pi, Rechts? Wo Pi ist die Wahrscheinlichkeit des Symbols ich - das ist die Shannon-Entropie. [Shannons Gesetz wird üblicherweise als H = - ∑ pi log pi formuliert.]

Hier liegt jedoch das Problem: Was ist Pi? Es ist einfach, wenn die Anzahl der Symbole gering ist und die Symbole unabhängig voneinander gezeichnet werden. Wenn es viele Symbole und Abhängigkeiten gibt, ist es sehr schwierig. Wenn Sie also eine Folge von Bits haben und davon ausgehen, dass die Bits unabhängig voneinander sind Wahrscheinlichkeit zwischen eins und null oder was auch immer gleich ist, dann kann man die Entropie leicht messen, nein Problem. Aber wenn es sich bei den Dingen, die zu Ihnen kommen, um hochdimensionale Vektoren handelt, wie zum Beispiel Videobilder oder so etwas in der Art, was ist das dann? Pi? Wie ist die Verteilung? Zuerst müssen Sie diesen Raum quantisieren, der ein hochdimensionaler, kontinuierlicher Raum ist. Sie haben keine Ahnung, wie man das richtig quantifiziert. Sie können k-means usw. verwenden. Dies ist, was Menschen tun, wenn sie Videokomprimierung und Bildkomprimierung durchführen. Aber es ist nur eine Annäherung. Und dann muss man Annahmen über die Unabhängigkeit treffen. Es ist also klar, dass in einem Video aufeinanderfolgende Frames nicht unabhängig sind. Es gibt Abhängigkeiten, und dieser Frame hängt möglicherweise von einem anderen Frame ab, den Sie vor einer Stunde gesehen haben und bei dem es sich um ein Bild desselben Objekts handelte. Sie wissen also, dass Sie nicht messen können Pi. Messen Pi, Sie müssen über ein maschinelles Lernsystem verfügen, das lernt, Vorhersagen zu treffen. Und damit sind Sie wieder beim vorherigen Problem. Sie können das Maß an Informationen also im Wesentlichen nur annähernd ermitteln.

„Die Frage ist genau, wie misst man den Informationsgehalt so, dass man ihn optimieren oder minimieren kann?“ sagt LeCun. „Und hier wird es kompliziert, weil wir nicht wissen, wie wir Informationen messen sollen Das Beste, was bisher getan werden kann, ist, einen Proxy zu finden, der „gut genug für die Aufgabe ist, die wir haben.“ wollen."

Lassen Sie mich ein konkreteres Beispiel nehmen. Einer der Algorithmen, mit denen wir gespielt haben und über die ich in dem Artikel gesprochen habe, ist dieses Ding namens VICReg, Varianz-Invarianz-Kovarianz-Regularisierung. Es steht in einem separaten Artikel, der bei ICLR veröffentlicht wurde, und es wurde auf arXiv gestellt etwa ein Jahr zuvor, 2021. Und die Idee dabei ist, die Informationen zu maximieren. Und die Idee kam tatsächlich aus einem früheren Artikel meiner Gruppe mit dem Titel Barlow-Zwillinge. Sie maximieren den Informationsgehalt eines Vektors, der aus einem neuronalen Netz kommt, indem Sie grundsätzlich davon ausgehen, dass die einzige Abhängigkeit zwischen Variablen eine Korrelation, also eine lineare Abhängigkeit, ist. Wenn Sie also davon ausgehen, dass die einzige mögliche Abhängigkeit zwischen Variablenpaaren oder zwischen Variablen in Ihrem System Korrelationen zwischen Variablenpaaren sind Wertsachen, was die äußerst grobe Annäherung darstellt, können Sie den Informationsgehalt, der aus Ihrem System kommt, maximieren, indem Sie alle Variablen sicherstellen haben eine Varianz ungleich Null – sagen wir, Varianz eins, es spielt keine Rolle, was es ist – und sie dann rückkorrelieren, derselbe Prozess, der als Aufhellung bezeichnet wird, ist nicht neu entweder. Das Problem dabei ist, dass es sehr wohl äußerst komplexe Abhängigkeiten zwischen beiden Gruppen geben kann Variablen oder auch nur Variablenpaare, die keine linearen Abhängigkeiten sind und nicht in auftauchen Zusammenhänge. Wenn Sie also beispielsweise zwei Variablen haben und alle Punkte dieser beiden Variablen in einer Art Spirale ausgerichtet sind, besteht zwischen diesen beiden Variablen eine sehr starke Abhängigkeit, nicht wahr? Wenn Sie jedoch die Korrelation zwischen diesen beiden Variablen berechnen, sind sie tatsächlich nicht korreliert. Hier ist also ein Beispiel, bei dem der Informationsgehalt dieser beiden Variablen tatsächlich sehr gering ist, es handelt sich lediglich um eine Größe, da es sich um Ihre Position in der Spirale handelt. Sie sind dekorreliert, sodass Sie davon ausgehen, dass diese beiden Variablen wann viele Informationen liefern Tatsächlich ist das nicht der Fall, Sie können nur eine der Variablen anhand der anderen vorhersagen. im Wesentlichen. Das zeigt also, dass uns nur sehr ungefähre Möglichkeiten zur Messung des Informationsgehalts zur Verfügung stehen.

ZDNET: Und das ist also eines der Dinge, an denen Sie jetzt arbeiten müssen? Dies ist die größere Frage: Woher wissen wir, wann wir den Informationsgehalt maximieren und minimieren?

YL: Oder ob der Proxy, den wir dafür verwenden, für die von uns gewünschte Aufgabe gut genug ist. Tatsächlich machen wir das beim maschinellen Lernen ständig. Die Kostenfunktionen, die wir minimieren, sind niemals diejenigen, die wir tatsächlich minimieren wollen. Sie möchten also zum Beispiel eine Klassifizierung durchführen, okay? Die Kostenfunktion, die Sie beim Training eines Klassifikators minimieren möchten, ist die Anzahl der Fehler, die der Klassifikator macht. Aber das ist eine nicht differenzierbare, schreckliche Kostenfunktion, die Sie nicht minimieren können, weil Sie, wie Sie wissen, die Gewichte ändern werden In Ihrem neuronalen Netz wird sich nichts ändern, bis eine dieser Stichproben ihre Entscheidung umkehrt und dann ein Fehlersprung auftritt, positiv oder Negativ.

ZDNET: Sie haben also einen Proxy, der eine objektive Funktion ist, von der Sie definitiv sagen können, dass wir definitiv Gradienten dieser Sache fließen lassen können.

YL: Das ist richtig. Die Leute verwenden also diesen Kreuzentropieverlust oder SOFTMAX. Es gibt mehrere Namen dafür, aber es ist dasselbe. Und es handelt sich im Grunde genommen um eine sanfte Annäherung an die Anzahl der Fehler, die das System macht Die Glättung erfolgt im Wesentlichen durch Berücksichtigung der Punktzahl, die das System jedem einzelnen gibt Kategorien.

ZDNET: Gibt es etwas, das wir noch nicht behandelt haben und das Sie gerne behandeln würden?

YL: Es geht wahrscheinlich darum, die Hauptpunkte hervorzuheben. Ich denke, KI-Systeme müssen in der Lage sein, zu argumentieren, und der Prozess, den ich befürworte, besteht darin, ein Ziel im Hinblick auf eine latente Variable zu minimieren. Dadurch können Systeme planen und argumentieren. Ich denke, wir sollten den probabilistischen Rahmen aufgeben, weil er unlösbar ist, wenn wir beispielsweise Abhängigkeiten zwischen hochdimensionalen, kontinuierlichen Variablen erfassen wollen. Und ich plädiere dafür, generative Modelle aufzugeben, weil das System zu viele Ressourcen für die Vorhersage von Dingen aufwenden muss, die zu schwer vorherzusagen sind, und möglicherweise zu viele Ressourcen verbraucht. Und das ist so ziemlich alles. Das sind die Hauptbotschaften, wenn Sie so wollen. Und dann die Gesamtarchitektur. Dann gibt es diese Spekulationen über die Natur des Bewusstseins und die Rolle des Konfigurators, aber das sind wirklich Spekulationen.

ZDNET: Wir werden das nächste Mal darauf zurückkommen. Ich wollte Sie fragen: Wie bewerten Sie dieses Ding? Aber ich schätze, Sie sind im Moment etwas weiter vom Benchmarking entfernt?

YL: In gewissermaßen vereinfachten Versionen nicht unbedingt so weit. Sie können tun, was jeder beim Kontroll- oder Verstärkungslernen tut, das heißt, Sie trainieren das Ding, um Atari-Spiele oder etwas Ähnliches oder ein anderes Spiel zu spielen, das eine gewisse Unsicherheit beinhaltet.

ZDNET: Danke für deine Zeit, Yann.

Innovation

Ich habe Apple Vision Pro ausprobiert und es übertrifft meine Erwartungen bei weitem
Dieser winzige Satellitenkommunikator ist vollgepackt mit Funktionen und sorgt für Sicherheit
So verwenden Sie ChatGPT: Alles, was Sie wissen müssen
Das sind meine 5 Lieblings-KI-Tools für die Arbeit
  • Ich habe Apple Vision Pro ausprobiert und es übertrifft meine Erwartungen bei weitem
  • Dieser winzige Satellitenkommunikator ist vollgepackt mit Funktionen und sorgt für Sicherheit
  • So verwenden Sie ChatGPT: Alles, was Sie wissen müssen
  • Das sind meine 5 Lieblings-KI-Tools für die Arbeit