Wie Google und die UCLA die KI dazu veranlassen, die nächste Aktion auszuwählen, um eine bessere Antwort zu erhalten

  • Sep 22, 2023

Anstatt Text auszuspucken, der lediglich mit der Eingabeaufforderung korreliert, können große Sprachmodelle eine Aktion wie eine Websuche generieren, um eine richtige Antwort zu finden.

google-example-avis-quest-answering

Das AVIS-Programm von Google kann dynamisch eine Reihe von auszuführenden Schritten auswählen, z. B. das Identifizieren eines Objekts in einem Bild und das anschließende Nachschlagen von Informationen zu diesem Objekt.

UCLA, Google

Programme der künstlichen Intelligenz haben die Öffentlichkeit damit verblüfft, dass sie unabhängig von der Frage eine Antwort liefern. Allerdings ist die Qualität der Antwort kommt oft zu kurz weil Programme wie ChatGPT lediglich auf Texteingaben reagieren, ohne besondere Einarbeitung in die Thematik, und dies auch können dadurch völlige Unwahrheiten hervorbringen.

Ein aktuelles Forschungsprojekt der University of California und Google ermöglicht stattdessen die Auswahl großer Sprachmodelle wie Chat-GPT spezifisches Tool – sei es Websuche oder optische Zeichenerkennung – das dann in mehreren Schritten eine Antwort von einer Alternative einholen kann Quelle.

Auch: ChatGPT lügt über wissenschaftliche Ergebnisse und braucht Open-Source-Alternativen, sagen Forscher

Das Ergebnis ist eine primitive Form des „Planens“ und „Überlegens“, eine Möglichkeit für ein Programm, zu bestimmen Jeden Moment, wie an eine Frage herangegangen werden sollte, und wenn sie einmal angesprochen wurde, ob die Lösung vorhanden war zufriedenstellend.

Der Versuch wurde von Ziniu Hu AVIS (für „Autonomous Visual Information Seeking with Large Language Models“) genannt und Kollegen an der University of California in Los Angeles sowie kooperierende Autoren bei Google Research, Ist auf dem arXiv-Preprint-Server veröffentlicht.

AVIS basiert auf dem Pathways Language Model (PaLM) von Google, einem großen Sprachmodell, das mehrere Versionen hervorgebracht hat, die an eine Vielzahl von Ansätzen und Experimenten angepasst sind generative KI.

AVIS steht in der Tradition neuerer Forschungen, die darauf abzielen, maschinelle Lernprogramme in „Agenten“ zu verwandeln, die umfassender agieren als nur die Erstellung einer Vorhersage des nächsten Wortes. Sie beinhalten BabyAGI, ein in diesem Jahr eingeführtes „KI-gestütztes Aufgabenmanagementsystem“, und PaLM*E, dieses Jahr eingeführt von Google-Forschern, die einen Roboter anweisen können, eine Reihe von Aktionen im physischen Raum auszuführen.

Der große Durchbruch des AVIS-Programms besteht darin, dass es – anders als BabyAGI und PaLM*E – keinem voreingestellten Ablauf folgt. Stattdessen wird ein Algorithmus namens „Planer“ verwendet, der je nach Situation spontan zwischen verschiedenen Aktionen auswählt. Diese Auswahlmöglichkeiten werden generiert, wenn das Sprachmodell den angeforderten Text auswertet, ihn in Unterfragen zerlegt und diese Unterfragen dann mit einer Reihe möglicher Aktionen korreliert.

Auch die Wahl der Aktionen ist hier ein neuartiger Ansatz.

Auch: Google aktualisiert Vector AI, damit Unternehmen GenAI anhand ihrer eigenen Daten trainieren können

Hu und Kollegen führten eine Umfrage unter zehn Menschen durch, die die gleichen Fragen beantworten mussten – Fragen wie „Wie heißt das Insekt?“ in einem Bild dargestellt. Ihre Auswahl an Tools, beispielsweise der Google-Bildersuche, wurde aufgezeichnet.

Die Autoren fügen diese Beispiele menschlicher Entscheidungen dann in einen sogenannten „Übergangsgraphen“ ein, ein Modell dafür, wie Menschen in jedem Moment Entscheidungen über Werkzeuge treffen.

UCLA, Google

Der Planer verwendet dann das Diagramm und wählt aus „relevanten Kontextbeispielen […] aus, die aus den zuvor getroffenen Entscheidungen zusammengestellt wurden Menschen.“ Es ist eine Möglichkeit, das Programm dazu zu bringen, sich an den Entscheidungen der Menschen zu orientieren, indem frühere Beispiele einfach als weitere Eingaben für die Sprache verwendet werden Modell.

Auch: Die Multi-View-Welle der KI kommt, und sie wird mächtig sein

Um die Auswahl zu überprüfen, verfügt das AVIS-Programm über einen zweiten Algorithmus, einen „Reasoner“, der die Nützlichkeit bewertet Jedes Tool wurde anschließend vom Sprachmodell ausprobiert, bevor entschieden wurde, ob eine Antwort auf die ursprüngliche Frage ausgegeben werden soll. Wenn die jeweilige Werkzeugauswahl nicht hilfreich war, sendet der Reasoner den Planer zurück an das Zeichenbrett.

Der gesamte AVIS-Workflow besteht aus der Entwicklung von Fragen, der Auswahl von Tools und der anschließenden Verwendung des Reasoners zur Überprüfung, ob das Tool eine zufriedenstellende Antwort geliefert hat.

UCLA, Google

Hu und sein Team testeten AVIS anhand einiger automatisierter Standard-Benchmark-Tests zur visuellen Beantwortung von Fragen, wie etwa OK-VQA, 2019 eingeführt von Forschern der Carnegie Mellon University. Bei diesem Test erreichte AVIS „eine Genauigkeit von 60,2, höher als die meisten vorhandenen Methoden, die auf diesen Datensatz zugeschnitten sind“, berichten sie. Mit anderen Worten: Der allgemeine Ansatz hier scheint Methoden zu übertreffen, die sorgfältig auf eine bestimmte Aufgabe zugeschnitten wurden, ein Beispiel für die zunehmende Allgemeingültigkeit maschinell lernender KI.

Auch: Generative KI steht an der Spitze der 25 aufstrebenden Technologien von Gartner für 2023

Abschließend stellen Hu und sein Team fest, dass sie erwarten, in der zukünftigen Arbeit über reine Bildfragen hinauszugehen. „Wir wollen unseren LLM-gestützten dynamischen Entscheidungsrahmen erweitern, um andere Argumentationsaufgaben zu bewältigen“, schreiben sie.

Künstliche Intelligenz

7 erweiterte ChatGPT-Tipps zum Schreiben von Eingabeaufforderungen, die Sie kennen müssen
Die 10 besten ChatGPT-Plugins des Jahres 2023 (und wie Sie das Beste daraus machen)
Ich habe viele KI-Tools für die Arbeit getestet. Das sind bisher meine 5 Favoriten
Mensch oder Bot? Dieses Turing-Testspiel stellt Ihre KI-Erkennungsfähigkeiten auf die Probe
  • 7 erweiterte ChatGPT-Tipps zum Schreiben von Eingabeaufforderungen, die Sie kennen müssen
  • Die 10 besten ChatGPT-Plugins des Jahres 2023 (und wie Sie das Beste daraus machen)
  • Ich habe viele KI-Tools für die Arbeit getestet. Das sind bisher meine 5 Favoriten
  • Mensch oder Bot? Dieses Turing-Testspiel stellt Ihre KI-Erkennungsfähigkeiten auf die Probe