Googles DeepMind AI: Jetzt nutzt es Träume, um noch schneller zu lernen

Der neue Ansatz von DeepMind zum Training von Robotern orientiert sich an unserem Traum, das Lernen zu beschleunigen.

Der neue Agent von Google DeepMind verwendet die gleichen Deep-Reinforcement-Learning-Methoden, die er zuvor zur Beherrschung des Spiels Go eingesetzt hat.
Bild: Claire Reilly/CNET

Die neueste KI-Kreation der Forscher im DeepMind-Labor von Google ist UNREAL, ein besonders schneller Agent, der komplexere Aufgaben als nur Spiele bewältigen könnte.

DeepMind-Forscher präsentieren ihre Ergebnisse in einem neues Papier beschreibt UNsupervised REinforcement and Auxiliary Learning oder UNREAL, das sich teilweise an die Art und Weise orientiert, wie Tiere träumen, um das Lernen zu beschleunigen.

Beim Testen des Agenten auf Atari-Spielen und dem 3D-Spiel Labyrinth stellten sie fest, dass er zehnmal schneller lernen konnte als seine vorherigen Algorithmen. Außerdem beträgt die durchschnittliche menschliche Leistung von Experten bei Labyrinth 87 Prozent.

Als DeepMinds in London ansässige Forscher

erklären, verwendet der Agent dieselben Deep-Reinforcement-Learning-Methoden, die er zuvor verwendet hat, um das Spiel Go und mehrere Atari 2600-Spiele zu beherrschen.

Das Besondere an UNREAL ist jedoch, dass es um zwei zusätzliche Aufgaben erweitert wurde, von denen eine an das Träumen von Tieren angelehnt ist und eine andere daran erinnert, wie Babys ihre motorischen Fähigkeiten entwickeln.

„So wie Tiere häufiger von positiv oder negativ belohnenden Ereignissen träumen, spielen unsere Agenten bevorzugt Sequenzen mit belohnenden Ereignissen ab“, schreiben sie in der Zeitung.

Die Forscher nutzten dieses Konzept, um dem Agenten beizubringen, sich auf visuelle Hinweise aus seiner jüngsten Erfahrungsgeschichte zu konzentrieren, die Abkürzungen zu größeren Belohnungen signalisieren.

„Der Agent ist darauf trainiert, das Einsetzen unmittelbarer Belohnungen aus einem kurzen historischen Kontext vorherzusagen. „Um das Szenario, in dem Belohnungen selten sind, besser bewältigen zu können, präsentieren wir dem Agenten in gleichem Verhältnis vergangene Belohnungs- und Nicht-Belohnungshistorien“, erklärten sie in einem Blogbeitrag.

„Indem der Agent viel häufiger über Belohnungsverläufe lernt, kann er visuelle Merkmale, die eine Belohnung vorhersagen, viel schneller entdecken.“

Die andere Aufgabe besteht darin, wie der Agent die Pixel auf dem Bildschirm so steuert, dass er sich darauf konzentriert, aus Aktionen zu lernen, um herauszufinden, was nützlich ist, um in einem bestimmten Spiel gut zu spielen und höhere Punkte zu erzielen.

Mit der Kombination der drei Techniken testeten die Forscher den Agenten an 57 Atari-Spielen und 13 Levels von Labyrinth.

Ein Teil des Erfolgs besteht nicht nur darin, einen Agenten zu schaffen, der in jedem Spiel herausragend ist, sondern auch darin, dass der Agent nicht angepasst werden muss, um jedes Spiel zu erlernen.

Wie die Forscher betonten, besteht das Hauptziel von DeepMind darin, neue Wege in der KI zu beschreiten, indem Programme eingesetzt werden, die „lernen können, jedes komplexe Problem zu lösen, ohne dass ihnen beigebracht werden muss, wie“. Jetzt verfügen sie über einen Agenten, der schneller lernt und zudem flexibler ist.

„Wir hoffen, dass diese Arbeit es uns ermöglichen wird, unsere Agenten auf immer komplexere Umgebungen auszuweiten“, sagten die Forscher.

LESEN SIE MEHR ÜBER GOOGLE UND KI

Google Translate: „Dieses bahnbrechende Update ist unser größter einzelner Sprung seit 10 Jahren“
Google, LinkedIn und Facebook schlagen vor, den Schwerpunkt auf Mobilgeräte zu legen, bevor man sich mit KI befasst
Intel will „KI für immer“ vorantreiben
MindMeld führt Konversations-KI-Technologie für Unternehmen ein
Ist Google Cloud Machine Learning für Unternehmen geeignet?
Dank Project Intu könnte IBMs Watson-KI bald in Geräten vom PC bis zum Roboter zum Einsatz kommen
TechRepublic: Die Zukunft der KI in den USA: Wie sie unter der Trump-Administration aussehen könnte

CNET: KI steht einfach nicht so auf dich – noch nicht