Google DeepMind геймифицирует память с помощью своей последней разработки в области искусственного интеллекта

  • Sep 07, 2023

Ученые Google DeepMind создали компьютерную программу, которая передает сигналы из будущего в прошлое, используя своего рода теоретическую модель, похожую на то, что делают люди, когда учатся на своих ошибках. Просто помните, это всего лишь игра.

Вы знаете, когда вы сделали что-то не так, например, поставили стакан слишком близко к краю стола, а через мгновение случайно сбили его со стола. Со временем вы осознаете ошибку еще до того, как произойдет катастрофа.

Точно так же вы знаете, что на протяжении многих лет вы делали неправильный выбор, например, решили стать менеджером в компании. Best Buy, а не профессиональный игрок в мяч, последний из которых принес бы вам гораздо больше выполнено.

Вторая проблема — то, как чувство ответственности развивается на протяжении длительного времени, — является предметом недавней работы подразделения DeepMind компании Google. Они спросили, как можно создать с помощью программного обеспечения что-то похожее на то, что делают люди, когда осознают долгосрочные последствия своего выбора.

Решение DeepMind — это программа глубокого обучения, которую они называют «Перенос временных значений». Для краткости TVT — это способ передать уроки из будущего, если хотите, в прошлое, чтобы обосновать действия. В каком-то смысле это «геймификация» действий и последствий, показывающая, что может быть способ заставить действия в один момент подчиняться вероятности последующих событий, чтобы набирать очки.

Они не создают память как таковую и не воссоздают то, что происходит в уме. Скорее, по их словам, они «предлагают механистическое объяснение поведения, которое может вдохновить модели в нейробиологии, психологии и поведенческой экономике».

«Агент реконструктивной памяти» использует несколько целей, чтобы «научиться» хранить и извлекать записи прошлых состояний дел как своего рода память.

ДипМайнд

Авторы статьи «Оптимизация поведения агентов в долгосрочных масштабах путем транспортировки стоимости», которая была опубликовано 19 ноября в выходных данных журнала Nature Communications., это Чиа-Чун Хунг, Тимоти Лилликрап, Джош Абрамсон, Ян Ву, Мехди Мирза, Федерико Карневале, Арун Ахуджа и Грег Уэйн — все из подразделения Google DeepMind.

Отправной точкой игры является так называемое «долгосрочное присвоение кредита», то есть способность людей определить полезность некоторых действий, которые они предпринимают сейчас, исходя из того, какими могут быть последствия этих действий в далеком будущем — менеджер Best Buy по сравнению со спортсменом пример. Это имеет богатую традицию во многих областях. Экономист Пол Самуэльсон исследовал феномен того, как люди делают выбор с долгосрочными последствиями, то, что он назвал подходом «дисконтированной полезности», начиная с 1930-х годов. И Аллен Ньюэлл и Марвин Мински, два светила первой волны ИИ, исследовали его.

Конечно, в программах ИИ есть форма действий, основанная на действиях и последствиях, называемая «обучение с подкреплением», но она имеет серьезные последствия. ограничения, в частности тот факт, что он не может проводить корреляции в долгосрочных масштабах так, как это делают люди с долгосрочными кредитами. назначение.

«Люди и животные демонстрируют поведение, которое современное (безмодельное) глубокое RL пока не может имитировать поведенчески», — пишут Хунг и его коллеги. В частности, оказывается, что «большая часть поведения и обучения происходит в отсутствие немедленного вознаграждения или прямой обратной связи» у людей.

Версия обучения с подкреплением от DeepMind, которая использует «перенос временных значений» для отправки сигнала от вознаграждения назад для формирования действий, работает лучше, чем альтернативные формы нейронных сетей. Здесь программа «TVT» сравнивается с «долговременной памятью» или LSTM, нейронными сетями с памятью и без нее и базовым реконструктивным агентом памяти.

ДипМайнд

Ученые DeepMind широко использовали обучение с подкреплением в своих масштабных проектах в области искусственного интеллекта, таких как Программа АльфаСтар это достижение побед в Starcraft II и программе AlphaZero до нее, которая одержала победу в го, шахматах и ​​сёдзи. Авторы новой работы адаптируют RL так, чтобы он принимал сигналы из далекого будущего, то есть на несколько временных шагов вперед в последовательности операций. Он использует эти сигналы для формирования действий в начале воронки, своего рода цикл обратной связи.

Также: Победа Google в StarCraft II показывает, что ИИ совершенствуется за счет разнообразия, изобретений, а не рефлексов

Другими словами, они превратили это в игру. Они используют моделируемые миры, карты комнат, подобные тем, которые вы видите в видеоиграх, таких как Quake и Doom, тип моделируемой среды, который стал привычным при обучении искусственных агентов. Агент взаимодействует с окружающей средой, например, встречая цветные квадраты. Спустя много последовательностей агент будет вознагражден, если он сможет найти путь к тому же квадрату, используя запись предыдущего исследования, которая действует как память.

«Как они это сделали» — увлекательная адаптация что-то созданное в DeepMind в 2014 году Алекс Грейвс и его коллеги назвали «нейронной машиной Тьюринга». NMT был способом заставить компьютер искать регистры памяти, основываясь не на явных инструкции, а основаны просто на градиентном спуске в сети глубокого обучения — другими словами, изучение функции, с помощью которой можно хранить и извлекать определенные данные.

Авторы, Хунг и его коллеги, теперь используют подход NMT и, в некотором смысле, привязывают его к обычному RL. RL в таких вещах, как AlphaZero, ищет пространство потенциальных вознаграждений, чтобы «изучить» посредством градиентного спуска функцию ценности, как ее называют, максимальную систему выигрышей. Затем функция значения влияет на построение политики, которая определяет действия, которые компьютер предпринимает по мере прохождения состояний игры.

К этому авторы добавляют возможность программы RL извлекать воспоминания, записи прошлых действий, таких как встреча с цветным квадратом ранее. Они называют это «Агентом реконструктивной памяти». RMA, как его называют, использует способность NMT хранить и извлекать воспоминания посредством градиентного спуска. Кстати, здесь они открывают новые горизонты. В то время как другие подходы пытались использовать доступ к памяти, чтобы помочь RL, они пишут, что впервые так называемые воспоминания о прошлых событиях «закодированы». Они имеют в виду путь информация кодируется в генеративной нейронной сети, такой как «вариационный автокодировщик», распространенный подход глубокого обучения, лежащий в основе таких вещей, как языковая модель «GPT2», разработанная OpenAI. построен.

Также: Не бойтесь глубоких фейков: машина OpenAI пишет так же бессмысленно, как говорит чат-бот

«Вместо распространения градиентов для формирования сетевых представлений в RMA мы использовали цели реконструкции, чтобы гарантировать, что соответствующая информация закодирована», — так описывают это авторы.

Последняя часть головоломки заключается в том, что, когда задача действительно приводит к будущим вознаграждениям, нейронная сеть TVT затем посылает сигнал обратно к действиям прошлого, если хотите, формируя, как эти действия улучшен. Таким образом, типичная функция ценности RL обучается долгосрочной зависимости между действиями и их будущей полезностью.

смотрите также

Искусственный интеллект в реальном мире: что он на самом деле может делать?

Каковы пределы ИИ? И как перейти от управления точками данных к внедрению ИИ на предприятии?

Прочитай сейчас

Результаты, как они показывают, превосходят типичные подходы к RL, основанные на «долговременной памяти» или сетях LSTM. Это означает, что комбинация RMA и TVT DeepMind превосходит LTSM, даже те LSTM, которые используют хранилище памяти.

Важно помнить, что это все игра, а не модель человеческой памяти. В игре RL-агент DeepMind работает в системе, которая бросает вызов физике, где события в будущее, которое получает вознаграждение, отправляет сигнал в прошлое, чтобы улучшить или «запустить» предпринятые действия. ранее. Это как если бы «Вы из будущего» могли вернуться к себе студенческому возрасту и сказать: Выберите этот путь и станьте профессиональным игроком в мяч, я поблагодарю меня позже."

Один из подходов, который мог бы сделать все это более актуальным для человеческого мышления, подход, который не принимают во внимание авторы, заключался бы в том, чтобы показать, как TVT может ли достигнуть своего рода трансферного обучения, то есть может ли полученное обучение быть использовано в новых, невидимых задачах совершенно иного характера? параметр.

В заключение авторы признают, что это модель механизма, не обязательно отражающая человеческий интеллект.

«Полное объяснение того, как мы решаем проблемы и выражаем последовательное поведение на протяжении длительных периодов времени, остается глубокой загадкой», пишут они, «о которой наша работа дает лишь понимание».

И все же они верят, что их работа может способствовать изучению механизмов, лежащих в основе: «Мы надеемся, что когнитивные механизмы подход к пониманию межвременного выбора, при котором предпочтения выбора отделены от жесткой модели дисконтирования, будет вдохновлять на поиск новых способов вперед."