Путь за пределы AlphaZero: работа Беркли и Google показывает, что робототехника может быть самым глубоким машинным обучением из всех

В отсутствие четко определенных вознаграждений и переходов между состояниями, которые происходят множеством способов, обучение робота с помощью обучения с подкреплением представляет собой, пожалуй, самую сложную область машинного обучения.

Казалось бы, простая задача — выделить объект из большого скопления объектов разного типа — это «одна из наиболее важных открытых проблем в робототехнике», по мнению Сергея Левина и его коллег. Схватывание — хороший пример проблем, с которыми сталкивается реальное машинное обучение, включая задержку, которая нарушает ожидаемый порядок событий, и цели, которые может быть трудно определить.

Подавляющее большинство искусственный интеллект была разработана в идеализированной среде: компьютерной симуляции, избегающей неровностей реального мира. Будь то программа MuZero от DeepMind для го, шахмат и Atari или GPT-3 от OpenAI для генерации языка, самый сложный глубокое обучение Все программы извлекли выгоду из сокращения набора ограничений, с помощью которых программное обеспечение улучшается.

Праймеры

Что такое ИИ? Все, что Вам нужно знать
Что такое машинное обучение? Все, что Вам нужно знать
Что такое глубокое обучение? Все, что Вам нужно знать
Что такое общий искусственный интеллект? Все, что Вам нужно знать

По этой причине самая трудная и, возможно, самая многообещающая работа в области глубокого обучения может лежать в области робототехника, где реальный мир вводит ограничения, которые невозможно полностью предвидеть.

Это один из выводов из недавнего отчета исследователей из Калифорнийского университета в Беркли и Google, которые подвели итоги нескольких лет экспериментов с роботами, использующими так называемое подкрепление. обучение.

«Я думаю, что реальные задачи в целом представляют собой величайшую трудность, но и величайшие возможности для обучения с подкреплением», — Сергей Левин, доцент с факультетом электротехники и информатики Беркли, рассказал ЗДНет в обмене электронными письмами.

Левин, который также назначен на встречу с представителем программы «Робототехника в Google», в этом месяце опубликовал вместе с коллеги-исследователи Джулиан Ибарз, Цзе Тан, Челси Финн, Мринал Калакришнан и Питер Пастор, обзор под названием Как обучить робота с помощью глубокого обучения с подкреплением: уроки, которые мы извлекли, который размещено на сервере препринта arXiv.

Также: Откуда мы знаем, что ИИ готов к работе в дикой природе? Может быть, нужен критик

В статье описываются несколько экспериментов, которые Левин и другие проводили на протяжении многих лет с использованием обучения с подкреплением, и резюмируется, где эти эксперименты столкнулись с препятствиями.

Эксперименты включают в себя самые основные задачи робототехники, например, захват объекта рукой робота и перемещение его из одного места на столе в другое. Даже эта очень простая задача таит в себе увлекательные трудности.

Обучение с подкреплением — это подход к машинному обучению, который существует уже несколько десятилетий. Он наиболее известен тем, что был использован подразделением Google DeepMind для разработки AlphaZero, программы, которая смогла превзойти мировые лучшие игроки в го, лучшие игроки в шахматы и сёги, без какой-либо информации о человеческой игре, просто повторяющиеся игры, сыгранные против сам. DeepMind расширил программу до MuZero, теперь я могу осваивать игры Atari таким же подходом.

Основная идея обучения с подкреплением заключается в том, что осуществляется поиск возможных действий и последствий, а затем сохраняется в памяти, а два алгоритма называемая функцией ценности и функцией политики, объединяются для выбора следующего шага в любой точке задачи на основе того, что было наиболее плодотворным в этой истории поиска. Все расчеты основаны на понятии высшей награды, такой как победа в шахматной партии.

Левин и его коллеги отмечают, что робототехника нарушает некоторые из самых основных предположений парадигмы обучения с подкреплением.

Во-первых, положение дел в робототехнике не развивается так же гладко, как в стратегических играх, таких как го или шахматы. Традиционная модель обучения с подкреплением — это так называемая Марковский процесс принятия решений, где за одним состоянием упорядоченно следует другое состояние в зависимости от предпринятого действия. Все обучение с подкреплением предполагает, что вы можете измерить, как действие приводит из одного дискретного состояния в другое.

Однако в мире робототехники существует латентность, задержка между одним состоянием дел и другим. Как описывают это Левин и соавторы: «Задержка означает, что следующее состояние системы не зависит напрямую от измеренное состояние, а вместо этого состояние после задержки после измерения, которое не наблюдаемый».

Также: Google исследует загадочный многогранник искусственного интеллекта

В результате «задержка нарушает самое фундаментальное предположение MDP [Марковского процесса принятия решений] и, таким образом, может привести к сбою некоторых алгоритмов RL [обучения с подкреплением]», — отмечают авторы. Они приводят примеры, когда успешные программы обучения с подкреплением ломаются, когда задержка нарушает ожидаемые марковские переходы состояний.

Есть еще одна, возможно, более серьезная проблема, возникающая в робототехнике, — это понятие целей и вознаграждений.

Традиционно обучение с подкреплением предполагает, что цель четко определена и каждое доступное действие может быть выполнено. оцениваться функцией ценности программы как явно приближающая программу к или дальше от цель. В шахматах, го или играх Atari цель победы ясна, и ходы продвигают игрока измеримыми способами к этой цели.

«В средах моделирования или видеоигр функцию вознаграждения обычно легко определить, поскольку у человека есть полный доступ к состояние симулятора или игры, и может определить, была ли задача выполнена, или получить доступ к счету игры», — говорят Левин и соавторы. писать.

«Однако в реальном мире присвоение баллов для количественной оценки того, насколько хорошо было выполнено задание, само по себе может стать сложной проблемой восприятия».

Подумайте о роботизированной руке, пытающейся открыть дверь, рассказывают авторы. Вполне возможно, что обучающийся робот попытается оптимизировать работу, подойдя ближе к дверной ручке. Но если вы подойдете слишком близко к дверной ручке, так что ручка окажется под плохим углом, чтобы ее можно было схватить, это фактически помешает достижению конечной цели. Это пример того, как оптимизация подзадачи, например приближения к объекту, может на самом деле отодвинуть на задний план большую цель.

Различные подходы к обучению без присмотра могут привести к стратегиям, с помощью которых робот захватывает объекты, при этом определить цель и политику сложно.

Калашников и др.

И это пример того, как страдает обучение с подкреплением, когда вознаграждения «скудны», то есть роботу предоставляется очень мало подсказок.

«Это определенно серьезная проблема», — сказал Левин. ЗДНет в электронной почте», «и это одно из мест, где стандартная постановка задачи RL [обучения с подкреплением] предполагает вознаграждение просто каким-то образом «предоставляется» агенту (например, куском кода), отклоняется от требований в реальном мире. мир."

Решения, как обсуждается в статье, включают в себя такие подходы, как, например, демонстрация задачи с выполнением действия человеком. Стандартное обучение с подкреплением не предназначено для такой спецификации «цели за демонстрацией».

«Нам необходимо расширить их, чтобы они могли обрабатывать такого рода «естественные» спецификации задач», — сказал Левин. ЗДНет. Другой подход заключается в предварительном накоплении большого количества данных в ходе моделирования, а затем передаче их роботу. Но, опять же, сложности реального мира ускользают от редуктивной природы симуляции, которую Левин и компания называют «разрывом реальности». Это означает, что моделирование может быть полезным, но только до определенного момента.

Все эти проблемы становятся еще более острыми из-за того, что они существуют во многих и многих сферах жизни.

Левин и его коллеги изучили возможности использования демонстрации для уточнения цели. В этом случае в левом кадре предлагается демонстрация, а в правом — выполнение задания.

Се и др. 2019

Сложности робототехники воплощают в себе множество «реальных проблем», сказал Левин. ЗДНет, «включая контроль электросетей, регулирование дорожных сетей, управление системами отопления, вентиляции и кондиционирования и даже более сложные приложения в логистике, управлении запасами и экономике».

«Робототехника — это просто наиболее физически осязаемая реализация этих проблем, и та, к которой мы, люди, можем относиться с наибольшей готовностью». потому что мы все имеем общий опыт управления собственным телом, поэтому нам легче общаться с роботом, пытающимся управлять своим телом», — он сказал.

В конечном счете, Левин склонен рассматривать необходимость как добродетель.

«Обучение с подкреплением — это одновременно и вызов, и возможность», — сказал он. ЗДНет. По его словам, не будучи привязанными к симулятору, роботы могут освоить более богатый словарь навыков.

«В таких играх, как шахматы или го, политика RL будет настолько хороша, насколько хорош «симулятор», в котором она обитает», — заметил Левин. «Он может играть в шахматы, но никогда не сможет научиться ничему другому в этом мире, потому что его «мир» не содержит ничего, кроме шахмат».

Напротив, в реальном мире «робот может испытывать многое из того же, что испытываем мы, он сможет противостоять миру во всей его сложности и, возможно, даже узнать вещи, которые могут нас удивить».

«Я думаю, это действительно интересно», — сказал Левин.

Искусственный интеллект

7 продвинутых советов по написанию подсказок ChatGPT, которые вам нужно знать

10 лучших плагинов ChatGPT 2023 года (и как максимально эффективно использовать их)

Я протестировал множество инструментов искусственного интеллекта для работы. На данный момент это мои 5 любимых

Человек или бот? Эта тестовая игра Тьюринга проверит ваши навыки обнаружения ИИ

7 продвинутых советов по написанию подсказок ChatGPT, которые вам нужно знать
10 лучших плагинов ChatGPT 2023 года (и как максимально эффективно использовать их)
Я протестировал множество инструментов искусственного интеллекта для работы. На данный момент это мои 5 любимых
Человек или бот? Эта тестовая игра Тьюринга проверит ваши навыки обнаружения ИИ