DeepMind от Google: Что эти сражающиеся ИИ могут рассказать нам о поведении человека?

Компания DeepMind, принадлежащая Google, использует искусственный интеллект для изучения того, как возникают сотрудничество и конфликты.

В этой игре два агента, красная и синяя точка, должны собрать яблоки с зеленой точкой.

Изображение: Google DeepMind/YouTube

Ученые из компании DeepMind, принадлежащей Google, обнаружили, что ее ИИ ведут себя почти так же, как люди, когда сталкиваются с ограниченными ресурсами.

В новом исследовании ученые DeepMind подключили своих ИИ-агентов, обученных с помощью глубокого обучения с подкреплением, к двум многоагентные 2D-игры, моделирующие возникновение конфликта или сотрудничества между эгоистичными участниками теоретической экономика.

Как объясняет DeepMind, они научили своих ИИ-агентов вести себя так, как некоторые экономисты моделируют процесс принятия решений человеком. То есть эгоистичен и всегда рационален.

«Исследование может позволить нам лучше понимать и контролировать поведение сложных мультиагентных систем, таких как экономика, дорожное движение и экологические проблемы», — говорят исследователи DeepMind. объясни в блоге.

В одной игре два агента, красная и синяя точки, сталкиваются с задачей собрать яблоки, обозначенные зелеными точками. Агенты могут просто собирать яблоки вместе, предлагая сотрудничество, или они могут «пометить» друг друга, чтобы помешать им собирать яблоки.

После нескольких тысяч обходов они обнаружили, что когда яблок много, агенты собирают как можно больше и оставляют друг друга в покое. Однако когда DeepMind ограничила поставки, агенты стали более агрессивными, поняв, что может быть оптимальным заблокировать своего конкурента, чтобы повысить свои шансы захватить то, что доступно.

«Игра «Сбор» предсказывает, что конфликт может возникнуть в результате конкуренции за ограниченные ресурсы, но менее вероятен, когда ресурсов много», — говорят они. написать в новой газете.

«Эти результаты показывают, что агенты осваивают агрессивную политику в средах, которые сочетают в себе нехватку ресурсов и возможность дорогостоящих действий. Менее агрессивная политика возникает в результате обучения в относительно богатой среде с меньшими возможностями для дорогостоящих действий», — отмечают они.

DeepMind также обнаружила, что более умные агенты с более обширной сетью позволяют им разрабатывать более сложные стратегии, старались чаще блокировать своих товарищей-собирателей, независимо от того, насколько был дефицит представил.

Однако вторая игра под названием Wolfpack приводила к другому поведению, когда они были готовы разрабатывать более сложные стратегии.

В этой игре два волка, обозначенные красными точками, работают вместе, чтобы поймать добычу, находящуюся в синей точке, и рискуют потерять ее труп из-за падальщиков.

Если волки будут сотрудничать, они смогут получить более высокую награду, поскольку два волка лучше защищают добычу, чем один. В этом случае DeepMind обнаружила, что большая способность реализовывать сложные стратегии привела к более тесному сотрудничеству.

DeepMind обнаружила, что в Wolfpack поведение сотрудничества более сложное и требует большего размера сети, поскольку агентам необходимо координировать охоту, чтобы собирать командные награды.

Изображение: Google DeepMind/YouTube

Они также обнаружили, что волки разработали две разные стратегии убийства добычи и защиты туши.

«С одной стороны, волки могли сотрудничать, сначала находя друг друга, а затем двигаясь вместе, чтобы охотиться на добычу. С другой стороны, волк мог сначала найти добычу, а затем дождаться прибытия другого волка, прежде чем схватить ее», — отмечают они в бумага.

DeepMind предлагает такое объяснение тому, почему размер сети сделал агентов более конкурентоспособными в собирательной игре и более склонными к сотрудничеству в охотничьей игре.

«В Gathering поведение дезертирства более сложное и требует большего размера сети для изучения, чем поведение сотрудничества. Это так, потому что дезертирство требует сложной задачи: нацелиться на противостоящего агента с помощью луч, тогда как мирный сбор яблок почти не зависит от поведения противостоящего агента», — заявили они. писать.

«В Wolfpack поведение сотрудничества более сложное и требует большего размера сети, поскольку агентам необходимо координировать свое охотничье поведение, чтобы получают командное вознаграждение, в то время как поведение одинокого волка не требует координации с другим агентом и, следовательно, требует меньшей пропускной способности сети», — заявили они. писать.

Подробнее о DeepMind от Google

DeepMind от Google заявляет о важной вехе на пути к тому, чтобы машины говорили как люди
Новейший ИИ от Google DeepMind? Настолько умный, что может «рассуждать» в лондонском метро
Как навыки муравьиного футбола Google DeepMind могут помочь улучшить результаты поиска
Google DeepMind снова побеждает: ИИ побеждает эксперта в чтении по губам
DeepMind AI от Google: теперь он использует сны, чтобы учиться еще быстрее
DeepMind от Google обращается к StarCraft II после победы над Го