Сможет ли более эффективный «Реформатор» Google смягчить или ускорить гонку вооружений в области ИИ?

Последнее усовершенствование Google популярной языковой модели «Трансформер» обещает сделать новейшие достижения доступными для тех, у кого небольшой компьютерный бюджет. Но эти достижения с таким же успехом могут быть использованы теми, кто располагает огромными вычислительными ресурсами, чтобы выжать еще больше производительности из самых больших машин.

Технологии всегда обещают больше за меньшие деньги: более быстрые процессоры по более низкой цене благодаря большему количеству схем, размещенных на одной и той же площади кремния.

А у искусственного интеллекта есть аналог, оказывается, основанный на недавней работе инженеров Google, которые нашли способ взять язык «Трансформера» модели и заставить ее версию работать в одном графическом процессоре или графическом процессоре, а не в нескольких графических процессорах, которые обычно требуются для действовать.

Это предоставляет пользователям интересный выбор. Если бы у вас была возможность выбрать между получением передовых технологий искусственного интеллекта более простым в использовании способом, вы бы выберите это, или вместо этого вы захотите использовать возможности вашего существующего компьютерного бюджета, чтобы сделать более?

Это все равно, что спросить: «Хотели бы вы платить меньше за ПК или получить еще больше мощности за те деньги, которые вы заплатили?» Это классическая дилемма для покупателей.

Намерение, по крайней мере, ученых Google Никиты Китаева (который также занимает должность в Калифорнийском университете в Беркли, Лукаш Кайзер, и Ансельм Левская, должны сделать мощность Трансформера доступной за ограниченный бюджет, изобретение, которое они окрестили «Реформатором».

«Мы считаем, что это поможет большим, богато параметризованным моделям Трансформеров стать более распространенными и доступными», — пишут они в официальном документе. размещено на сервере предварительной печати arXiv на этой неделе. (Google также опубликовал сообщение в блоге об этой работе..)

Вот ситуация, которую они рассматривают. Подход Transformer к моделированию последовательных данных был представлен в 2017 году Ашишем Васвани и его коллегами из Google и стал сенсацией. Подход использования «внимания» для прогнозирования элементов последовательности на основе других элементов, близких к нему, стал основой для многочисленных языковых моделей, включая BERT от Google и «GPT2» от OpenAI.

реформатор-lhs-hashing-jan-2020.png — Иллюстрация «чувствительной к местоположению» хэш-функции, используемой в Google Reformer для сокращения количества активаций, которые необходимо хранить в памяти. Цвета обозначают близкие по значению векторы, которые можно сгруппировать для консолидации хранилища.
Google.

Проблема в том, что для запуска этих мегамоделей требуются тонны графических процессоров, в основном из-за проблем с памятью, а не из-за проблем с вычислениями. Графические процессоры, используемые для обучения глубоких нейронных сетей, таких как Transformer, и чипы, такие как Nvidia V100, обычно имеют шестнадцать или тридцать два гигабайта памяти, и этого недостаточно для хранения всей информации. параметры нейронных сетей с десятками слоев нейронов, а также матрицу активаций каждого нейрона, поскольку сеть параллельно пробует различные пары символов в поисках нужного Матчи.

Возьмем, к примеру, «XLNet», прошлогодний большой шаг вперед в области возможностей трансформаторов. Авторы Жилин Ян и коллеги напишите в своих примечаниях по реализации что они проделали всю свою работу на чипе TPU от Google, «который обычно имеет больше оперативной памяти, чем обычные графические процессоры». Они подсчитывают, что нужно, чтобы перенести его на графические процессоры: «[Это] в настоящее время очень сложно (дорого) воспроизвести большую часть результатов SOTA XLNet-Large в статье с использованием графических процессоров». писать.

Также: Google заявляет, что «экспоненциальный» рост ИИ меняет природу вычислений

Проблема не только в том, что люди не могут использовать некоторые формы глубокого обучения. Более глубокую озабоченность вызывает то, что заявления о том, какие нейронные сети глубокого обучения могут совершить прорыв, омрачаются огромными инженерными ресурсами. Облачные гиганты, такие как Google, возможно, наращивают ресурсы, а не совершают настоящие прорывы в науке об искусственном интеллекте. Эту обеспокоенность прекрасно выразила Анна Роджерс. в статье «Семантика мышления», цитируемой Китаевым.

Чтобы сделать Transformer более доступным, Китаев и его коллеги реализуют пару приемов, позволяющих уменьшить объем памяти, например хеширование. Хеширование, при котором код преобразует последовательность битов в другую последовательность битов, может быть способом уменьшить общий размер данных. В этом случае «хеширование с учетом локальности» группирует векторы, близкие друг к другу по значениям. Это «ключевые» векторы, используемые Transformer для хранения слов, по которым он будет искать механизм внимания.

«Например, если K имеет длину 64 КБ, для каждого ци мы могли рассматривать лишь небольшую часть, скажем, 32 или 64 ближайших ключей», — пишут Китаев и коллеги. [«K» — это матрица ключей, а «q» относится к запросам, которые обращаются к этим ключам.) Это устраняет обычную проблему N-квадрата, которая приводит к увеличению количества векторов, которые нужно хранить в памяти.

Второе важное дело, которое они делают, — это уменьшение общего количества активаций нейронов, которые необходимо сохранить. Обычно их все необходимо сохранить, чтобы облегчить обратный проход обратного распространения ошибки, который вычисляет градиент решения нейронной сети путем прохождения активаций слоев. Это хранилище активации раздувает память по мере увеличения количества слоев нейронов. Но Китаев и его команда применяют так называемую «обратимую остаточную сеть». разработан в 2017 году Эйданом Гомесом и его коллегами из Университета Торонто.. Гомес и его команда адаптировали традиционную ResNet так, чтобы активации каждого слоя можно было реконструировать на основе сохраненного значения слоя, следующего за ним, поэтому большинство активаций вообще не нужно сохранять.

Также: ИИ меняет всю природу вычислений

«Обратимый преобразователь не должен хранить активации на каждом уровне, поэтому он избавляется от члена nl», — пишут Китаев и его коллеги, имея в виду N слоев сети.

Они пишут, что благодаря такой эффективности они могут втиснуть двадцатислойный преобразователь в один графический процессор. Конечно, они не могут напрямую сравнивать его производительность с полным шестидесятичетырехслойным Transformer, потому что Transformer не может поместиться в один и тот же графический процессор. Но они показывают результаты, которые кажутся конкурентоспособными.

Но теперь возникает вопрос: Реформер также может работать намного быстрее, чем Трансформатор, работающий в традиционном режиме. занимаемая компьютером площадь, в данном случае восемь графических процессоров, работающих параллельно, с теми же шестьюдесятью четырьмя слоями, что и полный Трансформатор. «Reformer соответствует результатам, полученным с полной версией Transformer, но работает намного быстрее, особенно при выполнении текстовых задач, и с на несколько порядков большей эффективностью использования памяти».

Это означает, что с помощью Reformer, работающего на большом железе, вы потенциально можете обрабатывать миллионы «токенов», то есть отдельных символов письменного произведения. Авторы относятся к обработке всего текста «Преступления и наказания» Достоевского.», 513 812 токенов, причем один Reformer на одну машину с восемью гигабайтами памяти. Вы можете себе представить, что если Reformer распространить на машины, он сможет работать с данными в значительно большем масштабе.

Если таким образом вы сможете добиться еще большей производительности от Reformer, возникает вопрос: возьмете ли вы Реформатор, который может работать на одной машине и получать хорошие результаты, или вы запустите его на нескольких графических процессорах, чтобы получить еще больше больше силы? Сможет ли Reformer уменьшить некоторые аспекты аппаратного обеспечения ИИ, связанные с гонкой вооружений, или он лишь придаст этой гонке вооружений новый аспект?

исполнительный гид

Что такое ИИ? Все, что вам нужно знать об искусственном интеллекте

Руководство по искусственному интеллекту: от машинного обучения и общего искусственного интеллекта до нейронных сетей.

Прочитай сейчас

Слишком рано говорить, возможно, смесь того и другого. По крайней мере, широта выбора теперь стала больше.