Генеративный ИИ намного превзойдет возможности ChatGPT. Вот все о том, как развиваются технологии

Что ждет генеративный искусственный интеллект в будущем? Мультимодальность перенесет примитивную демонстрацию ChatGPT на межличностное сотрудничество, продвинутую робототехнику и, возможно, даже на мечту ИИ о непрерывном обучении.

абстрактный ИИ — Анна Блиох/Getty Images

Форма ИИ, известная как генеративный ИИ пленил мировое воображение.

ЧатGPT стала самой быстрорастущей программой в истории в январе, охватив сто миллионов пользователей менее чем за два месяца с момента ее публичного дебюта. Он породил множество конкурентов, как проприетарные программы, такие как Бард от Googleи альтернативы с открытым исходным кодом, такие как Калифорнийский университет в Беркли. Коала. Прилив волнений вызвал гонку вооружений между технологическими гигантами Microsoft и Google и их коллегами, а также резкий рост бизнеса производителя чипов для искусственного интеллекта Nvidia.

Ажиотаж по поводу больших языковых моделей привел к расцвету многочисленных проприетарных программ и программ с открытым исходным кодом все большего масштаба только для текста. Схема взята из статьи 2023 года.

«Эмоциональный интеллект больших языковых моделей» Сюэна Ван и его коллеги из Университета Цинхуа.

Университет Цинхуа

Вся эта пылкая деятельность коренится в том простом факте, что в отличие от прошлых программ искусственного интеллекта, которые в основном выдавали числовой балл — «1» для кошки изображение, «0» для изображения собаки — ChatGPT и программы обработки изображений, такие как Stable Diffusion от Stability AI и DALL-E от OpenAI, воспроизводят что-то из мир.

Особая функция

Расцвет генеративного искусственного интеллекта

Новая волна инструментов искусственного интеллекта покорила мир и дала нам представление о новом способе работы и поиске информации, которая может оптимизировать нашу работу и нашу жизнь. Мы покажем вам, как такие инструменты, как ChatGPT и другие программы искусственного интеллекта поколения, оказывают влияние на мир, как использовать их мощь, а также потенциальные риски.

Прочитай сейчас

Выводя абзац, изображение или даже скелет компьютерной программы, такие программы отражают творения общества.

Аспект зеркалирования резко увеличится за очень короткий промежуток времени.

Сегодняшние генеративные программы покажутся примитивными по сравнению с возможностями программ, которые будут преобладать в конце этого года, поскольку они производят гораздо больше видов вещей.

Переход к нескольким модальностям

То, что ученые-компьютерщики называют смешанными модальностями или «мультимодальностью», займет центральное место по мере того, как программы будут сливаться друг с другом. текст, изображения, «облака точек» физического пространства, звуки, видео и все функции компьютера как интеллектуальные. Приложения.

Смешанная модальность сделает возможными гораздо более эффективные программы и будет способствовать достижению давней цели непрерывного обучения. Это может даже способствовать достижению цели «воплощенного ИИ», подняв робототехнику.

«ChatGPT был создан для развлечения, и многие вещи он делает очень хорошо, но это своего рода демо», — сказал Навин Рао, основатель AI-стартапа MosaicML, в интервью ZDNET. «Теперь нам нужно начать думать о том, если я использую это для какой-то цели, как мне сделать это лучше?»

Рао, чья компания была приобретена Databricks за ее опыт в запуске программ искусственного интеллекта, теперь занимает должность вице-президента по генеративному искусственному интеллекту в Databricks.

Также: Генератор изображений искусственного интеллекта Meta говорит, что язык может быть всем, что вам нужно

Частью этого улучшения станет превращение генеративного ИИ в нечто большее, чем просто личный «второй пилот», такой как GitHub Copilot от Microsoft, который помогает одному человеку набирать текст в чате. Вместо этого программы станут совместными для команд, сказал Эмад Мостак, основатель и генеральный директор Stability AI, в интервью ZDNET.

«Большая часть ИИ используется просто как индивидуальная вещь или как автономный агент», — сказал Мостак. «Сейчас он находится на этапе iPhone 2G, где есть только один режим, и вы вырезаете и вставляете, тогда как я думаю, что наиболее интересно то, как мы можем лучше сотрудничать и рассказывать с его помощью лучшие истории, и это не одиночный стараться."

По словам Рао из Databricks, одна из вещей, которой «фундаментально не хватает», — это мультимодальность мир», учитывая, что «большие языковые модели очень одномерны, поскольку они видят мир только через текст."

Модальности относятся к характеру ввода и вывода, например, тексту, изображению или видео. Возможны различные модальности, и они изучаются с возрастающим разнообразием, поскольку одни и те же базовые концепции, лежащие в основе ChatGPT, могут применяться к любому типу ввода.

«Мультимодальность – это определенно правильный путь», – сказал Мостак. «Вам понадобятся модели всех типов, и, возможно, если вы объедините их, это будет потрясающе».

«Труды, посвященные только языку, вызвали большой интерес и волнение, и поэтому средства массовой информации фокусируются на этом, но люди серьезно работают над этим. другие вещи», — сказал Джим Келлер, известный разработчик компьютерных чипов и генеральный директор стартапа по производству AI-чипов Tenstorrent, в интервью изданию ЗДНЕТ. Келлер делает ставку в своей компании на то, что обработка смешанных модальностей станет одной из важнейших задач ИИ в будущем.

Машина для любых данных

В большой языковой модели, которая является сердцем технологии ChatGPT, текст превращается в токен, количественное математическое представление. Затем машина должна найти недостающее либо в замаскированных частях всей фразы, либо в последней части фразы. Именно процесс воссоздания приводит к появлению абзацев, которые выдает ChatGPT.

Аналогично, в случае с изображениями широко используемый процесс диффузии, популяризированный версией Stable Diffusion от Stability AI, искажает изображения шумом, а процесс воссоздания исходного изображения обучает нейронную сеть генерировать высокоточные изображения. изображений.

Также: Может ли генеративный ИИ решить величайшую нерешённую проблему информатики?

Одни и те же процессы восстановления пропавшего или поврежденного быстро распространяются на многочисленные способы или типы данных. Например, в последний номер журнала NatureБиолог из Вашингтонского университета Дэвид Бейкер и его команда повредили аминокислотные последовательности белков с помощью процесса, который они называют RF-диффузией. Этот процесс научит нейронную сеть производить белок (в моделировании) — новый синтетический белок, обладающий желаемыми свойствами.

Такой синтез может значительно сократить количество белков, которые необходимо изобрести и протестировать, чтобы получить новые антитела против болезней. (Статья в журнале Nature защищена платным доступом, но бесплатная версия размещена на файловом сервере bioRxiv. Более подробную информацию можно найти по адресу веб-сайт лаборатории Бейкера.)

RF-диффузионный процесс разработанный лабораторией Бейкера Института дизайна белков Вашингтонского университета, развращает аминокислотные последовательности, чтобы затем синтезировать новую структуру белка, во многом аналогично тому, как создает диффузия изображений. картинки.

Вашингтонский университет

«У нас есть лаборатории для всех модальностей», — сказал Мостак из Stability AI, который утверждает, что его компания и OpenAI — «единственные две независимые мультимодальные компании», за исключением таких технологических гигантов, как Google. По его словам, эта множественная модальность включает в себя лабораторию Stability AI только для аудио, лабораторию только для генерации кода, даже биологическая лаборатория, которая занимается такими вещами, как воссоздание изображений фМРТ с использованием стабильной диффузии. технологии.

Однако волшебство происходит, когда сочетается больше модальностей. «Прорыв», сказал Мостак, произошел работа в прошлом году Кэтрин Кроусон и несколько других исследователей, которые обучили нейронную сеть, генерирующую изображения, продолжать уточнять выходные данные до тех пор, пока выходные данные не удовлетворят текстовую подсказку. Они обнаружили, что обработка изображений в соответствии с «семантическим» содержанием текста улучшает качество изображения. «Кроусон сейчас работает в Stability AI», — отметил Мостак.

Эта работа с изображением и текстом быстро продвигается во многих учреждениях. Исследователи искусственного интеллекта из Meta предложили комбинацию текстовых и графических машин под названием CM3Леон который превосходно справляется не только с выводом текста или изображений, но и с выполнением задач, требующих и то, и другое одновременно, например, идентификация объектов на данном изображении или создание подписей на основе данного изображения. изображение.

Нейронная сеть CM3Leon компании Meta смешивает изображения и текст для выполнения нескольких задач, таких как подробное описание данного изображения или точное изменение данного изображения. Подробно это описано в документе 2023 года. «Масштабирование авторегрессионных мультимодальных моделей: предварительное обучение и настройка инструкций», Лилу Ю и его коллеги из Meta AI.

Мета ИИ

Более богатая картина мира

Комбинация нескольких модальностей начинает создавать более богатую картину мира для нейронной сети. Рао из Databricks цитирует нейробиологическую концепцию «стереогноза», которая означает познание мира посредством осязания. Если кто-то спросит, сколько сдачи у вас в кармане, вы сможете пощупать монеты и определить их размер и вес, не видя их. «У меня есть представление о мире и объектах, которые на самом деле представлены в нескольких модальностях», — сказал он. «Если я смогу изучить концепции, охватывающие разные модальности, значит, мы сделали что-то интересное».

Идея о том, что разные чувства определяют понимание, находит отражение в проводимых мультимодальных экспериментах. Ведутся активные исследования того, как создать так называемые «магистральные» нейронные сети, которые могут смешивать и сочетать головокружительный набор модальностей, и они демонстрируют интригующие преимущества в производительности.

Ученые Университета Карнеги-Меллона недавно предложили то, что они называют «высокомодальным мультимодальным преобразователем», который объединяет не только текст, изображения, видео и речь, но также информацию таблиц базы данных и данные временных рядов. Ведущий автор Пол Пу Лян и его коллеги сообщают, что они наблюдали «важное поведение масштабирования» 10-режимной нейронной сети. «Производительность продолжает улучшаться с добавлением каждой модальности и переходит в совершенно новые модальности и задачи».

Статья Карнеги-Меллона за 2023 год «Высокомодальный мультимодальный трансформатор» Пол Лян и его коллеги объединяют не только текст, изображения, видео и речь, но также информацию таблиц базы данных и данные временных рядов.

Университет Карнеги Меллон

Ученые Июань Чжан и его коллеги из Мультимедийной лаборатории Китайского университета Гонконга увеличили количество модальностей до дюжины в своем исследовании. Мета-Трансформер. Облака точек моделируют трехмерное зрение, а данные гиперспектрального зондирования представляют собой электромагнитная энергия отражается обратно от земли до полетных изображений пейзажей.

Метатрансформатор — это будущее генеративного искусственного интеллекта, в котором тонны данных самых разных типов объединяются, чтобы получить более полное представление о том, что создается на выходе. Это исследовано в статье 2023 года. «Метатрансформатор: унифицированная основа для мультимодального обучения», Июань Чжан и его коллеги из Мультимедийной лаборатории Китайского университета Гонконга и OpenGVLab в Шанхайской лаборатории искусственного интеллекта.

Китайский университет Гонконга/Шанхайская лаборатория искусственного интеллекта

Создание сборника рассказов из нескольких режимов

Непосредственным результатом мультимодальности будет просто обогащение результатов такой вещи, как ChatGPT, способами, выходящими далеко за рамки «демо-режима». Детский сборник рассказов, книга, в которой текстовые отрывки сочетаются с картинками, иллюстрирующими текст, является одним из непосредственных примеров. Комбинируя атрибуты языка и изображения, виды изображений, создаваемых в процессе распространения, можно более тонко контролировать от изображения к изображению.

Как объяснили ученые из Google и ведущий автор Ван-Дуо Курт Ма из Университета Виктории в Веллингтоне в Новой Зеландии, процесс, известный как направленная диффузия может перемещать кошку — или замок, или птицу — через различные сцены, создавая серию изображений, которые обеспечивают не только больший контроль, но и переходы, как в повествовании.

Техника, называемая направленной диффузией, позволяет перемещать объект — кошку, замок, птицу — через различные сцен, создавая серию изображений, которые обеспечивают не только больший контроль, но и переходы, как в повествование. Подробно это описано в документе 2023 года. «Направленное распространение: прямой контроль размещения объектов посредством управления вниманием» Ван-Дуо Курт Ма и его коллеги из Университета Виктории в Веллингтоне и Google Research.

Университет Виктории в Веллингтоне / Исследования Google

Аналогичным образом, Хёнхо Чжон из Корейского университета Сонгюнкван вместе с учеными Корейского института повышения квалификации из науки и технологий, придумали еще один вариант диффузии — скрытую диффузию, которую они подробно описали в а недавняя статья. Они утверждают, что это дает доступ к гораздо большему количеству деталей изображения с низким уровнем детализации.

Результатом является возможность создавать сборники рассказов, в которых персонаж перемещается по разным сценариям, изображение за изображением, например, добавляя ручки к текстовой подсказке для набора номера в разных сценариях. Согласованность объекта на изображениях — это то, что они называют «итеративной когерентной инъекцией идентичности».

Техника, называемая скрытой диффузией, расширяет возможности создания изображений с помощью того, что ее изобретатели называют «инъекцией идентичности», чтобы запрограммировать движение персонажа с помощью изображений из сборника рассказов.

Университет Сунгюнкван

Как и в случае с синтезом белка в лаборатории Бейкера, применение смешанной модальности может стать довольно диким. Другой недавняя статья Чэньюй Тан и его коллеги из инженерного факультета Кембриджского университета предлагают создать «цифрового двойника» — компьютерную симуляцию человеческого тела, все органы и ткани визуализируются, а также потоки крови и т. д. изображаются путем объединения данных от нескольких медицинских инструментов в одном и том же процессе, что и в стабильном состоянии. диффузия.

«Как датчики движения (такие как акселерометры, датчики ЭМГ и т. д.), так и биохимические датчики (для обнаружения биомаркеры, соответствующие заболеванию, такие как датчики слюны, датчики пота и т. д.), могут давать конкретные результаты для пациента», написали авторы. «Хотя эти результаты имеют разные закономерности, все они соответствуют одному и тому же заболеванию».

«Цифровой двойник» человеческого тела может быть создан путем объединения данных от нескольких медицинских инструментов в том же процессе, что и стабильная диффузия. Диаграмма представляет собой «пятиуровневую дорожную карту Body DT [цифрового двойника]», как показано в документе 2023 года. «Цифровой двойник человеческого тела: генеральный план» Чэньюй Тан и его коллеги из Кембриджского университета.

Кембриджский университет

Специальные модальные мастера

По словам Мостаке из Stability AI, то, как будут сочетаться эти методы, будет столь же важно, как и какие именно. «Последним этапом будет композиция, поскольку эти строительные блоки, которые мы создаем, помещаются в соответствующее программное обеспечение, которое ИИ-прежде всего, который переосмысливает все это создание, потребление и эти процессы с помощью этих крутых новых инструментов», — он сказал.

По его словам, хотя могут быть задействованы некоторые массивные модели, такие как PaLM LLM от Google или GPT-4, в результате оркестровки компонентов произойдет много смешанных модальностей. «Как объединить модели действительно интересными способами и заставить много разных моделей работать вместе для достижения результатов, которые вы хотите действительно увеличить?»

По его словам, хотя PaLM и GPT-4 могут быть мощными, существует достаточно доказательств того, что «гораздо более специализированные модели могут превзойти» самые крупные программы. В результате: «Я думаю, у нас будет много специализированных моделей, разных модальностей», — сказал он, — это процесс «деконструкции» технологии. на соответствующие роли, «а затем несколько мультимодальных моделей, которые могут делать все, и они вызываются в подходящее время для соответствующего вещь."

Робототехника — следующий рубеж искусственного интеллекта

Смешение модальностей примечательно для сферы воплощенного ИИ – в форме робототехники.

Сергей Левин, доцент кафедры электротехники Университета Калифорнийский университет в Беркли рассказал ZDNET, что, что касается генеративного искусственного интеллекта, системы в робототехнике имеют Значимая роль.

«Мультимодальные вещи весьма интересны», — добавил Левин, сотрудник исследовательского центра искусственного интеллекта Университета Беркли, который также работает с командами Google.

По его словам, обрабатывая изображения и текст, мультимодальная нейронная сеть уже способна выдавать «команды робота высокого уровня». Код, который обычно пишет робототехник для инструктирования робота, может быть «по существу полностью автоматизирован», сказал Левин.

«Что нам нужно, так это возможность быстро и легко командовать роботами», — сказал Левин. «Преодоление этого разрыва — это то, в чем языковые модели преуспеют».

Также: RT-2 от DeepMind превращает управление роботом в чат с искусственным интеллектом

Левин помог контролировать раннюю демонстрацию в Google, которая была опубликовано недавно, названный PaLM-E, который исследователи Google называют «воплощенной мультимодальной языковой моделью». Робот способен выполнять ряд инструкций, например «принеси мне рисовые чипсы из ящика», которые языковая модель разбивает на атомарные инструкции, такие как «подойди к ящику», «открой ящик», «возьми пакетик с зелеными рисовыми чипсами» и т. д. и т. д.

Последующая работа подразделения DeepMind Google под названием RT-2. основан на PaLM-E добавив возможность генерировать пространственные координаты для робота. Левин называет эту работу «значительным достижением».

Как и в случае с концепцией стереогноза, Левин утверждает, что увеличение модальностей может привести к обогащению модели мира и тем самым к появлению некоторых базовых способностей к рассуждению.

Также: RT-2 от DeepMind превращает управление роботом в чат с искусственным интеллектом

Если большие языковые модели и модели диффузии смогут объединить процесс «взятия предыдущих изображений и прогнозирования [текстовых] описаний, а также получения предыдущих описаний и предсказаний изображений, — сказал Левин, — теперь они могут начать, своего рода, углубляться в детали того, как они понимают мир."

Примитивным примером мировых знаний является робот-бармен, над которым работал Левайн, который проверяет у людей удостоверения личности. «Вы действительно можете сказать языковую модель, напишите мне какой-нибудь код для робота-бармена, и для этого он генерирует некоторую логику, и если кто-то заказывает чашку воды, это не алкогольный напиток», и поэтому не требует удостоверения личности. проверять.

Нам понадобится гораздо больше памяти

Сочетание робототехники и мультимодальности имеет более глубокие последствия, поскольку резко увеличивает потребность в данных. Сегодняшний генеративный ИИ, такой как ChatGPT, не имеет явной памяти. Он работает только с последним набором данных, которые вы набрали в командной строке, и через некоторое время забывает то, что было давно.

Использование смешанной модальности, включающей гораздо больше выборок данных, заставит генеративный ИИ разработать что-то вроде настоящего Память данных. «Когда мы начинаем переходить к мультимодальным моделям, это становится гораздо более требовательным к контексту», — сказал Левин. «потому что текущий прототип этой модели принимает одно изображение, но, возможно, вы захотите дать ему тысячу изображений.

«Может быть, вы хотите показать ему экскурсию по вашему дому, чтобы он знал, где все находится в вашем доме, и чтобы, когда вы попросите его принести Если у вас есть ключи от машины, он может как бы изучить свою память и выяснить, где находятся ключи от машины — теперь для этого требуется гораздо более длинный контекст».

Также: Microsoft и TikTok дают генеративному ИИ своего рода память

Видеоданные могут иметь столь же, если не более важное значение, позволяя роботу построить портрет мира. По словам Левайна, эти видеоролики в сочетании с текстом, облаками точек и другими модальностями становятся симулятором, с помощью которого робот может построить модель мира. «Если эти модели, по сути, дадут возможность изучать симуляторы с очень высокой точностью, это может иметь очень существенное влияние в будущем».

Расширение до тысяч изображений и, возможно, часов видео, возможно, гигабайтов облаков точек и 3D-данных для обучения мультимодальные программы, то есть ChatGPT и остальным придется резко расширить доступ к данным через так называемую банк памяти.

Многие усилия предпринимаются «дополнить» языковые модели так называемым поиском из базы данных. Это можно увидеть в программе CM3Leon компании Meta, которая позволяет программе погружаться в базу данных и находить нужные изображения.

Такие усилия, как технология «Гиена» в Стэнфордском университете и канадском институте MILA пытаются значительно расширить возможности ввода в командную строку программы, чтобы можно было вводить любой объем данных в любой модальности.

Также: Эта новая технология может уничтожить GPT-4 и все ему подобное.

Это означает, что наряду со смешанной модальностью преемники ChatGPT смогут манипулировать гораздо более широкими возможностями. контекст — целые книги, серии статей, фильмы и записи о физических структурах в трёх размеры. Это также означает, что контекст любой задачи может стать гораздо более адаптированным к приобретенным знаниям отдельного человека или группы. Мостак сказал, что такие модели дадут не только общие знания о GPT-4, но и конкретные знания, а также знания вашей команды, вашей компании и за ее пределами.

«Я думаю, что это станет большим открытием, когда в следующем году он станет корпоративным», — сказал Мостак, имея в виду неизбежное массовое внедрение генеративного искусственного интеллекта в корпоративных условиях.

«Система самоконтролируемой памяти» владельца TikTok, ByteDance, может получить доступ к банку данных, содержащему сотни ходов диалога, и тысячи символов, чтобы предоставить любой языковой модели возможности, превосходящие возможности ChatGPT в ответах на вопросы о прошлом. события. Это показано в документе 2023 года, «Раскрытие возможностей ввода бесконечной длины для крупномасштабных языковых моделей с самоуправляемой системой памяти», Синьниан Лян и его коллеги из ByteDance AI Lab.

Лаборатория искусственного интеллекта ByteDance

Непрерывное обучение достижимо

По мере того, как мультимодальность распространяется на видео, аудио, облака точек и все остальное, Келлер, генеральный директор компании Tenstorrent, производящей чипы искусственного интеллекта, считает, что более продвинутые генеративные модели, особенно те, которые исходят от сообщества разработчиков программного обеспечения с открытым исходным кодом, приведут к глубоким изменениям в различии между обучением и обучением. вывод.

Обучение — это когда нейронная сеть впервые разрабатывается. Это чрезвычайно дорогостоящий научный процесс, в котором используются сотни или даже тысячи графических процессоров. Вывод — это когда готовая сеть используется для прогнозирования для конечных пользователей, гораздо менее требовательный процесс, который широко развертывается в качестве облачного сервиса.

Но «генеративные модели на самом деле используют довольно много функций, полученных в результате обучения умозаключению», — сказал Келлер. По его словам, такая программа, как Stable Diffusion от Stability AI, для генерации изображений обновляет свою нейронную сеть во время вывода. «Он многопроходный: у него есть обратный проход», а также типичный прямой процесс прогнозирования, так что «он выглядит так, как будто он находится в режиме обучения».

По этой причине «я думаю, что движок искусственного интеллекта будущего… будет иметь довольно разнообразный набор возможностей, которые не будут похожи на логический вывод и обучение», а скорее на слияние этих двух.

Если Келлер прав, будущие генеративные модели могут стать началом реализации давней цели непрерывного обучения машинному обучению. иногда называемое онлайн-обучением, при котором генеративная нейронная сеть не фиксируется после обучения, а постоянно развивается по мере ее использования людьми. более.

«Я думаю, что так и будет», — согласился Мостак из Stability AI. «Непрерывное обучение будет иметь ключевое значение, потому что то, как мы это делаем сейчас, обучая [модель] одному и тому же снова и снова, нецелесообразно».

По словам Мостака, уже сейчас такие вещи, как «Dream Booth» от Stability AI, позволяющий создавать индивидуальные версии изображения, выходят за рамки жесткого представления о переобучении модели языка-изображения чему-либо более жидкий. Он сказал, что они станут личными аватарами, а в течение следующих нескольких месяцев — своего рода гипер-киоском мечты, который позволяет персонализировать все ваши изображения в реальном времени.

«Вот почему непрерывное обучение будет так важно: обеспечить этот непрерывный процесс, чтобы он развивался».

Искусственный интеллект

Генеративный ИИ намного превзойдет возможности ChatGPT. Вот все о том, как развиваются технологии

Новая функция просмотра веб-страниц ChatGPT — большое разочарование. Вместо этого используйте этот плагин

Что такое Амазонка? 4 способа, которыми это может помочь компаниям использовать генеративные инструменты искусственного интеллекта

Может ли генеративный ИИ решить величайшую нерешённую проблему информатики?

Генеративный ИИ намного превзойдет возможности ChatGPT. Вот все о том, как развиваются технологии
Новая функция просмотра веб-страниц ChatGPT — большое разочарование. Вместо этого используйте этот плагин
Что такое Амазонка? 4 способа, которыми это может помочь компаниям использовать генеративные инструменты искусственного интеллекта
Может ли генеративный ИИ решить величайшую нерешённую проблему информатики?