Nvidia изяснява твърдението за мащаба на Megatron-Turing

  • Sep 03, 2023

Значението на Megatron-Turing 530B е, че това е най-големият модел за обработка на естествен език, който е „обучен за конвергенция“.

Може би сте забелязали, че миналата седмица Microsoft и Nvidia обявиха, че са обучили „най-големия и най-мощен генеративен езиков модел в света“, известен като „Megatron-Turing NLG 530B“, като ZDNet's Крис Дъкет докладвани.

Моделът в този случай е програма за невронна мрежа, базирана на подхода „Трансформатор“, който стана широко популярен в дълбокото обучение. Megatron-Turing е в състояние да създаде реалистично изглеждащ текст и също така да изпълнява различни езикови тестове, като например довършване на изречения.

Новината беше донякъде объркваща, тъй като Microsoft вече беше обявила програма преди година, която изглеждаше по-голяма и по-мощна. Докато Megatron-Turing NLG 530B използва 530 милиарда невронни „тегла“ или параметри, за да състави езиковия си модел, това, което е известно като „1T“, има един трилион параметри.

на Microsoft блог пост обяснявайки свързания с Megatron-Turing

репото Github поддържан от Джаред Каспър от Nvidia, където са изброени различните различни езикови модели, заедно със статистика. Тези статистики показват, че не само е 1T по-голям от Megatron-Turing NLG 530B, но има и по-високи числа за всеки производителност, включително пиковите tera-FLOPs или трилиони операции с плаваща запетая в секунда, които са били постигнати.

И така, как може Megatron-Turing NLG 530B да бъде най-големият, ако 1T е по-голям по всяка мярка? За да разрешите въпроса, ZDNet разговаря с Пареш Харя от Nvidia, старши директор продуктов маркетинг и управление.

Ключът е, че 1T никога не е бил „обучен за конвергенция“, термин, който означава, че моделът е напълно разработен и сега може да се използва за извършване на изводи, етапът, на който се правят прогнози. Вместо това, 1T премина през ограничен брой тренировки, каза Kharya, известни като "епохи", които не водят до сближаване.

Както Kharya обяснява, "Обучението на големи модели за конвергенция отнема седмици и дори месеци в зависимост от размера на използвания суперкомпютър." Таблицата в GitHub страницата изброява това, което се нарича "проучвания за мащабиране", които създават мярка за това какъв вид ефективност може да се получи дори без обучение на модел конвергенция.

Такива изследвания „могат да се направят чрез частични тренировки за няколко минути в различен мащаб и размери на модела“, каза Харя ZDNet.

megatron-turing-nlg-model-size-graph.jpg

Програмата за обработка на естествен език Megatron-Turing NLG 530B, разработена от Nvidia и Microsoft, има 530 милиарда параметри. Компаниите казват, че това е най-голямата програма за естествен език, „обучена за конвергенция“, което означава, че нейните невронни тегла или параметри са напълно разработени, така че да могат да изпълняват задачи за извод.

Изображение: Microsoft

Цифрите за различни показатели, като „постигнати teraFLOPs“ са „реални точки от данни“, каза Kharya, „измерени чрез провеждане на частични тренировки“.

Смисълът на частичното тренировъчно бягане е да се приближи мярката "мили на галон", както бихте направили с кола, каза Kharya, за да могат клиентите да знаят какво е необходимо за обучение и внедряване на определен модел, преди да се ангажират да го направят така.

„Различните клиенти използват различни модели и те трябва да преценят, ако трябва да предоставят размер на модела онлайн на платформа на Nvidia, колко изчислителни ресурси ще трябва да инвестират," обясни Kharya, "или ако разполагат с определено количество изчислителни ресурси, колко време ще им отнеме да ги обучат модели."

Точките за данни във FLOPs могат да кажат на клиента за колко време ще му е необходим облачен екземпляр или колко голям екземпляр ще му е необходим за определено време за обучение.

Всичко това означава, че Megatron-Turing NLG 530B е най-големият модел, чиито невронни тегла всъщност са сега достатъчно развит, за да може да изпълнява бенчмарк тестове, от които Nvidia и Microsoft предлагат няколко резултати.

Значението на това постижение, каза Kharya, е способността да се внедри такъв голям модел в паралелна инфраструктура.

Различни модели на невронни мрежи, разработени от Microsoft и Nvidia, включително Megatron-Turing NLG 530B и "1T", трилионен мрежов модел. Фигурите са от различни количества тренировъчни "епохи".

Nvidia

„Тъй като тези модели стават все по-големи и по-големи, те могат да нарушат паметта на един GPU, а понякога дори не се побират в паметта на един сървър“, отбеляза Kharya.

Използване на софтуера Megatron за разделяне на модели между различни GPU и между различни сървъри и „използване на двете данни паралелизъм и паралелизъм на модела" и по-интелигентна работа в мрежа, "можете да постигнете много, много висока ефективност", той казах.

„Това означава над 50% от теоретичната пикова производителност на GPU“, каза Kharya. „Това е много, много голям брой, което означава, че постигате стотици teraFLOP за всеки GPU.“

Конкурентите на Nvidia като стартиращата компания Cerebras Systems започнаха да обсъждат теоретичната перспектива за обучение на модели с множество трилиони параметри към конвергенция, без всъщност да показва такова постижение.

Запитан кога Nvidia и Microsoft ще се обучават за конвергенция на действителен модел от един трилион, Kharya възрази. „Всички в индустрията работят върху тези наистина гигантски модели и това ще се случи“, каза той. "Но от кого и кога, добре, изчакайте и гледайте."

Megatron-Turing NLG 530B не е комерсиален продукт, това е изследователски проект между Nvidia и Microsoft. Nvidia обаче има страница от каталог на неговия уеб сайт, където можете да получите десетки модели, предоставени в контейнери, готови за работа, включително базирани на Transformer езикови модели и други видове невронни мрежи като тези за компютър визия.

Моделите са „предварително обучени“, готови да бъдат използвани за изводи, но някои клиенти също така подобряват моделите допълнително с допълнителни обучителни работи на техните собствени данни, каза Kharya.