Microsoft a Nvidia vytvárajú 105-vrstvový jazykový model s 530 miliardami parametrov, ktorý potrebuje 280 GPU A100, ale je stále neobjektívny

  • Sep 05, 2023

Technologickí giganti prišli s „doposiaľ vycvičeným najvýkonnejším monolitickým transformátorovým jazykovým modelom“, ktorý však stále trpí zaujatosťou.

megatron-turing-nlg-model-size-graph.jpg
Obrázok: Microsoft

Nvidia a Microsoft sa spojili, aby vytvorili model Megatron-Turing Natural Language Generation, o ktorom duo tvrdí, že je to „najvýkonnejší model monolitického transformačného jazyka, ktorý bol doteraz vycvičený“.

Model AI má 105 vrstiev, 530 miliárd parametrov a funguje ďalej robustný superpočítačový hardvér ako Selene.

Pre porovnanie, vychvaľovaný GPT-3 má 175 miliárd parametrov.

„Každá modelová replika zahŕňa 280 grafických procesorov NVIDIA A100 s 8-cestným delením tenzorov v rámci uzla a 35-cestným paralelizmom naprieč uzlami,“ uviedla dvojica v správe. príspevok v blogu.

Model bol trénovaný na 15 súboroch údajov, ktoré obsahovali 339 miliárd tokenov, a bol schopný ukázať, ako väčšie modely potrebujú menej tréningu, aby dobre fungovali.

Potreba operovať s jazykmi a ukážkami z reálneho sveta však znamenala an sa znova objavil starý problém s AI: Zaujatosť.

„Zatiaľ čo obrovské jazykové modely napredujú v oblasti tvorby jazykov, trpia aj problémami, ako sú zaujatosť a toxicita,“ uviedlo duo.

"Naše pozorovania s MT-NLG sú také, že model preberá stereotypy a predsudky z údajov, na ktorých je trénovaný. Microsoft a Nvidia sa zaviazali pracovať na riešení tohto problému.

"Naše pozorovania s MT-NLG sú také, že model preberá stereotypy a predsudky z údajov, na ktorých je trénovaný. Microsoft a Nvidia sa zaviazali pracovať na riešení tohto problému."

Nie je to tak dávno, čo mal Microsoft svoju chatbot Tay sa stal plným nacistom v priebehu niekoľkých hodín interakciou na internete.

Súvisiace pokrytie

  • Aplikácia Natural poháňaná AI ponúka nové rozhranie pre spotrebiteľské transakcie
  • Pozor, GPT-3, prichádza jazykový model AI21 'Jurassic'
  • OpenAI navrhuje open-source jazyk Triton ako alternatívu k CUDA od Nvidie
  • Ako AI a 5G poháňajú ďalšiu vlnu inovácií
  • Priemysel umelej inteligencie, posadnutý rýchlosťou, nerád zvažuje náklady na energiu v najnovšom benchmarku MLPerf
  • OpenAI hovorí 'Hello, World!' so súkromnou beta verziou nástroja na generovanie kódu Codex