Огромният многоезичен преводачески опус на Мета все още се натъква на гръцки, арменски и оромо

  • Sep 03, 2023

Компанията майка на Facebook разкрива най-новите си усилия в машинния превод.

meta-2022-nllb-splash-graphic

„Широкодостъпните системи за машинен превод поддържат около 130 езика; нашата цел е да увеличим този брой до 200“, пишат авторите като изявление на своята мисия.

Екипът на NLLB и др. 2022

Meta Properties, собственик на Facebook, Instagram и WhatsApp, в сряда разкри най-новото си усилие в машинния превод, опус от 190 страници, описващ как е използвал дълбоко учене на форми на невронни мрежи за удвояване на най-съвременния превод за езици на 202 езика, много от тях така наречените езици с „нисък ресурс“, като западно централен оромо, език на щата Оромия в Етиопия, тамашек, говорен в Алжир и няколко други части на Северна Африка, и варай, езикът на народа варай от Филипините.

Докладът на екип от изследователи в Meta, заедно с учени от UC Berkeley и Johns Hopkins, „No Language Left Behind: Scaling Human-Centered Machine Translation“, е публикуван на Уеб сайтът на Facebook за изследване на AI, заедно с a придружаваща публикация в блог

, и двете трябва да бъдат задължителни за четене за богатите подробности по въпроса.

„Широкодостъпните системи за машинен превод поддържат около 130 езика; нашата цел е да увеличим този брой до 200“, пишат те като изявление на мисията си.

За прост изглед вижте ZDNetТова е на Стефани Кондън прегледен доклад. Както разказва Стефани, Meta предоставя своите набори от данни и код на модела на невронната мрежа с отворен код на GitHub, а също и предлагане на награди от 200 000 долара за външни употреби на технологията. Компанията си партнира със собствениците на Wikipedia, Wikimedia Foundation, за да предостави подобрен превод на статии в Wikipedia.

Също: Най-новият AI модел на Meta ще направи достъпно съдържание на стотици езици

Изненадата, заровена в доклада, е, че въпреки измеримото подобрение в цялата област на по-голяма група езици, както е посочено от автоматичните системи за оценяване, когато става въпрос на човешката оценка на качеството на преводите, невронната мрежа на изследователите, известна нежно като „Няма оставен език зад двеста“ или NLLB-200, не успява да покаже много подобрение в редица езикови случаи, включително не само езици с ниски ресурси като оромо, но и езици с преобладаващ преводен материал като гръцки и исландски.

Урокът е, че въпреки способността да се извеждат средни резултати, тънкостите на създаването на преводи са смислен, поне доколкото човек вижда превода, не може просто да бъде автоматизиран. Авторите откриха къде са направили числената си мрежа по-голяма, което би трябвало да означава по-мощна, те всъщност откриха намаляваща възвръщаемост при превод на изречения от английски на друг език и някои отрицателни ефекти при превод между неанглийски изречения.

Екипът предприе много стъпки за подобряване на превода, включително интервюиране на стотици носители на езика езици с ниски ресурси — интервютата продължават средно час и половина — за оценка на нуждите и опасенията на високоговорители. (Има широка дискусия относно етиката на такава теренна работа и етиката на включването на езици с ниски ресурси, които биха могли да бъдат затрупани от поток от внимание; тази дискусия в статията заслужава специално внимание.) 

Също: Мащабната работа на Google по превод на езици идентифицира къде бърка

Но сърцето на работата е, че са положили големи усилия, за да съберат нов набор от данни, за да обучат своята невронна мрежа, дори изобретявайки нови методи — които предлагат като изходен код — за извършване на езикова идентификация на уеб материали, за идентифициране кои тестове принадлежат към a език.

Те използват автоматизирани методи за съставяне на набор от данни от двуезични двойки изречения за всички техни целеви езици. Наборът от данни има някои доста вълнуващи статистики:

Общо има 1220 езикови двойки или 2440 направления (xx-yy и yy-xx) за обучение. Тези 2440 насоки възлизат на общо над 18 милиарда двойки изречения […] по-голямата част от двойките имат по-малко от 1 милион изречения и са насоки с малко ресурси.

Авторите използват тези данни, за да обучат невронната мрежа NLLB, но също така използват ръчно изработен набор от данни за преводи, създадени от човешки преводачи. Човешкият елемент, наборът от данни "NLLB-SEED", се оказва доста важен. „Въпреки значително по-големия размер на публично достъпните данни за обучение, обучението по NLLB-Seed води до значително по-висока средна производителност“, пишат те.

Усилията на NLLB включват множество стъпки, като се започне с търсене на публично достъпни двупосочни текстове на езикови двойки, идентифициране на езиците чрез автоматизирани методи, създаване на гигантски набор от данни за обучение, обучение на невронната мрежа NLLB-200 и след това оценка на програмата на нов набор от данни за бенчмарк, създаден с човешки преводачи, ФЛОРЕС-200.

Екипът на NLLB и др. 2022

Обърнете внимание, че екипът на Meta не е сам в този вид огромни усилия за набор от данни. Google учени през май разкри подобен вид мащабно многоезично усилие, където успяха да претърсят в мрежата над милион изречения на повече от 200 езика и над 400 000 изречения на повече от 400 езика.

Тези набори от данни за обучение се използват за изграждане на тяхната невронна мрежа, NLLB-200. Те започват с вездесъщия езиков модел Transformer от Google, който е в основата на повечето езикови преводи днес.

Те използват Transformer с 54 милиарда параметри, което не е огромно (някои режими се доближават до трилион параметри), но правят ключова модификация.

Между отделните слоеве на мрежата, известни като "глави на вниманието", авторите преплитат условни клонове за изпълнение, известни като рядко затворена смес от експорти. По принцип експертите могат да изберат да изключат или включат някои от тези 54 милиарда параметри, когато правят прогнози, така че невронната мрежа да може да променя природата си с всяка задача.

„Моделите с рядко затворена смес от експерти (MoE) са вид условни изчислителни модели, които активират подмножество от параметри на модела на вход, за разлика от плътен модели, които активират всички параметри на модела на вход", обясняват те. Стойността на Министерството на образованието, обясняват те, е, че те „отключват значителен представителен капацитет, като същевременно поддържат същия извод и ефективност на обучението по отношение на FLOP [операции с плаваща запетая в секунда] в сравнение с гъстото ядро архитектура."

Мрежата NLLB-200, вдясно, вмъква "смес от експерти" елементи между стандартните блокове за внимание на модела Transformer, вляво.

Екипът на NLLB и др. 2022

(Авторите дори намериха сладко място за този подход: „Вмъкване на MoE [смес от експерти] слоеве на интервал от всеки 4 трансформаторни блока показва най-добра производителност, по-специално подобряване на производителността при много нисък ресурс настройки.")

Заедно с набора за обучение, авторите разработват нов набор от сравнителни данни, FLORES-200, висококачествен набор от сравнителни данни за много към много, който удвоява езиковото покритие от предишно усилие, известно като Flores-101." Наборът от данни е "създаден с професионални човешки преводачи, които превеждат изходния набор от данни на FLORES в целевия езици и отделна група от независими рецензенти на преводи, които извършват оценки на качеството на човешките преводи и предоставят обратна връзка за превода на преводачи."

След това тестват как се справя NLLB на FLORES-200.

Резултатите, както е споменато в обобщената част по-горе, представляват подобрение от 44% в сравнение с предишни програми за превод, измерено чрез общи автоматизирани резултати като BLUE и chrF. Те правят обширни сравнения между различни версии на тези резултати.

В допълнение към автоматизираните резултати, авторите накараха хора да четат преводи и да ги оценяват, и там се появяват някои пукнатини. Използване на протокол предложен за първи път през 2012 г от Eneko Agirre и колеги, наречено „Семантично текстово сходство“, екипът на Meta използва вариант, наречен „XSTS“, който те представиха в отделен документ през май.

XSTS моли хората да оценят преводите по скала от 1 до 5, като 1 е най-лошият, двете изречения имат нищо общо един с друг, а 5 е най-добрият, те почти казват едно и също нещо според човек.

„Накратко, XSTS е протокол за човешка оценка, който се фокусира върху запазването на значението много повече от плавността“, пишат те.

„За езиците с ниски ресурси преводите обикновено са с по-слабо качество и затова се фокусираме много повече върху използваемите (запазващи значението) преводи, дори и да не са напълно гладки.“

Общият резултат не е лош, когато се сравнява как се справя базовият трансформатор за преводи навътре и навън на английски и някакъв друг език, но всъщност виждат по-лоши резултати на една двойка, от английски на Гръцки:

Като цяло NLLB-200 постига среден XSTS резултат от 4,15 за посоки извън английски и 3,75 за посоки на английски. В сравнение с базовия плътен модел, производителността на NLLB-200 е по-добра. Някои посоки имат значителна разлика, като rus_Cyrl-tgk_Cyrl [от руски към тагалог] и eng_Latn-gla_Latn [от английски към шотландски галски]. Също така забелязваме, че NLLB-200 се представя по-добре от базовата линия на всички тествани направления с единственото изключение eng_Latn-ell_Grek [от английски на гръцки], където представянето е малко по-лошо.

Но копайте малко по-дълбоко и ще се появят повече пукнатини. Такова гигантско усилие е статистическо начинание и при всяко статистическо начинание разпределението на резултатите е по-показателно от средната стойност или медианата.

На многобройни езикови двойки, като например арменски на английски, западно централен оромо на английски и амхарски, най-широко използваният език в Етиопия, преведен на арменски и френски, преведен на уолоф, родния език на народа уолоф в Сенегал, и преведен на хинди на чатисгархи, основен език в едноименния щат в Централна Индия, те откриват, че малко или никакво подобрение спрямо изходното ниво модел.

Пукнатини се появяват, когато рецензентите открият, че някои езикови двойки се възползват много малко или изобщо не се възползват от иновациите на NLLB-200, включително езикови двойки като арменски, преведен на английски и амхарски, най-използваният език в Етиопия, преведен на арменски. Английският, преведен на гръцки, се оказа дори по-лош от базовата линия.

Екипът на NLLB и др. 2022

Тези изолирани примери, които се появяват сред успехите - голямо подобрение на руския, преведен на тагалог, доминиращ език във Филипините, например - сочат към някаква по-дълбока истина, която учените отразяват На.

Без да тълкуват човешките оценки, авторите разглеждат случаи на неуспех в автоматизираните резултати на BLUE и chrF и предполагат някои ограничения или недостатъци на своя подход.

Или, пишат те, езиковите двойки с много ресурси, включително гръцки, не се възползват от добавянето на смесения подход от експерти, или тяхната програма започва да става толкова мощни, те попадат в „свръхнапасване“, където невронната мрежа просто е запомнила някои примери, без да формира продуктивно представяне – което означава, че не е „научила“ абсолютно нищо, наистина ли.

Както се изразяват авторите,

Двойките с висок ресурс вероятно ще имат достатъчно капацитет в плътния модел с 1,3 милиарда [параметър] (предвид размера и естеството на нашия набор от данни за аблация) и няма да се възползват толкова от допълнителен капацитет на моделите на MoE [и] Тъй като увеличаваме изчислителните разходи за актуализация, склонността двойките с ниски или много ниски ресурси да претоварват се увеличава, като по този начин води до намаляване на производителността влошават се.

Авторите предлагат някои стъпки, които могат да бъдат предприети за смекчаване на прекомерното приспособяване, като вид "маскиране" на различни входове и "условно маршрутизиране" в комбинацията от експерти.

Също: Внимавайте, GPT-3, идва моделът на езика „Jurassic“ на AI21

В доклада има толкова много други подробности за различни експериментални настройки, че е невъзможно да се обобщят всички констатации. Достатъчно е да се каже, че авторите се надяват маршрутът с отворен код - и $200 000 - да убедят "общността да разгледаме настоящите практики и да подобрим там, където не успеем, в мисия към целта на северната звезда без останал език."

По-специално, подбраният набор от данни за превод FLORES-200 е скъп за сглобяване с помощта на професионални преводачи. „Разширенията на Flores-200 до още по-малко езици в бъдеще може да са трудни“, отбелязват те.

Като цяло те заключават, че мултидисциплинарният подход ще бъде важен,

Споделянето на NLLB с ​​по-голямата научна и изследователска общност ще позволи на тези с разнообразен опит да допринесат за напредъка на проекта. По много начини съставът на усилията на NLLB говори за централната роля на интердисциплинарността при оформянето на нашата визия. Машинният превод се намира в пресечната точка на технологичното, културното и общественото развитие и следователно изисква учени с различно обучение и гледни точки, за да разберат напълно всеки ъгъл. Нашата надежда е в бъдещите повторения, NLLB продължава да се разширява, за да включва учени от различни области недостатъчно представени в света на машинния превод и AI, особено тези от хуманитарните и социалните науки научен фон. По-важното е, че се надяваме, че екипите, разработващи такива инициативи, ще идват от широк спектър от расови, полови и културни идентичности, подобно на общностите, чийто живот се стремим да подобрим.