Мащабната работа на Google по превод на езици идентифицира къде бърка

  • Sep 03, 2023

За езици с ниски ресурси, като калаалисут и фула, големи усилия да се открие какво се губи при превода.

c201c7dd-7cfe-44db-8c07-bb63391efdce.png

Резултати за езици при превод от английски и обратно на английски, свързани с това колко примерни изречения има езикът. Към дясната страна по-големият брой примерни изречения води до по-добри резултати. Има отклонения, като английски на кирилица, който има много малко примери, но се превежда добре.

Бапна и др., 2022 г

Какво правите, след като сте събрали образци за писане за хиляди езика с цел превод и хората все още оценяват получените преводи като неуспешни?

Разгледайте провалите, очевидно.

И това е интересната работа, която учените от Google за машинно обучение разказаха този месец в огромен мащаб изследователска статия за многоезичен превод, „Изграждане на системи за машинен превод за следващите хиляди езици," публикувано в Arxiv.

„Въпреки огромния напредък в машинния превод с ниски ресурси, броят на езиците, за които са изградени широко достъпни системи за MT с общ домейн, се увеличи е ограничен до около 100, което е малка част от над 7000+ езика, които се говорят в света днес“, пишат водещият автор Анкур Бапна и колеги.

Документът описва проект за създаване на набор от данни на над хиляда езика, включително т.нар езици с ниски ресурси, тези, които имат много малко документи, които да се използват като примери за машина за обучение изучаване на.

Също: DeepMind: Защо AI е толкова добър в езика? Това е нещо в самия език

Въпреки че е лесно да се съберат милиарди примерни изречения за английски и над сто милиона примерни изречения за исландски, например, език kalaallisut, говорен от около 56 000 души в Гренландия, има по-малко от милион запазени примерни изречения, лесно достъпни онлайн текстове; а малайският език Kelantan-Pattani, говорен от около пет милиона души в Малайзия и Тайланд, има лесно достъпни по-малко от 10 000 примерни изречения.

За да съставят набор от данни за машинен превод за такива езици с нисък ресурс, Бапна и две дузини колеги първо създадоха инструмент за претърсване в Интернет и идентифициране на текстове на езици с нисък ресурс. Авторите използват редица техники за машинно обучение, за да разширят система, наречена LangID, която включва техники за идентифициране дали даден уеб текст принадлежи на даден език. Това е доста сложен процес на елиминиране на фалшиви положителни резултати.

След като претърсиха мрежата с техники на LangID, авторите успяха да съберат „набор от данни с корпуси за 1503 езика с ниски ресурси, вариращи по размер от едно изречение (Mape) до 83 милиона изречения (Sabah Malay).“ 

Учените свеждат този списък до 1057 езика, „където възстановихме повече от 25 000 едноезични изречения (преди дедупликация)" и комбинира тази група проби с много по-големи данни за 83 "езика с голям ресурс", като напр. Английски.

Също: AI: Моделът не е в данните, той е в машината

След това тестваха своя набор от данни, като проведоха експерименти за превод между езиците в този набор. Те използваха различни версии на вездесъщата невронна мрежа Transformer за езиково моделиране. За да тестват ефективността на преводите, авторите се съсредоточиха върху превода на и от английски с 38 езика, за които получиха примерни верни преводи, включително kalaallisut 

Точно там идва най-интересното. Авторите помолиха рецензенти, които са носители на езици с ниски ресурси, да оценят качеството на преводи за 28 езика по скала от нула до шест, като нула означава „глупости или грешен език“, а шест, "перфектен".

Също: Вавилонската кула с отворен код на Facebook, клингонски не се поддържа

Резултатите не са големи. От 28 езика, преведени от английски, 13 са оценени под 4 по скалата по отношение на качеството на превода. Това би означавало, че почти половината от целевите преводи на английски са посредствени.

Авторите имат завладяваща дискусия, започваща на страница 23, относно това, което изглежда се е объркало в тези преводи със слаби оценки.

„Най-големият извод е, че автоматичните показатели надценяват ефективността на сродни диалекти“, пишат те, имайки предвид оценките, които машината присвоява на преводи, като например широко използвания резултат BLEU, са склонни да дават кредит, когато невронната мрежа просто превежда на грешен език, който е като друг език. Например „нигерийски пиджин (pcm), диалект на английски, имаше много високи резултати за BLEU и CHRF, съответно около 35 и 60. Хората обаче оцениха преводите много сурово, като цели 20% бяха оценени като „глупости/грешен език“, като доверени носители на езика потвърдиха, че преводите са неизползваеми.“

„Какво се случва тук, че моделът се превежда на (повредена версия на) грешен диалект, но достатъчно е близо на ниво n-грам символи", за да може автоматичният бенчмарк да го оцени високо, те наблюдавайте.

„Това е резултат от проблем със замърсяването на данните“, заключават те, „тъй като тези езици са толкова близки до други много по-разпространени езици на уеб […] е много по-вероятно данните за обучение да бъдат смесени или с повредени версии на езика с по-високи ресурси, или с други разновидности."

Примери за преводи с правилни термини в синьо и грешни преводи в жълто. Лявата колона показва кода, на който език се превежда, като се използват стандартните тагове BCP-47.

Бапна и др., 2022 г

Също: Google използва състезанието MLPerf, за да демонстрира ефективността на гигантска версия на езиковия модел BERT

И тогава има това, което авторите наричат ​​„характерни режими на грешки“ в преводите, като „превод на съществителни, които се срещат в контексти, подобни на разпределението в данните за обучение", като например заместването на "сравнително често срещани съществителни като "тигър" с друг вид дума за животни, отбелязват те, "показвайки, че моделът е научил дистрибуционен контекст, в който се среща това съществително, но не успя да получи точните съпоставки от един език на друг с достатъчно подробности в рамките на това категория."

Такъв проблем възниква с „имена на животни, цветове и часове от деня“ и „също беше проблем с прилагателните, но наблюдавахме няколко такива грешки с глаголите. Понякога думите се превеждат в изречения, които могат да се считат за културно аналогични понятия – например превод на „сирене и масло“ в „извара и кисело мляко“ при превод от санскрит."

Също: Най-новата езикова машина на Google връща ударението върху езика

Авторите излагат обширни аргументи за тясна работа с носители на езика:

Подчертаваме, че когато е възможно, е важно да се опитате да изградите отношения с носители на езика и членове на тези общности, а не просто да си взаимодействат с тях като крауд-работници от разстояние. За тази работа авторите достигнаха до членове на колкото се може повече общности, като разговаряха с над 100 членове на тези общности, много от които бяха активни в този проект.

Едно приложение предлага благодарност към дълъг списък от такива носители на езика.

Въпреки цитираните неуспехи, авторите заключават, че работата има забележителни успехи. По-специално, използвайки подхода LangID за претърсване на мрежата, "ние сме в състояние да изградим многоезичен немаркиран текстов набор от данни съдържащ над 1 милион изречения за повече от 200 езика и над 100 хиляди изречения на повече от 400 езици."

И работата с моделите на Transformer ги убеждава, че "е възможно да се изградят висококачествени, практични MT модели за езици с дълга опашка, използвайки подхода, описан в тази работа."