LinkedIn: Машинното обучение е като кислород, но човешкият елемент няма да изчезне скоро

Как работят алгоритмите за данни и машинно обучение, за да контролират емисиите с новини и да разпространяват истории? Колко от това е автоматизирано, колко трябва да можете да разбирате и контролирате и накъде отива всичко? LinkedIn има отговори.

LinkedIn разчита в голяма степен на данни и машинно обучение, за да задвижи работата си, но твърди, че поддържането на хората в течение е от съществено значение. Изображение: LinkedIn

Наскоро LinkedIn преработи своята емисия с новини и пусна нова функция, наречена Trending Storylines. В съчетание с придобиването от Microsoft, това е ход с далечни последици.

Социалните медии и техните емисии с новини започнаха да играят ключова роля в живота ни. До голяма степен те оформят нашите възприятия, начина, по който получаваме информация и се свързваме помежду си и със света като цяло. LinkedIn е професионална мрежа, но нейният размер и амбиция означават, че нейният канал за новини може да бъде изключително важен по свой начин.

Използването на данни, за да предложи на своите потребители подходящо изживяване, е в основата на работата на LinkedIn. Както казва Игор Перишич, директор на LinkedIn, вицепрезидент по инженерството и ръководител на машинното обучение (ML), „машинното обучение е като кислород за организма на LinkedIn“.

Очевидно обаче за LinkedIn казаното за любовта се отнася и за ML: получаваш твърде много, ставаш твърде високо, недостатъчно и ще умреш. Така че възприемането на балансиран и прагматичен подход, като държите човека в течение, е от ключово значение.

Какво е спам?

специално свойство

IoT: Предизвикателството за сигурността

Интернет на нещата създава сериозни нови рискове за сигурността. Разглеждаме възможностите и опасностите.

Прочетете сега

Свързахме се с Перишич, за да обсъдим неговите прозрения относно използването на данни и машинно обучение в LinkedIn. Тъй като никога преди не се бяхме срещали, нашите разговорът започна по доста типичен начин за разбиване на леда - чрез споделяне на информация за хода на нашия ден и нашите места на пребиваване. Може да си мислите, че това няма отношение към нашата тема, но наистина ли е така?

LinkedIn е професионална социална мрежа и ние водим професионален разговор за нея. И все пак тук говорим за Берлин през пролетта. Това професионално ли е? И кой може да съди това? Дали алгоритмите на LinkedIn биха класифицирали това като спам, дали това беше споделено онлайн вместо по телефона?

LinkedIn работи, за да дефинира какво е професионален разговор и как това се отразява в нашите емисии с новини. Много от нас са виждали публикации от типа „кое е следващото число в тази последователност“ там например. За едни са интригуващи, за други са стръв за кликове.

Перишич казва, че повечето от обратната връзка, която са получили от потребителите, показват, че те не смятат това за професионален разговор, така че LinkedIn са решили, че не искат той да затрупва техните емисии с новини.

Ясно е, че има някакво ниво на тълкуване. Съгласно това такова съдържание би било класифицирано като нискокачествено. LinkedIn наскоро направи някои актуализации на захранваната от ML емисия с новини и публикува някои от подробностите. Накратко, LinkedIn използва подход, комбиниращ ML с хора в цикъла, за да класифицира съдържанието по отношение на неговото качество и да го третира по съответния начин.

Стратегията на LinkedIn за борба със спама, силно автоматизирана, но с хора, които все още вземат ключови решения. Изображение: LinkedIn

ML работи като тригер, който оценява съдържанието на два етапа. Първоначално онлайн и близките класификатори на LinkedIn етикетират всяко изображение, текст или публикация с дълга форма, споделена като „спам“, „ниско качество“ или „чисто“ в почти реално време. Тъй като съдържанието събира аудитория, друг набор от класификатори се изпълнява, за да идентифицира споделяния, които е вероятно да станат вирусни и е вероятно да бъдат с по-ниско качество, включвайки и потребителско маркиране.

Когато тези класификатори могат да изведат с висока точност под коя категория попадат акциите, те действат сами, оставяйки акциите, понижавайки ги или ги филтрирайки. Когато класификаторите не могат безопасно да решат, човешките редактори идват на помощ. LinkedIn отбелязва своя човешки екип за етикетиране, управляван от организацията Trust and Safety, като централно звено в усилията за борба със спама.

Решенията, взети от редакторите, които работят с LinkedIn, се изпращат обратно към алгоритмите за ML, за да ги подобрят. Руши Бхат, старши инженерен мениджър в LinkedIn, казва, че човешката обратна връзка съществува в този мащаб от около година. Започна през 2016 г. с малко използване на ML класификатори за по-голямата част от емисията със съдържание, така че този цикъл стартира цялата програма на LinkedIn.

Колко добре работи обаче? „Различните класификатори правят различни неща, така че е трудно да се стигне до една единствена цифра, която измерва ефективността на нашата програма“, казва Бхат. „Онлайн A/B тестването на един набор от класификатори показа намаление от 48 процента на импресиите на спам и нискокачествено съдържание поради тези предиктори. Друг набор от предиктори увеличи прецизността на маркирането на нискокачествено съдържание шест пъти."

Бхат не очаква човешкият елемент да изчезне скоро.

„Една от причините, поради които LinkedIn би искал да поддържа човешкия контур за обратна връзка, е да наблюдава сайт за всякакви нови и нови видове спам атаки и за непрекъснато измерване на ефективността на система. Ще има и случаи, които ще изискват по-задълбочена проверка.

Ако не друго, LinkedIn вижда, че класификаторите отнемат етикетирането от типа „мърморене на работа“ от хората и неговите етикети са освободени да разглеждат по-нюансирано съдържание, което изисква човешки интелект, за отсъждам. LinkedIn също използва различни техники, за да избегне предубеденото обучение само към това, което влиза в обратната връзка."

И така, говоренето за Берлин в пролетния спам ли е или не? Зависи. Когато споделяте нещо, което е ограничено, например с група от хора, с които сте свързани по някакъв начин, алгоритмите ще работят по-лесно за вас в сравнение със споделянето със света.

Перишич отива дори по-далеч, предполагайки, че ML може проактивно да помогне на потребителите да коригират споделянето си, за да предотвратят странични ефекти и да увеличат максимално въздействието. Така че не би било изненада скоро да видим нещо в тази насока.

Тенденции в сюжета: Ами ако LinkedIn беше медийна организация?

Но ако LinkedIn може да предвиди дали публикациите ще станат вирусни, не може ли това да се използва и за генериране на такива публикации? Очевидно може и това е, което LinkedIn изглежда се стреми да постигне с новата си функция Trending Storylines.

Представено

Как да използвате ChatGPT, за да правите проучвания за статии, презентации, проучвания и др
Защо Safari вече не е моят избран браузър в MacOS - и какво използвам вместо това
Как да използвате режим на готовност на iOS 17 (и кои iPhone го поддържат)
Най-добрите смарт часовници, които можете да закупите: Apple, Samsung и други в сравнение

LinkedIn представи Trending Storylines като част от новото изживяване с емисии. Популяризира се като функция, която помага на членовете да откриват и обсъждат новини, идеи и различни гледни точки. Начинът, по който работи, е чрез използване на системи, комбинирани с експертния опит на редакционния екип на LinkedIn, за създаване на подходящи препоръки за новини. Идеята там е, че редакторите избират и създават истории, ML върши останалото, включително да ги актуализира с ново съдържание, когато се появи.

Въпреки че е твърде рано да се каже колко добре ще работи, тъй като беше пуснат само преди няколко дни и за момента само в САЩ, това звучи като мокър сън на всяка новинарска организация. Перишич посочи, че фактът, че ML работи значително по-добре, когато се прилага в свито пространство, какъвто е случаят тук. Но това също загатва за няколко интересни момента.

Явно класифицирането на съдържание само в три кофи - спам, ниско качество или ясно - не го прави. След като направи "чистата" зона, друг набор от класификатори поема да класира елементите според комбинация от критерии. Перишич спомена например класификатор, който оценява съдържанието по отношение на неговия потенциал за започване на разговор.

Всички класификатори обаче трябва да бъдат настроени и комбинирани по подходящ начин и това може би е повече изкуство, отколкото наука. Свободните работни места например обикновено не са добри за начало на разговор. Разчитането в голяма степен на този класификатор за оценка на разговори за новинарския канал означаваше, че свободните работни места отнемат хит по отношение на видимостта, което беше очевидно нежелан страничен ефект, така че настройката на новинарския канал беше изисква се.

LinkedIn вече има функция Trending Storylines, инициирана от човешки редактори и актуализирана (и обслужвана) от алгоритми за машинно обучение. Изображение: LinkedIn

И тук навлизаме в "новинарската" територия. Част от LinkedIn публикацията, посветена на функцията Trending Storylines, е за това какво прави една добра история. LinkedIn заявява, че „след много дискусии и размисли и оценки от ранните тестери на функцията Storylines, дестилирахме качеството на резултата в тези четири атрибута: уместност, свежест, професионализъм, персонализация."

Понастоящем LinkedIn използва три източника за съдържание: споделяния и актуализации на състоянието, своята платформа за блогове и съдържание, маркирано като важно от редакционния екип. Дали наемането на редактори, които подготвят емисиите с новини и генерират истории, прави LinkedIn медийна организация, както беше предложено по подобен начин за Facebook? Има ли отговорности, които идват с това, и премахването на човека в цикъла ще има ли значение?

Помолен за коментар, Дан Рот, изпълнителен редактор в LinkedIn, отговори по следния начин:

„Ние сме агностик на платформата и сме фокусирани върху насърчаването на разговори между професионалисти – историите, разбира се, са ключов компонент за това. Също така имаме силни връзки с издателите и видяхме, че трафикът ни от препоръчани потребители се е увеличил 2-3 пъти.

Винаги сме вярвали, че истинската магия идва, когато комбинираме редактори и алгоритми. Редакторите – предимно всички журналисти – могат да забележат, планират или насърчат висококачествени, спешни разговори. Алгоритмите ни позволяват да достигнем до дългата опашка отвъд само тези топ теми. Действията на редакторите помагат за обучението на алгоритмите, а алгоритмите помагат за извеждането на потенциално висококачествени разговори."

Как отваряте черната кутия и колко отворена е достатъчно отворена?

Въвеждането на Trending Storylines връща един стар въпрос: дали политиката и правилата за ангажиране на LinkedIn са толкова ясни, колкото биха могли да бъдат за създателите на съдържание и потребителите на новини? Има известна критика по темата и очевидно има тънка граница между защитата на IP и това да бъдеш привлекателен канал за създателите на съдържание и потребителите. Когато беше помолен за коментар, Стив Линч, старши мениджър комуникации в LinkedIn, отговори по следния начин:

„Много от тези проблеми бяха разгледани от Статия на eCommerce Times излезе. LinkedIn работи по продължение на ZDNet статия, и едно нещо, което е ясно е, че липсата на равенство на пълните функции между мобилни устройства и настолни компютри беше една от областите на объркване. Например, ние също стартира ново изживяване, което насърчава членовете да персонализират своята емисия за максимална уместност - но това не беше налично на работния плот по това време.

Що се отнася до преминаването на границата между защитата на IP и прозрачността за създателите на съдържание, ние предоставяме доста ясно обяснение за това как статиите обикновено се споделят и претеглят в членовете емисии. Можете да погледнете това обяснение тук.

В крайна сметка, нашата цел е да продължим да добавяме и подобряваме инструменти, така че членовете да контролират изживяването си с емисии, да имат право да ни казват какво искат да видят."

Въпреки че определянето дали LinkedIn е медийна организация и каква част от вътрешната й работа трябва да разкрие зависи предимно от други, Перишич също загрижен за прозрачността. Що се отнася до прозрачността в информационния поток, той вижда това като нещо като надпревара във въоръжаването: „описването в детайли как работят нашите алгоритми би било нож с две остриета“, твърди той. „Ако обясним как работи, ще позволим на спамерите да играят със системата.“

Отварянето на черната кутия на ML обаче попада в отговорностите на Перишич. Перишич е участвал в разговорите на LinkedIn с регулаторите на ЕС по въпроса GDPR, който ще влезе в сила през май 2018 г. Част от това е свързано с обяснения, които LinkedIn, наред с други, ще трябва да предостави на хората относно това защо определени неща се случват в платформата. Какво е неговото мнение за това?

„Ако ви дам ML алгоритъм със 100K функции и се опитам да ви го обясня, това няма да е тривиално. Това трябва да се разбира от гледна точка на лицето, което задава въпрос, а не на експерта. Ако погледна модела, ще разбера, но въпросът е да мога да обясня на човека, който пита „какво ще правиш с моето съдържание“.

Как се тълкуват разпоредбите е текуща дискусия. Високата сложност не може да накара практикуващите ML и статистика да се измият от сложността. Не е като, когато нещо е сложно, не можете да го обясните. Какви са факторите, които влияят на алгоритъма?

Трябва да работим назад от алгоритъма, опитвайки се да разберем с думите на отделни хора, а не със собствените си думи. Мога да опиша редица регресионни техники, които работят по различни начини, но това е твърде технически. Но трябва да сме сигурни, че разбирате - не можем да се скрием зад формулата.

Можем да идентифицираме основния фактор, който избират нашите модели. Не всички фактори, но можем да идентифицираме от какво е повлияно основно. Това точно пълно ли е? Не, но може да е достатъчно, за да покрие изискването на човека да разбере."

LinkedIn + Microsoft = Всички ваши данни принадлежат ли ни? Сложно е

Регламентът също влияе върху LinkedIn по отношение на това, което може да прави като част от Microsoft. Перишич е както CDO, така и вицепрезидент на инженеринга за LinkedIn и въпреки че се шегува за това как логото на LinkedIn все още е навсякъде в техните сгради, нещата са доста сериозни, когато става въпрос за сливане на набори от данни.

И така, какво пречи на Microsoft да направи това, което Google направи с YouTube и други услуги в даден момент, и да създаде единен потребителски профил в целия спектър с всичко, което знае за вас? Част от дискусиите на LinkedIn с регулаторите са именно за това.

Според Перишич:

„Там трябва да внимаваме. Имаме съвсем скорошен прецедент със случая на Facebook и WhatsApp. Има определени условия за одобрение на придобиването, но може би по-важното е, че за да вършим работата си, трябва да имаме доверието на нашите членове. Членовете на първо място е нашата философия.

Представете си какво би се случило например, ако вашите Xbox чатове бяха достъпни за света? Ще отидете -- чакайте малко, споделих само това с групата хора, с които бях в тази игра днес, не искам да знаете кой съм или да обединявате това с моите данни в Outlook или моите търсения в Bing.

Трябва да решите с какво е известна вашата платформа. В LinkedIn обичаме да мислим, че сме различни, и то не само заради начина, по който се фокусираме върху използването на ML, за да оформим как трябва да се държи нашият продукт.

Използвайки ML, вие правите неща като класифициране на намерение, така че трябва да внимавате там. Ако попитате членове с кого искат да споделят данни, трябва да уважите тяхното решение. За нас, членовете, първо означава, че данните принадлежат на членовете - ние сме само попечителите."

Това обаче не означава, че няма синергии, отколкото LinkedIn и Microsoft преследват. Да започнем с:

„Майкрософт има много умни хора и достъпът до тях – и обратното – очевидно е от полза. Вместо да се срещаме с хора на конференции и да получаваме намеци как подхождат към проблемите, ние можем да взаимодействаме директно и да имаме пълен достъп.

Например работа с GPU клъстери, което правим и ние, и Microsoft. Конфигурирането на тези клъстери не е лесна задача и успяхме да се възползваме от опита на Microsoft там. Работи и обратното и в други области, като инструменти и алгоритми.

Много от нашите инструменти са с отворен код и вече са били използвани от Microsoft, като Kafka. Имаме и алгоритми, които Microsoft разглежда, например за извършване на широкомащабна логистична регресия. Но като цяло ние запазваме нашата автономия."

Как да внедрим AI и машинно обучение: