Domino Data Lab добавя автоматично мащабиране към MLOps

  • Sep 04, 2023

Domino Data Lab 5.0 се фокусира силно върху внедряването, автоматичното мащабиране и мониторинга на частта от жизнения цикъл на машинното обучение.

ds.png
Shutterstock

Като голям за данни, брато Андрю Бруст съобщи миналата есен, Domino Data Lab напоследък възприема по-широк поглед върху MLOps, от управление на експерименти до непрекъсната интеграция/непрекъснато доставяне на модели, инженеринг на функции и управление на жизнения цикъл. В наскоро пуснатата версия 5.0 Domino се фокусира върху пречките, които обикновено забавят физическото внедряване.

Изкуствен интелект

  • 7 усъвършенствани съвета за бързо писане на ChatGPT, които трябва да знаете
  • 10-те най-добри плъгина ChatGPT за 2023 г. (и как да се възползвате максимално от тях)
  • Тествах много AI инструменти за работа. Това са моите 5 любими досега
  • Човек или бот? Тази тестова игра на Тюринг поставя на изпитание уменията ви за забелязване на AI

Основната сред новите възможности е автоматичното мащабиране. Преди това учените по данни трябваше или да играят ролята на клъстерни инженери, или да работят с тях, за да пуснат модели в производство и да управляват изчисленията. Новата версия позволява тази стъпка да бъде автоматизирана, изравнявайки условията на играта с облачни услуги като такива като Amazon SageMaker и Google Vertex AI, които вече го правят, и предлага Azure Machine Learning предварителен преглед. Допълнително изглаждане на пътя, той е сертифициран да работи на платформата Nvidia AI Enterprise (Nvidia е един от инвеститорите в Domino).

Функциите за автоматично мащабиране се основават на поддръжка за Рей и Даск (в допълнение към искра), който беше добавен в предишната версия 4.6, която предоставя API за изграждане на разпределени изчисления в кода.

Друга нова функция на 5.0 за справяне с внедряването е добавянето на нова библиотека от конектори за данни, така че учените по данни не трябва да преоткриват колелото всеки път, когато се опитат да се свържат със Snowflake, AWS Redshift или AWS S3; други източници на данни ще бъдат добавени в бъдеще.

Завършването на версията 5.0 е вграденото наблюдение. Това всъщност интегрира предишна самостоятелна възможност и трябваше да бъде конфигурирано ръчно. С 5.0 Domino автоматично настройва мониторинг, улавя потоци с прогнози на живо и изпълнява статистически проверки на продукцията срещу. данни за обучение, след като моделът е разгърнат. А за отстраняване на грешки, той заснема моментни снимки на модела: версията на кода, наборите от данни и конфигурациите на изчислителната среда. С едно кликване специалистите по данни завъртат среда за разработка на версионния модел, за да извършват отстраняване на грешки. Системата обаче на този етап не автоматизира откриването или дава препоръки за това къде моделите трябва да бъдат ремонтирани.

Искрата (без каламбур) за възможностите на 5.0 се справя с оперативните главоболия, които принуждават специалисти по данни, за да изпълняват системни или клъстерни инженерни задачи или да разчитат на администратори, за да ги изпълняват тях.

Но има и пречка за инженеринг на данни, както установихме изследвания, които направихме за яйцеклетка (сега Omdia) и Dataiku още през 2018 г. От задълбочени дискусии с над дузина главни служители по данни установихме, че учените по данни обикновено прекарват повече от половината време в инженеринг на данни. Изданието 5.0 се справя с едно основно препятствие в инженеринга на данни - свързване с популярни външни източници на данни, но понастоящем Domino не се занимава с настройката на тръбопроводи за данни или, по-елементарно, автоматизирането на подготовката на данни задачи. Разбира се, последното (интегриране на подготовката на данни) е това, което задвижи Роботи за данни 2019 придобиване на Paxata.

Функциите 5.0 отразяват как Domino Data Lab и други инструменти за управление на жизнения цикъл на ML трябваше да разширят фокуса от жизнения цикъл на модела до внедряването. Това от своя страна отразява факта, че тъй като предприятията придобиват повече опит с машинното обучение, те стават разработване на повече модели по-често и трябва да индустриализира това, което първоначално е било еднократно процеси. Не бихме се изненадали, ако Domino следващия път насочи фокуса си към магазините за функции.

Голяма информация

Как да разберете дали сте замесени в нарушение на сигурността на данните (и какво да направите след това)
Борбата с пристрастията в AI започва с данните
Справедлива прогноза? Как 180 метеоролози предоставят „достатъчно добри“ данни за времето
Терапиите за рак зависят от шеметни количества данни. Ето как се сортира в облака
  • Как да разберете дали сте замесени в нарушение на сигурността на данните (и какво да направите след това)
  • Борбата с пристрастията в AI започва с данните
  • Справедлива прогноза? Как 180 метеоролози предоставят „достатъчно добри“ данни за времето
  • Терапиите за рак зависят от шеметни количества данни. Ето как се сортира в облака