Platforma MLOps spoločnosti Cloudera prináša správu a riadenie do dátových vedeckých kanálov

  • Sep 01, 2023

Spoločnosť Cloudera oznámila, že do jej dátovej platformy Cloudera sa dnes pridávajú nové prevádzkové funkcie špecifické pre strojové učenie. Okrem samotných noviniek ponúkame niekoľko detailov o funkcionalite a vlastnostiach.

Cloudera urobila so sebou veľký krok vpred Cloudera Machine Learning (CML) dnes. Spoločnosť zavádza nové funkcie prevádzkového riadenia pre modely strojového učenia a funkcie riadenia pre kanály vedy o údajoch, ktoré ich produkujú. Viď šéfredaktor ZDNetu Lawrence Dignan's príspevok pre pokrytie samotných správ a niektoré skutočne užitočné analýzy toho, ako umiestňuje Cloudera na analytickom trhu. Na rozšírenie Dignanovej analýzy sa budem venovať podrobnostiam o operáciách strojového učenia (MLOps), ktoré Cloudera dnes oznamuje. A predtým, ako to urobím, vysvetlím, prečo ich zákazníci potrebujú.

Prečo teda MLOps?

Aby ste pochopili, prečo sú MLO potrebné, zvážte, že modely strojového učenia sú v skutočnosti softvér. Typicky sa modely nasadzujú ako webové služby založené na REST a prechádzajú procesom vývoja zahŕňajúcim tvorbu kódu. Okrem paralelného vývoja softvéru zahŕňa strojové učenie aj používanie a spracovanie súborov údajov, rovnako ako BI a iná popisná analytika.

Práve z týchto dôvodov by práca strojového učenia mala byť podporovaná rovnakým druhom správy zdrojového kódu, testovaním, verzovaním a automatizovaným nasadením, aké má iný softvér. Podobne aj prostredia vedy o údajoch potrebujú podporu správy údajov vrátane katalogizácie a sledovania línií modelov strojového učenia a ich základných súborov údajov. Ponuka MLOps spoločnosti Cloudera rieši oboje: funkcie nasadenia modelu a správy sa nachádzajú v CML, zatiaľ čo funkcie správy sa zobrazujú v Zdieľané údaje spoločnosti Cloudera (SDX) tkanina.

Atlas objal

Funkcie správy prichádzajú do SDX ako vylepšenia, ktoré Cloudera oznámila v decembri pre open source Atlas Apache projektu. Hoci je Atlas celoodvetvový štandard, Cloudera je jeho hlavným podporovateľom a projekt založila spoločnosť Hortonworks, ktorá sa zlúčila s Cloudera v rámci dohody ohlásenej v októbri 2018. Katalóg údajov Cloudera má tiež základ v Apache Atlas.

Prečítajte si tiež:

  • Cloudera sa zaoberá „operáciami“ strojového učenia, riadením
  • Cloudera a Hortonworks sa spojili v obchode v hodnote 5,2 miliardy dolárov

Funkcie riadenia strojového učenia v SDX zahŕňajú vyššie uvedené možnosti katalogizácie modelov a línie. SDX tiež poskytuje bezpečnostnú infraštruktúru cez rozhrania webových služieb REST vybudovaných okolo nasadených modelov.

Manažment a administratíva

Funkcie správy v CML zahŕňajú podporu automatizovaného nasadenia, ako aj službu monitorovania modelu na sledovanie výkonu, presnosti a celkového posunu modelu. CML môže tiež sledovať jednotlivé predpovede vytvorené modelom a ako dobre zodpovedajú „zeme pravdivosť“, zabezpečenie súladu a poskytnutie podrobného kontextu na posúdenie súhrnu modelu presnosť. Na správu a zabezpečenie interpretovateľnosti modelov strojového učenia ponúka CML vstavané funkcie na generovanie SHAP a LIMEvysvetlenia modelov a predpovedí.

Na strane vývoja je CML založený na projektoch založených na šablónach, ktoré pozostávajú z pridružených súborov zdrojového kódu, vývojových relácií (konfigurovateľné Kubernetes kontajnery), experimenty, modely a úlohy. Ako tieto projekty postupujú, vývojári môžu vkladať volania API do CML do svojho zdrojového kódu na zaznamenávanie experimentov a ich súvisiacich metadát a metrík.

Otvorená platforma, hyper/multi cloud

Na pokročilom brífingu so ZDNet Cloudera vysvetlil, že vzhľadom na základ funkcií správy v Apache Atlas a CML ako súčasť Dátová platforma Cloudera (CDP), možnosti MLOps Cloudera sú v skutočnosti otvorené štandardy, ktoré spoločnosť dúfa, že ich prijmú aj iní hráči v odvetví. Navyše, keďže CDP podporuje a SDX spravuje nasadenia v rámci súkromných a (potenciálne viacerých) verejných cloudov, prostredie CML je prenosné aj medzi cieľovými platformami.

Prečítajte si tiež: Cloudera Data Platform sa spúšťa s multi/hybridným cloudom a so zníženou zložitosťou Hadoop

Cloudera pre ZDNet vysvetlila, že medzi jej zákazníkov patria organizácie, ktoré pokročili ďaleko za hranice hodnotiacej fáze strojového učenia a majú desiatky, stovky alebo dokonca tisíce modelov výroby. Riadenie týchto modelov na ad hoc báze a nedostatok štruktúrovaných vývojových nástrojov na ich výrobu je jednoducho neudržateľné. Cloudera MLOps je povestnou matkou vynálezu a je konkrétnou odpoveďou spoločnosti na potreby týchto zákazníkov.

Pozrime sa teraz, ako si MLOps od spoločnosti Cloudera, ktoré sú založené na požiadavkách zákazníkov, darí v porovnaní s platformami MLOps produkovanými startupmi, ako sú napr. Datatron, Algoritmia a DotScience.

Cloudera je zákazníkom Brustovej poradenskej firmy Blue Badge Insights.