Explorium zagotavlja financiranje v višini 19 milijonov USD za avtomatizacijo podatkovne znanosti in vpogledov, ki temeljijo na strojnem učenju

Delno platforma za strojno učenje, delno tržnica podatkov, Explorium obljublja, da bo avtomatiziral odkrivanje podatkov in funkcij ter zgradil in uvedel modele za vaše analitične in aplikacijske potrebe.

Primerji

Kaj je AI? Vse, kar morate vedeti
Kaj je strojno učenje? Vse, kar morate vedeti
Kaj je globoko učenje? Vse, kar morate vedeti
Kaj je umetna splošna inteligenca? Vse, kar morate vedeti

Strojno učenje je močna paradigma, ki jo številne organizacije uporabljajo za pridobivanje vpogledov in dodajanje funkcij svojim aplikacijam, vendar njegova uporaba zahteva spretnosti, podatke in trud. Explorium, startup iz Izraela, je pravkar napovedal 19 milijonov dolarjev financiranja za znižanje ovire za vse zgoraj našteto.

Danes objavljeno financiranje obsega začetni krog v višini 3,6 milijona dolarjev, ki ga vodi Emerge s sodelovanjem kapitala F2 Capital in serije A v vrednosti 15,5 milijona dolarjev, ki jo vodi Zeev Ventures z vključevanjem semena vlagatelji. Explorium so ustanovili Maor Shlomo, Or Tamir in Omer Har, trije izraelski tehnološki podjetniki, ki pred tem vodil obsežno podatkovno rudarjenje in platforme za optimizacijo trženja na podlagi velikih podatkov voditelji.

"Za podatke o strojnem učenju delamo to, kar so iskalniki naredili za splet," je dejal soustanovitelj in izvršni direktor Exploriuma Maor Shlomo. »Tako kot iskalnik brska po spletu in izvleče najbolj ustrezne odgovore za vaše potrebe, Explorium preiskuje vire podatkov znotraj in zunaj vaše organizacije, da ustvari funkcije, ki zagotavljajo natančnost modeli."

Platforma Explorium deluje v treh fazah: obogatitev podatkov, inženiring funkcij in napovedno modeliranje.

Obogatitev podatkov

Prvi del postopka vključuje iskanje ustreznih podatkov za zastavljeno nalogo. Za usposabljanje algoritmov strojnega učenja so potrebni ustrezni nabori podatkov. Recimo, da se na primer organizacija zanima za oblikovanje napovednega modela za kadrovske službe, ki bi pomagal zmanjšati odliv z ustvarjanjem opozoril in priporočil za ukrepanje.

Za usposabljanje tega modela bo treba uporabiti podatke iz kadrovske službe organizacije. A da so podatki uporabni, morajo biti količinsko in kakovostno zadostni, kar pa ni vedno tako. Tu nastopi Explorium.

Na začetku uporabniki povežejo nabor podatkov s ciljnim stolpcem in navedejo, kaj želijo predvideti. Povezati je mogoče več notranjih virov, če eden od njih vsebuje ciljni stolpec. Nato Explorium zazna pomen stolpcev za vsak vhodni nabor podatkov in obogati nabor podatkov z dodatnimi viri podatkov.

Na primer, če motor prepozna koordinato lokacije v stolpcih strankinih podatkov (geografska širina in zemljepisno dolžino), bi obogatil njegove podatke z geoprostorskimi oznakami (kot so konkurenti na tem območju), demografskimi viri, in tako naprej.

Preden preidemo na to, kako ta identifikacija deluje, je vredno razmisliti, od kod prihajajo ti podatki in kako se ocenjuje njihova ustreznost in zanesljivost. Explorium pridobiva podatke iz več kanalov. Nekateri od njih so odprti in javni nabori podatkov, vendar je še več.

Platforma Explorium deluje v 3-stopenjskem procesu: obogatitev podatkov - inženiring funkcij - napovedno modeliranje. Slika: Explorium

Posebnost

Spreminjanje velikih podatkov v poslovne vpoglede

Podjetja so dobra pri zbiranju podatkov, internet stvari pa to dviguje na višjo raven. Toda najnaprednejše organizacije ga uporabljajo za poganjanje digitalne transformacije.

Preberi zdaj

Shlomo je dejal, da je Explorium zgradil obsežno podatkovno partnersko mrežo, da bi obogatil svoj podatkovni katalog in ustvaril integrirane poglede. To vključuje tudi tako imenovane premium ponudnike, ki Exploriumu omogočajo nakup podatkov podjetja in komercialni subjekti, ki želijo varno monetizirati svoje podatke (npr. agregirana uporaba statistika).

Shlomo je zaključil z omembo, da Explorium združuje več podatkovnih virov v en koherenten in pomemben del podatkov s pomočjo stroja. metode učenja, pa tudi strukturiranje neizkoriščenih podatkov iz spletnih sredstev, kot so fotografije, izvlečki entitet in dejanja v spletnem besedilu (npr. članki).

To odpira več vprašanj, pri čemer so varstvo podatkov, skladnost in varnost zelo očitna. Shlomo je poudaril, da je varnost za njih velik poudarek, pri čemer je omenil Explorium SOC 2 skladen in na dobri poti za dodatne akreditacije.

»Zelo skrbimo za podporo našim strankam pri upoštevanju ustreznih predpisi, kot je GDPR. Naše stranke se lahko na primer odločijo, da bodo delale samo s podmnožico naših podatkovnih virov v skladu s predpisi, ki jih morajo upoštevati,« je dejal Shlomo.

Inženiring funkcij

Poleg skladnosti in varnosti pa je bistvo vsega, ali so podatki uporabni in ustrezni. To je nekaj, kar boste morali zaupati procesu Explorium, ki ga Shlomo opisuje takole:

»Kakovost podatkov, zanesljivost in raziskave zagotavlja več funkcij v organizaciji v različnih metodologijah. Na primer, strokovne ekipe raziščejo vire pred prvo uporabo in ugotovijo njihovo vrednost, izvor in ustreznost za različne potrebe. Uvajamo avtomatizirane teste kakovosti v vse vire podatkov, da zagotovimo najboljši možni podatkovni izdelek."

Toda to je več kot združevanje podatkov. Explorium obljublja, da lahko samodejno zazna pomen stolpcev za vsak vhodni niz podatkov, kar je ključna funkcija njegove ponudbe. Exploriumu omogoča, da razume, s katerimi viri podatkov se uporabnik lahko poveže, katere vire lahko platforma samodejno razišče in katere funkcije se lahko samodejno ustvarijo pozneje.

Nato Explorium generira samodejno zasnovane funkcije za vsak povezan vir, kar ima za posledico več sto tisoč kandidatnih funkcij iz različnih virov obogatitve. Pomen podatkov se uporablja za pridobivanje kompleksnih funkcij iz neobdelanih podatkov. To temelji na lastniških algoritmih, ki razumejo številne značilnosti, strukture in entitete za podatki.

Platforma Explorium v akciji. Slika: Explorium

Namen te faze je ustvariti čim več kandidatov za eliminacijsko fazo. V povprečju je ustvarjenih na stotine funkcij na vir podatkov (kar je na koncu več sto tisoč funkcij na splošno). Shlomo je dejal, da lahko uporabniki razširijo mehanizem Explorium s svojimi funkcijami po meri (kot so vdelave NLP ali napredne funkcije časovnih vrst) in ga izkoristijo za raziskovanje lastnih idej in uvajanje znanja o domeni v postopek.

Explorium nato oceni na stotine modelov na različnih podnaborih funkcij in virov, da uvede avtomatizirane povratne informacije o virih podatkov in funkcijah. Različne lastnosti so razvrščene, šibke (povprečno 94 %) pa izločene. Oceni se vpliv samodejno ustvarjenih funkcij na natančnost napovednih modelov, nato pa se povratne informacije uporabijo za izboljšanje rezultatov iskanja.

Prediktivno modeliranje

Postopek daje vsaki funkciji oceno Explorium (kar kaže na vpliv in pomembnost za težavo), medtem ko vsak vir podatkov izpelje agregirano oceno na podlagi funkcij, ustvarjenih iz njega. Sčasoma se Explorium konvergira v najboljšo podnabor funkcij glede na določen model. Ko je s Shlomom razpravljal o modelih, je bilo njegovo stališče, da so bili modeli v veliki meri komoditizirani:

"Glavni izziv so bili in so še vedno podatki, ki se vnašajo v te algoritme. Odprtokodne izvedbe modelov (Sklearn, Xgboost, LibSVM, Tensorflow...) se nam zdijo zmogljive in lepo oblikovane. Ne vidimo razloga za ponovno izumljanje kolesa. Za gradnjo naše komponente AutoML uporabljamo gotove knjižnice."

Explorium se integrira tudi z vodilnimi AutoML ponudniki za storitve strankam, ki raje uporabljajo njihov obstoječi sklad, vključno s ponudniki v oblaku. Različni modeli se testirajo glede na različne podnabore samodejno ustvarjenih funkcij iz številnih različnih virov, kar je težka optimizacijska težava.

izvršni vodnik

Kaj je strojno učenje? Vse, kar morate vedeti

Tukaj je opisano, kako je to povezano z umetno inteligenco, kako deluje in zakaj je pomembno.

Preberi zdaj

Explorium uporablja metode optimizacije za pomoč pri konvergiranju v nabor funkcij, modelov in parametrov, ki so najboljši. Za izboljšanje tega procesa in hitrejšo konvergenco so statistični podatki v različnih primerih uporabe, projektih in stranke se zbirajo, da bi spremljali, kateri modeli najbolje delujejo s katerimi vrstami podatkov viri/značilnosti.

Namen platforme je zagotoviti celovito rešitev podatkovne znanosti: od odkrivanja podatkov do modelov v proizvodnji. Cilj je pomagati uporabnikom samodejno odkriti prave nabore podatkov, ustvariti funkcije z velikim vplivom in jih vnesti v napovedne modele.

Optimalen nabor funkcij lahko bodisi porabijo neposredno ekipe za podatkovno znanost, kot to zahtevajo (npr. paket API v realnem času ali paketni cevovodi) ali se uporablja za usposabljanje in streženje modelu strojnega učenja z uporabo Exploriumovega odprtokodnega AutoML, integracij z ponudniki oblakov AutoML, ali modeli po meri, ki jih lahko uporabniki izdelajo sami.

Na primer, je dejal Shlomo, uporabniku, ki je pravkar odkril na desetine novih vplivnih virov podatkov, ni treba integrirati z vsakim od njih, saj platforma to stori samodejno. Uporabniki lahko izbirajo, ali bodo uporabili končni rezultat napovedi iz enega od modelov platforme ali bodo uporabili neobdelane, obogatene funkcije in jih vnesli v lastne modele.

AutoML in podatkovna tržnica – BI ubijalec?

Poslovni model Exploriuma temelji na naročnini in ga vodi predvsem število "primerov uporabe". Primer uporabe je projekt, pri katerem stranka porabi napovedi modela ali samodejno ustvarjene funkcije. Explorium je mogoče namestiti tako lokalno kot v oblaku. Uporabniški nizi podatkov se prenesejo na platformo, medtem ko lahko uporabniki kadar koli spremenijo ali izbrišejo podatke.

Če obstaja povezava z zunanjim svetom, Explorium samodejno uporablja najsodobnejše vire podatkov v svojem katalogu. V primeru zaprte namestitve na mestu namestitve je nameščena replika baze podatkov za obogatitev. To pomeni, da izgubite pogosto posodobljene nabore podatkov, kot so informacije o delnicah ali novice, zato Explorium priporoča uvedbo v oblaku, kadar koli je to mogoče.

Ustanovitelji Exploriuma. Slika: Explorium

Glej al

Telemedicina, umetna inteligenca in globoko učenje revolucionirajo zdravstvo (brezplačen PDF)

Shlomo je dejal, da stranke Exploriuma segajo od Fortune 100 in vodilnih finančnih institucij, pa vse do hitro rastočih startupov. Ekipa, ki jo večinoma sestavljajo inženirji in podatkovni znanstveniki, hitro raste s pisarnami v Tel Avivu, San Franciscu in Kijevu. Explorium je bil uvrščen med 5 najhitreje rastočih podjetij v Tel-Avivu.

Kombinacija AutoML in podatkovne tržnice, ki jo ponuja Explorium, se zdi prepričljiva. Toda ali je edinstven? Ali lahko prodajalec AutoML (v oblaku) doda funkcije podatkovne tržnice ali podatkovna tržnica doda AutoML z enakim učinkom? Shlomo meni, da obstoječa orodja niso zasnovana za obravnavo velikega števila virov podatkov in gre tako daleč, da napoveduje propad tradicionalnih orodij poslovne inteligence:

"Gradnja modela strojnega učenja ob samodejnem iskanju funkcij na tisoče potencialno ustrezni viri podatkov je nova vrsta inženirskega izziva, ki zahteva namensko rešitev. Zgradili smo inženirsko, podatkovno, pravno in komercialno znanje in izkušnje, da našim strankam pomagamo najti boljše podatke na podlagi edinstvene kombinacije naših izkušenj.

Explorium ni umetni most med silosi podatkov in AI, ki bi ga lahko posnemali s transaktivnim partnerstvom. Smo podjetje za podatkovno znanost, ki je samo po sebi osredotočeno na podatke za strojno učenje. Platforma ponuja popolnoma novo paradigmo izvajanja znanosti o podatkih v najrazličnejših prej neznanih virih podatkov."

Veliki podatki

Kako ugotoviti, ali ste vpleteni v kršitev podatkov (in kaj storiti naprej)

Boj proti pristranskosti v AI se začne pri podatkih

Poštena napoved? Kako 180 meteorologov zagotavlja 'dovolj dobre' vremenske podatke

Terapije raka so odvisne od vrtoglavih količin podatkov. Takole je razvrščeno v oblaku

Kako ugotoviti, ali ste vpleteni v kršitev podatkov (in kaj storiti naprej)
Boj proti pristranskosti v AI se začne pri podatkih
Poštena napoved? Kako 180 meteorologov zagotavlja 'dovolj dobre' vremenske podatke
Terapije raka so odvisne od vrtoglavih količin podatkov. Takole je razvrščeno v oblaku