Data.world: Pomen povezovanja podatkov in ljudi

  • Sep 02, 2023

Beležnice, grafi, podatkovna jezera, sodelovanje in podatkovni manifesti. Data.world ima zanimivo mešanico filozofije in tehnologije – in vse se združuje okoli ene stvari: omogočanje analize, ki temelji na podatkih, tako da postane timski šport.

Video: velike količine podatkov iz mobilnih naprav bi lahko uporabili za zaustavitev širjenja bolezni

posebnost

IoT: varnostni izziv

Internet stvari ustvarja resna nova varnostna tveganja. Preučujemo možnosti in nevarnosti.

Preberi zdaj

Pridobivanje podatki.svet ni zelo enostavno.

To je zato, ker se zdi, da data.world deluje na presečišču številnih stvari. Kaj točno počne, kako in zakaj?

Od danes data.world uradno izdaja poslovno različico svoje platforme in ZDNet imel poglobljeno razpravo z ekipo data.world, da bi odgovoril na ta vprašanja.

Od čarobnih preglednic do ogromne baze podatkov grafov kot storitve

Da bi razumeli, od kod prihaja data.world, smo naredili korak nazaj in razpravljali o težavah, povezanih s podatki, s katerimi se je morala ekipa redno ukvarjati. Generalni direktor Brett Hurt in CPO Jon Loyens sta soustanovila data.world in se sklicevala na svoje izkušnje v prejšnjih vlogah v podjetjih, kot sta Bazaarvoice in Homeaway. Loyens se je na primer skliceval na svojo čarobno preglednico, kar bi moralo zazvoniti:

Preberite tudi: Nazaj v prihodnost: Ali je uspeh baze podatkov grafov odvisen od jezika poizvedb?

Imeli smo podatkovno jezero, podatkovno skladišče in SAS, prav tako smo morali integrirati podatke iz zunanjih virov, da smo dobili svoje četrtletne cilje in napovedi. In vse je šlo v to epsko ogromno preglednico, ki bi nam povedala magične številke, ki bi jih morali doseči.

Ko sem moral to predstaviti skupini inženirjev, so pogosto nekateri želeli dvomiti o mojih podatkih in predpostavkah. In vse, kar sem jim lahko rekel, je bilo: 'No, tukaj je čarobna preglednica... vso srečo.'"

Vsi smo imeli svoj delež čarobnih preglednic, vendar obstaja boljši način. To je sporočilo data.world. (Slika: James Kendrick/ZDNet)

Loyens je dodal, da se je istočasno nekdanji sodelavec in tehnični direktor data.world Bryon Jacob boril z upravljanjem podatkov. Torej, na neki točki jih je to motiviralo, da združijo prizadevanja in oblikujejo ekipo, ki jo zdaj vodi Hurt. Ekipa deluje od leta 2015 in je skupaj zbrala 33 milijonov ameriških dolarjev.

Data.world opisuje svoje poslanstvo kot demokratizacijo dostopa do podatkov in pomoč pri izkoriščanju več skupne možganske moči vaše ekipe, da bi s podatki hitreje dosegli karkoli. Tudi to bi moralo zazvoniti, saj se sliši, kot da bi lahko nekaj predlagal prenosnik za podatkovno znanost ali samopostrežno orodje BI ali prodajalec Hadoop ali ponudnik platforme podatkovnega jezera.

Torej, kaj je spet data.world in v čem se razlikuje od teh? Loyens je dejal, da je velik poudarek na infrastrukturi in velik poudarek na analitiki, vendar ni jasno, kako priti od enega do drugega. Njihov pogled na to je bil zgraditi masivno bazo podatkov grafov kot storitev, ji dodati sloje ter se osredotočiti na sodelovanje in socialne vidike.

Tim Berners Lee notri

To zveni precej splošno, razen morda dela grafa. Toda za Hurt je bilo to največje strateško odklepanje za njihov poslovni model in način dela s skupnostmi:

Preberite tudi: IBM-ov svetovni rekord: 330 TB nestisnjenih podatkov na kaseti s trakom v velikosti dlani

"Skrivnost tega, kar počnemo, je, da smo zgrajeni na semantičnem spletu in Povezani podatki. Tako se začne mrežni učinek tega, kar počnemo. Ljudi lahko povežemo z nabori podatkov, na katere morda sploh niso pomislili, in zaradi tega je svet manjši,« je dejal Hurt.

Data.world je glasen glede uporabe te tehnologije, vendar ohranja tudi pragmatično držo. Medtem ko se nanaša na to, kako Tehnologija povezanih podatkov je zelo primerna za integracijo podatkov in razbijanje silosov, priznavajo dve najpogostejši kritiki povezanih podatkov: dostopnost in obseg.

Del misije data.world je omogočiti odkrivanje podatkov, in čeprav se povezani podatki morda dobro ujemajo s tem, znanstveniki ali analitiki podatkov v resnici ne menijo, da so dostopni.

Vizija Leeja Tima Bernerja za povezane podatke podpira pristop data.world

»Slišali smo za povezane podatke – velika obljuba, vendar jih je težko uporabljati in težko komentirati,« je nekaj, kar je data.world slišal od uporabnikov in več, njegov način reševanja tega pa je bil, da se čim bolj abstrahira od posebnosti uporabe povezanih podatkov za vnos in objavo nabori podatkov.

Ko so podatki zaužiti ali objavljeni, jih data.world pregleda in označi z uporabo standardov in besednjakov povezanih podatkov (predvsem RDF, SKOS in CSVW). Loyens je dejal, da ljudem olajšajo delo s podatki v tabelarnih formatih, ki jih poznajo, in so zgradili stvari, kot je most SQL – SPARQL, da bi demokratizirali dostop.

Istočasno data.world omogoča dostop do osnovnih formatov in tehnologije za tiste, ki to želijo. Hurt je omenil, kako se to ujema z vizijo povezanih podatkov, ki jo promovira Tim Berners Lee, in dodal, da je spoznal TBL in "všeč mu je bilo, kar počnemo, in zdaj ima našo nalepko na svojem prenosniku, kjer koli gre."

Je to še eno podatkovno jezero?

Podpora slavnih je vedno dobra, vendar vas ne bo pripeljala predaleč, če imate težave z obsegom. Loyens je dejal, da je bil njihov pogled na to sprejeti Apache Jena, natančneje, del tega, ki je bil zapuščen akademski projekt, in ga pobrati. Potem ko ga je utrdil, je Loyens dodal, da ga nameravajo kmalu znova izdati kot odprtokodno.

Preberite tudi: Fotografije: Znotraj ogromnega zapuščenega rudnika, ki bo največji podatkovni center na svetu

Čeprav je prostor za podatkovne baze grafov v razcvetu, je Loyens jasno povedal, da ne namerava obravnavati tega trga. Prepričan je, da je osrednji del vrednosti, ki jo doda data.world, del upravljanih storitev in da bi bilo to težko ponoviti kot samostojno ponudbo.

Data.world je morda zgrajen na bazi podatkov grafov, vendar ni na trgu kot ena. Podobno se morda sliši kot zvezek za podatkovno znanost, vendar to v resnici ni. Loyens je dejal, da medtem ko so prenosniki osredotočeni na kodo, je data.world osredotočen na podatke. V obeh je vrednost, je dodal, data.world pa se integrira z zvezki.

Zdi se, da Data.world nagovarja širše občinstvo kot podatkovni znanstveniki, vključno z analitiki in poslovnim sektorjem. Vizija je omogočiti raznoliki skupini ljudi interakcijo okoli podatkov in analitike za zagotavljanje vrednosti. Videli smo podobna prizadevanja, vendar ni videti, da jih zares dohitevajo. IBM-ov DataWorks na primer že zdavnaj ni več.

Ne samo še eno podatkovno jezero, pravi data.world

Data.world se nasprotno ponaša s strankami, kot je npr Associated Press (AP). Data.world je povedal, da je AP pomagal pri nekaterih njihovih največjih zgodbah v zadnjem času, tako da je AP in partnerjem omogočil sodelovanje pri analizi podatkov.

Kar zadeva integracije, se data.world med drugim integrira s Python, R, Microsoft Power BI, IBM SPSS in MicroStrategy. Ekipa je poudarila, da so bile integracije izvedene na API-ju data.world, brez vpletenosti na njihovi strani. Ideja je omogočiti uporabnikom, da analizirajo katero koli orodje, ki ga izberejo, in uporabiti data.world za del orkestracije in sodelovanja.

Tudi ta pristop spominja na podatkovno jezero. Na vprašanje, ali bodo uporabnike spodbudili k zamenjavi podatkovnega jezera z data.world, je Loyens dejal, da je to v resnici odvisno od uporabnikov. Data.world lahko zaužije samo metapodatke ali pa tudi podatke, ki delujejo vzporedno s podatkovnimi jezeri ali prevzamejo njihovo vlogo.

Utemeljen idealizem

Da bi dobili širšo sliko o data.world, je treba upoštevati še nekaj stvari: poleg pridobivanja TBL in semantična spletna množica na krovu, data.world govori o več kot o tehnologiji. Data.world vodi tudi t.i podatkovni manifest, ki je bil predstavljen danes.

Preberite tudi: Najnovejša pobuda MapR je namenjena ustvarjanju reda v svetu velikih podatkov

Hurt to opisuje kot enakovredno manifestu Agile za podatke. Poudarja svoje prepričanje, da je takšen manifest potreben za pogon te nove domene, pri čemer omenja na primer vprašanje pristranskosti podatkov.

Podatkovni manifest je zgrajen na nizu načel in vrednot in Hurt je ponosen na to, da ima nekaj težkih v podatkovni znanosti soavtorjev ali podpisnikov manifesta. To vključuje DJ Patila, ki ga je Hurt spoznal med Patilovim službovanjem kot podatkovni znanstvenik v Beli hiši.

Patil je souvedel izraz podatkovni znanstvenik, služil pa bo tudi v svetovalnem odboru data.world. Data.world je ustanovljen kot družba za javno korist in Hurt aid vidi to kot naslednji korak k odgovornosti podjetja. Hurt, serijski podjetnik in vlagatelj, je prav tako vključen v evangelizacijo podatkovno usmerjene kulture in prihodnost kapitalizma med drugim.

Data.world se zdi nenavaden in zanimiv pristop. Njegova mešanica idealizma in pragmatizma je precej edinstvena in zdi se, da njegova ekipa resnično stoji za tem. Sodeč po tem, kar so dosegli do zdaj, jih lahko popelje še dlje.

Prejšnja in sorodna pokritost

Družbeno omrežje za podatkovne znanstvenike Data. World zbere 18,7 milijona dolarjev

podatki. World je zagotovil 18,7 milijona dolarjev financiranja, s čimer je skupni znesek, ki ga je zbral startup s sedežem v Austinu, dosegel 32,7 milijona dolarjev.

Ste lastnik svojih podatkov in imate proste roke? Odgovor v internetu stvari, svetu oblakov, vas bo morda presenetil

Začelo se je veliko grabljenje velike podatkovne zemlje in internet stvari bo lastništvo še bolj zapletel. Pripravite se na nekaj prepirov glede lastništva, ko podatki postanejo novo olje.