Viac ako slová: Osvetlenie neporiadku v dátovej terminológii

  • Sep 03, 2023

Správa údajov, správa údajov, pozorovateľnosť údajov, dátová štruktúra, dátová sieť, DataOps, MLOps, AIOps. Je to neporiadok v dátovej terminológii. Skúsme to rozmotať, pretože v slovách je viac než len žargón.

soda-founders.jpg

Maarten Masschelein a Tom Baeyens sú spoluzakladatelia Soda, startupu, ktorý práve získal ocenenie „Cool Vendor in Data Management“ od Gartneru.

Soda

Potrebujeme XYZ. určite. Je to vo všetkých správach analytikov, je to mimo rebríčkov a majú to aj naši konkurenti. Takže poďme nájsť predajcu, ktorý to má, a zainvestujme. To by malo stačiť.

výkonný sprievodca

Obchodná analytika: Základy rozhodovania založeného na údajoch

Údaje ukazujú, že organizácie založené na údajoch fungujú lepšie. Čo je však potrebné na to, aby ste sa tam dostali?

Čítajte teraz

Znie to povedome? Dúfajme, že rozhodnutia o investíciách do technológií vo vašej spoločnosti sa nerobia týmto spôsobom. Ale keďže technológie sa vyvíjajú rýchlejšie ako kedykoľvek predtým, je ťažké držať krok so všetkou terminológiou. Žiaľ, niektorí ľudia vnímajú terminológiu ako zahmlievaciu vrstvu, ktorej cieľom je oslavovať tých, ktorí s tým prišli, propagovať produkty a prinútiť ľudí, ktorí hádžu výrazy, aby vyzerali múdro.

Môže na tom byť niečo pravdy, ale to neznamená, že terminológia je zbytočná. Naopak, terminológia je tu na to, aby sa zaoberala skutočnou potrebou, ktorou je opísať vznikajúce koncepty v rýchlo sa rozvíjajúcej oblasti. V ideálnom prípade by spoločná slovná zásoba mala uľahčiť pochopenie rôznych pojmov, segmentov trhu a produktov.

Príklad: správa údajov a metadát. Počuli ste už pojmy správa údajov, pozorovateľnosť údajov, dátová štruktúra, dátová sieť, DataOps, MLOps a AIOps? Viete však, čo presne každý z nich znamená a ako spolu súvisia? Tu je vaša šanca to zistiť.

Dátové vrstvy

Napriek tomu, že sme aktívni ako analytici v širšom dátovom poli, priznáme sa, že ani nám nebolo všetko z vyššie uvedeného úplne jasné. Takže keď sme sa stretli s Maartenom Masscheleinom a Tomom Baeyensom, usúdili sme, že ich požiadame o prijatie. Masschelein a Baeyens sú spoluzakladatelia Soda, startup, ktorý práve získal ocenenie „Cool Vendor in Data Management“ od spoločnosti Gartner.

Okrem toho, že sú oficiálne vyhlásené za cool, existuje ešte jeden dôvod, prečo by mohli vedieť jednu alebo dve veci: boli tu. Masschelein bol zamestnancom číslo päť Collibra, ktorý bol podľa jeho slov prvým, kto predával softvér Chief Data Officer – predtým to bola vec. Baeyens bol zakladateľom a vedúcim projektu jBPM, legendárny projekt riadenia podnikových procesov (BPM) s otvoreným zdrojom.

Začnime s dátová tkanina. Masschelein to vidí ako rámec pre organizovanie údajov pre rozsah - meta-vrstvu pre prístup ku všetkým údajom relevantným pre organizáciu, bez ohľadu na to, kde môžu sídliť, jednotným spôsobom.

Dátová štruktúra sa zameriava na technologický aspekt tohto jednotného prístupu k údajom.

Kľúčové piliere architektúry dátovej štruktúry podľa Gartner.

Gartner

Dátová sieť je podobný koncept, ale odlišný v tom zmysle, že sa zameriava na organizačné aspekty. Masschelein zistil, že dátová sieť je podobná modernizovanej verzii princípov správy dát, ktorá je použiteľná pre širšie dátové tímy. Cieľom je štruktúrovať a organizovať a odstrániť niektoré z minulých prekážok, ako je spoliehanie sa na tím dátového skladu. Masschelein povedal:

„Pri dátovej sieti ide v podstate o budovanie dátových produktov a dátových služieb. Ide teda o myslenie dátových produktov. V správe údajov hovoríme o správe údajov ako aktíva. Keď hovoríme o správe údajov ako o produkte, je to v konečnom dôsledku konkrétnejšie. Ide o predstavu, že by sme mali mať základné služby platformy. Okrem toho však musíme mať štruktúru okolo dátových domén, oblastí, podnikania, odborných znalostí a znalostí, aby mohli byť samoobslužné. Myslím, že to je kľúč."

Správa údajovMasschelein dodal, je pojem, ktorý existuje už mnoho desaťročí. Bol obšírne opísaný v združenie pre správu údajov, ktorá urobila veľa práce okolo toho, ako by sa mali spravovať údaje. V konečnom dôsledku bola súčasťou toho aj správa metadát, ktorá priniesla softvér na katalogizáciu údajov a možnosti vedenia údajov.

Masschelein vidí monitorovanie údajov, pozorovateľnosť údajov, a testovanie údajov ako špecializované subdomény riadenia kvality v rámci širšieho rámca riadenia údajov. Baeyens pridal kontext o pozorovateľnosti údajov:

„Máte inžinierov, ktorí budujú dátové kanály. Pripravujú údaje na použitie v dátových produktoch, ako sú modely strojového učenia. Existuje množstvo inžinierov, ktorí pravidelne vyvíjajú nové produkty. Keď sa tieto produkty dostanú do výroby, tam začína pozorovateľnosť. To je miesto, kde sa dáta môžu skutočne pokaziť. Ak si modely používajúce údaje nevšimnú, že údaje sú zlé, vedie to k rôznym veľmi nákladným a nebezpečným následkom."

Monitorovanie údajov, testovanie, kondícia a spolupráca

Ako pre DataOps, je to o využívaní schopností súvisiacich s údajmi, ktoré sú organizované v procesoch osvedčených postupov na poskytovanie dátových produktov s narastajúcou rýchlosťou, a to všetko so zvýšenou spoľahlivosťou. Je potrebné zaviesť a štandardizovať mnoho malých procesov, aby sme umožnili lepšiu prácu s údajmi, podobne ako sme to urobili my DevOps v softvérovom inžinierstve, povedal Masschelein.

MLOps, ktorý sa zdá byť zameniteľný s AIOps, sa spolieha na dobrý DataOps základ, ale je viac špecializovaný. V DataOps nebudeme napríklad sledovať presnosť predpovedí. To je špecifické pre dátový produkt a tiež špecifické pre životný cyklus dátového produktu. Masschelein o tom uvažuje z hľadiska životného cyklu:

„Sú to dve samostatné veci, pretože životný cyklus súboru údajov nie je v konečnom dôsledku úzko spojený so životným cyklom strojového učenia alebo dátového produktu. Robia to aj rôzni ľudia. Pokiaľ ide o správu údajov a DataOps, máme producentov údajov, ktorí môžu byť pre organizáciu externí, a údaje ste generovali interne.

Ďalším spôsobom, ako sa na to pozerať, je krajina nástrojov. A ak sa pozriete na balík softvéru na monitorovanie a pozorovateľnosť, v spodnej časti máme infraštruktúru. Najprv teda píšeme aplikácie a potom v súčasnosti používame dáta a strojové učenie ako dva druhy nových vrstiev."

Práve začíname so softvérom a platformami, ktoré pomáhajú monitorovať tieto relatívne nové vrstvy, zatiaľ čo ostatné existujú oveľa dlhšie, poznamenáva dvojica. A tu vstupuje do hry vlastná platforma Soda. Názov vznikol preto, že zakladateľom sa páčila myšlienka bublania tichých dátových problémov, ako je šumivá sóda. Takže sóda pokrýva monitorovanie, testovanie, dátovú zdatnosť a spoluprácu.

Spolupráca je prierezový problém, ktorý môže uľahčiť riešenie problémov týkajúcich sa monitorovania a kvality údajov.

Soda

Monitorovanie je o automatickom sledovaní problémov v súboroch údajov. To znamená pokúsiť sa zistiť, či nie je niečo neobvyklé na súboroch údajov, ktoré sa nachádzajú vo vašich prostrediach. Napríklad, koľko záznamov ste približne spracovali tentokrát? Je to nenormálne v porovnaní s tým, čo bolo v ten istý deň minulý týždeň? Soda dokáže napríklad pomocou strojového učenia rozpoznať anomálie.

Monitorovanie však pokrýva len malé percento typov problémov s údajmi, ktoré môžete mať. Preto je ďalším krokom testovanie a validácia údajov. Tu umožníte dátovým inžinierom aj odborníkom na danú problematiku. Tu je možné zadať pravidlá, ako napríklad „V tomto stĺpci môžeme mať iba X percent chýbajúcich údajov“, „Potrebujeme referenčnú integritu“ alebo „Prípustný súbor hodnôt“.

To je všetko v poriadku, ale ak máte systém na zisťovanie problémov s údajmi, vytvorí sa veľa upozornení, takže otázka znie: Ako s upozorneniami narábate? Aký je obchodný proces, ktorým prechádzate? Tu prichádzajú na rad informačné panely fitness údajov. To umožňuje sledovanie SLA, čo vlastníkom údajov poskytuje prehľad o všetkých očakávaniach týkajúcich sa údajov v rámci organizácie a pracovný postup okolo riešenia problémov.

V neposlednom rade je spolupráca prierezovou záležitosťou. Funkcie spolupráce umožňujú ľuďom s rôznymi znalosťami o probléme, ktorí majú často tiché, nezdokumentované znalosti, spolupracovať a riešiť problémy. Baeyens spomenul, že sa to týka aj funkcií, ktoré sa tradične nepovažujú za spoluprácu, ako je umožnenie analytikom riadiť znalosti domény sami bez zapojenia údajov inžinierov.

Sudy a sóda

Odborné znalosti v oblasti BPM, ktoré Baeyens prináša spoločnosti Soda, boli využité pri budovaní platformy, konkrétne v tom, ako rôzne moduly zapadajú do seba v procese pracovného postupu. Soda pracuje so zdrojmi SQL a integrácia Spark je takmer tam. Cieľom je pokryť čo najväčšiu časť dátového prostredia.

Soda nemusí pokryť všetky kľúčové piliere komplexnej dátovej štruktúry podľa definície Gartner, ale opäť je ťažké vymyslieť veľa riešení, ktoré to dokážu. Rozširuje však katalógy údajov so zameraním na DataOps. Sóda navyše cieli na rôzne segmenty užívateľov a to sa odráža aj na jej ponuke.

Existuje vrstva s otvoreným zdrojom zameraná na dátových inžinierov. Baeyens verí, že používateľský segment sa nemusí nevyhnutne zaujímať o ponuku SaaS. Open source Soda SQL má za cieľ byť jednoduchý a pracovať s technológiou, ktorú s obľubou používa jeho cieľová skupina – SQL a YAML podľa Baeyensa.

Soda SQL zaznamenáva dobrý rast a prijatie a je to spôsob, ako môžu ľudia spoznať Sodu. Ak sa im však páči to, čo vidia, a ich potreby sa rozrastú o ľudí, ako sú analytici a CDO, potom je čas prejsť na platenú verziu SaaS Soda.

Spoločnosť nedávno získala 11,5 milióna eur v rámci série A, čo v kombinácii s ich predchádzajúcim počiatočným financovaním dáva celkovo asi 14 miliónov eur. To by malo spoločnosti Soda poskytnúť dobrú pristávaciu dráhu na rozvoj svojej ponuky s cieľom rozšíriť tím inžinierov a tímov na uvedenie na trh.

Zdá sa, že zakladatelia spoločnosti Soda majú pevný prehľad o krajine, v ktorej pôsobia, ak už nič iné.

Veľké dáta

Ako zistiť, či ste účastníkom porušenia ochrany údajov (a čo robiť ďalej)
Boj proti zaujatosti v AI začína údajmi
Slušná predpoveď? Ako 180 meteorológov poskytuje „dosť dobré“ údaje o počasí
Liečba rakoviny závisí od závratného množstva údajov. Takto je to zoradené v cloude
  • Ako zistiť, či ste účastníkom porušenia ochrany údajov (a čo robiť ďalej)
  • Boj proti zaujatosti v AI začína údajmi
  • Slušná predpoveď? Ako 180 meteorológov poskytuje „dosť dobré“ údaje o počasí
  • Liečba rakoviny závisí od závratného množstva údajov. Takto je to zoradené v cloude