Mere end ord: kaste lys over dataterminologiroden

Datastyring, datastyring, dataobservabilitet, datastruktur, datamesh, DataOps, MLOps, AIOps. Det er et rod med dataterminologi derude. Lad os prøve at udrede det, for der er mere til ord end lingo.

Maarten Masschelein og Tom Baeyens er medstifterne af Soda, en startup, der netop har vundet prisen "Cool Vendor in Data Management" af Gartner.
Soda

Vi har brug for XYZ. Helt bestemt. Det er i alle analytikerrapporter, det er på vej væk fra hitlisterne, og vores konkurrenter har det også. Så lad os finde en leverandør, der har det, og få os selv til at investere. Det burde gøre det.

executive guide

Forretningsanalyse: Det væsentlige i datadrevet beslutningstagning

Data viser, at datadrevne organisationer klarer sig bedre. Men hvad skal der til for at komme dertil?

Læs nu

Lyder det bekendt? Forhåbentlig træffes beslutninger om teknologiinvesteringer i din virksomhed ikke på denne måde. Men da teknologien udvikler sig hurtigere end nogensinde, er det svært at følge med i al terminologien. Desværre ser nogle mennesker terminologi som et sløringslag beregnet til at glorificere dem, der finder på det, hype-produkter og få folk, der smider vendinger rundt omkring, til at fremstå smarte.

Der kan være en vis sandhed i dette, men det betyder ikke, at terminologi er ubrugelig. Tværtimod er terminologien til for at imødekomme et reelt behov, som er at beskrive nye begreber i et hurtigt bevægende domæne. Ideelt set bør et fælles ordforråd lette forståelsen af forskellige koncepter, markedssegmenter og produkter.

Eksempel: data- og metadatahåndtering. Har du hørt begreberne datastyring, dataobservabilitet, datastruktur, datamesh, DataOps, MLOps og AIOps før? Men ved du præcis, hvad hver af dem betyder, og hvordan de alle er relateret? Her er din chance for at finde ud af det.

Datalag

På trods af at vi er aktive som analytikere i det bredere datalandskab, må vi indrømme, at heller ikke alt ovenstående var helt klart for os. Så da vi mødtes med Maarten Masschelein og Tom Baeyens, regnede vi med, at vi ville bede om deres bud. Masschelein og Baeyens er medstiftere af Soda, en startup, der netop har vundet prisen "Cool Vendor in Data Management" af Gartner.

Udover at blive officielt udråbt som seje, er der en anden grund til, at de måske ved en ting eller to: de har været med. Masschelein var medarbejder nummer fem kl Collibra, som med hans ord var den første, der solgte software til Chief Data Officers -- før det overhovedet var en ting. Baeyens var stifter og projektleder på jBPM, et legendarisk business process management (BPM) open source-projekt.

Lad os starte med datastof. Masschelein ser dette som en ramme for at organisere data til skala - et metalag til at få adgang til alle data, der er relevante for en organisation, uanset hvor de befinder sig, på en samlet måde.

Et datastof fokuserer på det teknologiske aspekt af denne forenede adgang til data.

Nøglepillerne i en datastrukturarkitektur ifølge Gartner.

Gartner

Data mesh er et lignende koncept, men anderledes i den forstand, at det fokuserer på organisatoriske aspekter. Masschelein finder, at datanetværk er beslægtet med en moderniseret version af datastyringsprincipper, der gælder for bredere datateams. Målet er at strukturere og organisere og fjerne nogle af de tidligere flaskehalse, såsom afhængighed af et datavarehusteam. Masschelein sagde:

"Med datamesh handler det grundlæggende om at bygge dataprodukter og datatjenester. Så det er dataprodukttænkning. I datagovernance taler vi om håndtering af data som et aktiv. Når vi taler om at administrere data som et produkt, er dette i sidste ende mere specifikt. Det er denne opfattelse, at vi skal have kerneplatformstjenester. Men så skal vi oven i købet have struktur omkring datadomæner, områder, forretning, ekspertise og viden, så de kan være selvbetjente. Jeg tror, det er nøglen«.

Datastyring, fortsatte Masschelein med at tilføje, er et udtryk, der allerede har eksisteret i mange årtier. Det er blevet udførligt beskrevet af dataforvaltningsforening, som har arbejdet meget omkring, hvordan data skal administreres. I sidste ende var en del af det metadata management, som udsprang datakatalogiseringssoftware og datalinjekapaciteter.

Masschelein ser dataovervågning, observerbarhed af data, og data test som specialiserede underdomæner af kvalitetsstyring inden for den bredere datastyringsramme. Baeyens tilføjede kontekst om dataobservabilitet:

"Du har ingeniører, der bygger datapipelines. De forbereder data til brug i dataprodukter, såsom maskinlæringsmodeller. Der er en flok ingeniører, der jævnligt udvikler nye produkter. Når først disse produkter kommer i produktion, er det her observerbarheden starter. Det er her, dataene faktisk kan blive dårlige. Hvis modellerne, der bruger dataene, ikke opdager, at dataene er dårlige, fører det til alle mulige meget dyre og farlige konsekvenser."

Dataovervågning, test, fitness og samarbejde

Som for DataOps, det handler om at bruge funktioner relateret til data, organiseret i best practice processer til at levere dataprodukter med en stigende hastighed, alt sammen med øget pålidelighed. Mange små processer skal på plads og standardiseres for at gøre det muligt at arbejde bedre med data, svarende til hvad vi har gjort med DevOps i software engineering, sagde Masschelein.

MLOps, som ser ud til at blive brugt i flæng med AIOps, er afhængig af et godt DataOps-grundlag, men er mere specialiseret. I DataOps vil vi for eksempel ikke overvåge forudsigelsesnøjagtighed. Det er specifikt for dataproduktet og også specifikt for dataproduktets livscyklus. Masschelein tænker over det fra et livscyklusperspektiv:

"Det er to separate ting, fordi et datasæts livscyklus i sidste ende ikke er tæt koblet til livscyklussen for maskinlæring eller et dataprodukt. Det er der også forskellige mennesker, der gør. Når det kommer til håndtering af data og DataOps, har vi dataproducenter, som kan være eksterne i forhold til organisationen, og du har internt genereret data.

En anden måde at se det på er værktøjslandskabet. Og hvis du ser på overvågnings- og observerbarhedssoftwarestakken, har vi infrastruktur i bunden. Så først skriver vi applikationer, og så bruger vi i dag data og maskinlæring som to slags nye lag".

Vi er lige begyndt med software og platforme for at hjælpe med at overvåge disse relativt nye lag, hvorimod de andre har eksisteret meget længere, bemærker duoen. Og det er her Sodas egen platform kommer i spil. Navnet opstod, fordi grundlæggerne kunne lide ideen om, at tavse dataproblemer boblede op, som sodavand. Så sodavand dækker over overvågning, test, datafitness og samarbejde.

Samarbejde er en tværgående bekymring, der kan lette en løsning af spørgsmål vedrørende dataovervågning og kvalitet.

Soda

Overvågning handler om automatisk overvågning af datasæt for problemer. Det betyder, at du prøver at finde ud af, om der er noget unormalt ved de datasæt, der lander i dine miljøer. For eksempel, cirka hvor mange poster behandlede du denne gang? Er det unormalt i forhold til, hvad der var samme dag i sidste uge? Sodavand kan f.eks. bruge maskinlæring til at spotte anomalier.

Men overvågning dækker kun en lille procentdel af de typer dataproblemer, du kan have. Derfor er datatest og validering næste skridt. Det er her, du aktiverer både dataingeniørerne og fageksperter. Det er her regler som "Vi kan kun have X procent af manglende data i denne kolonne", "Vi har brug for referenceintegritet" eller "Et tilladt sæt værdier" kan angives.

Det er i orden, men hvis du har et system til opdagelse af dataproblemer, vil det skabe en masse alarmer, så spørgsmålet er: Hvordan håndterer du alarmerne? Hvad er den forretningsproces, du gennemgår? Det er her, data fitness-dashboards kommer ind. Dette muliggør SLA-sporing, hvilket giver dataejere et overblik over alle forventninger til data på tværs af organisationen og en arbejdsgang omkring løsning af problemer.

Sidst, men ikke mindst, er samarbejde en tværgående bekymring. At have samarbejdsfunktioner gør det muligt for mennesker med forskellig viden om problemet, som ofte har tavs, udokumenteret viden, at arbejde sammen og løse problemer. Baeyens nævnte, at dette også berører funktioner, der ikke traditionelt opfattes som samarbejde, såsom at gøre det muligt for analytikere selv at administrere domæneviden uden involvering af data ingeniører.

Skum og sodavand

Den ekspertise inden for BPM, som Baeyens bringer til Soda, er blevet udnyttet i opbygningen af platformen, specifikt i hvordan de forskellige moduler passer sammen i en workflow-progression. Soda arbejder med SQL-kilder, og Spark-integration er der næsten. Målet er at kunne dække så meget af datalandskabet som muligt.

Sodavand dækker muligvis ikke alle de vigtigste søjler i et omfattende datastof i henhold til Gartner-definitionen, men det er igen svært at tænke på mange løsninger, der gør. Det udvider dog datakataloger med fokus på DataOps. Derudover henvender sodavand sig til forskellige brugersegmenter, og det afspejles også i dens udbud.

Der er et open source-lag rettet mod dataingeniører. Baeyens mener, at brugersegmentet ikke nødvendigvis er interesseret i et SaaS-tilbud. Open source Soda SQL har til formål at være enkel og arbejde med teknologi, som dens målgruppe kan lide at bruge - SQL og YAML, ifølge Baeyens.

Soda SQL oplever god vækst og adoption, og det er en måde for folk at lære Soda at kende. Men hvis de kan lide, hvad de ser, og deres behov vokser til at omfatte mennesker såsom analytikere og CDO'er, så er det tid til at gå over til den betalte SaaS-version af Soda.

Virksomheden for nylig modtaget €11,5 millioner i serie A-finansiering, hvilket kombineret med deres tidligere startfinansiering giver i alt omkring €14 mio. Det skulle give Soda en god bane til at udvikle sit tilbud med det formål at vokse både ingeniør- og go-to-market-teamet.

Sodas grundlæggere ser ud til at have et fast greb om det landskab, de opererer i, om ikke andet.

Big Data

Sådan finder du ud af, om du er involveret i et databrud (og hvad du skal gøre nu)

Bekæmpelse af bias i AI starter med dataene

Fair prognose? Hvordan 180 meteorologer leverer 'godt nok' vejrdata

Kræftbehandlinger afhænger af svimlende mængder af data. Sådan er det sorteret i skyen

Sådan finder du ud af, om du er involveret i et databrud (og hvad du skal gøre nu)
Bekæmpelse af bias i AI starter med dataene
Fair prognose? Hvordan 180 meteorologer leverer 'godt nok' vejrdata
Kræftbehandlinger afhænger af svimlende mængder af data. Sådan er det sorteret i skyen