Mehr als Worte: Licht ins Dunkel der Datenterminologie bringen

  • Sep 03, 2023

Datenmanagement, Datenverwaltung, Datenbeobachtbarkeit, Datenstruktur, Datennetz, DataOps, MLOps, AIOps. Da draußen herrscht ein Chaos in der Datenterminologie. Versuchen wir, es zu entwirren, denn Worte sind mehr als nur Fachjargon.

soda-founders.jpg

Maarten Masschelein und Tom Baeyens sind die Mitbegründer von Soda, einem Startup, das gerade von Gartner die Auszeichnung „Cool Vendor in Data Management“ erhalten hat.

Limonade

Wir brauchen XYZ. Definitiv. Es steht in allen Analystenberichten, es ist ein Trend außerhalb der Charts, und auch unsere Konkurrenten haben es. Also lasst uns einen Anbieter finden, der das kann, und investieren. Das sollte es tun.

Leitfaden für Führungskräfte

Business Analytics: Die Grundlagen datengesteuerter Entscheidungsfindung

Daten zeigen, dass datengesteuerte Organisationen bessere Leistungen erbringen. Aber was braucht es, um dorthin zu gelangen?

Lies jetzt

Klingt bekannt? Hoffentlich werden Entscheidungen über Technologieinvestitionen in Ihrem Unternehmen nicht auf diese Weise getroffen. Da sich die Technologie jedoch schneller als je zuvor weiterentwickelt, ist es schwierig, mit der gesamten Terminologie Schritt zu halten. Bedauerlicherweise betrachten manche Menschen die Terminologie als eine Verschleierungsschicht, die dazu dienen soll, diejenigen zu glorifizieren, die sie sich ausgedacht haben, Produkte zu übertreiben und Menschen, die mit Begriffen herumwerfen, schlau erscheinen zu lassen.

Daran mag etwas Wahres sein, aber das bedeutet nicht, dass die Terminologie nutzlos ist. Im Gegenteil, die Terminologie dient dazu, einem echten Bedarf gerecht zu werden, nämlich der Beschreibung neu entstehender Konzepte in einem schnelllebigen Bereich. Im Idealfall sollte ein gemeinsamer Wortschatz das Verständnis verschiedener Konzepte, Marktsegmente und Produkte erleichtern.

Ein typisches Beispiel: Daten- und Metadatenmanagement. Haben Sie schon einmal die Begriffe Datenmanagement, Datenbeobachtbarkeit, Datenstruktur, Datennetz, DataOps, MLOps und AIOps gehört? Aber wissen Sie genau, was jeder von ihnen bedeutet und wie sie alle zusammenhängen? Hier ist Ihre Chance, es herauszufinden.

Datenschichten

Obwohl wir als Analysten in der breiteren Datenlandschaft aktiv sind, müssen wir zugeben, dass uns die oben genannten Punkte auch nicht ganz klar waren. Als wir uns mit Maarten Masschelein und Tom Baeyens trafen, dachten wir, wir würden sie um ihre Meinung bitten. Masschelein und Baeyens sind die Mitbegründer von Soda, ein Startup, das gerade von Gartner die Auszeichnung „Cool Vendor in Data Management“ erhalten hat.

Abgesehen davon, dass sie offiziell als cool bezeichnet werden, gibt es noch einen weiteren Grund, warum sie das ein oder andere wissen könnten: Sie waren schon da. Masschelein war Mitarbeiter Nummer fünf bei Collibra, der seiner Meinung nach der erste war, der Software an Chief Data Officers verkaufte – bevor es das überhaupt gab. Baeyens war Gründer und Projektleiter bei jBPM, ein legendäres Open-Source-Projekt für Geschäftsprozessmanagement (BPM).

Lass uns beginnen mit Datenstruktur. Masschelein betrachtet dies als einen Rahmen für die skalierbare Organisation von Daten – eine Metaebene für den einheitlichen Zugriff auf alle für eine Organisation relevanten Daten, unabhängig davon, wo sie sich befinden.

Eine Data Fabric konzentriert sich auf den technologischen Aspekt dieses einheitlichen Zugriffs auf Daten.

Die wichtigsten Säulen einer Data-Fabric-Architektur, laut Gartner.

Gärtner

Datennetz ist ein ähnliches Konzept, unterscheidet sich jedoch in dem Sinne, dass es sich auf organisatorische Aspekte konzentriert. Masschelein stellt fest, dass Data Mesh einer modernisierten Version der Data-Governance-Prinzipien ähnelt, die auf breitere Datenteams anwendbar ist. Das Ziel besteht darin, zu strukturieren und zu organisieren und einige der früheren Engpässe zu beseitigen, beispielsweise die Abhängigkeit von einem Data-Warehouse-Team. Masschelein sagte:

„Bei Data Mesh geht es im Wesentlichen um den Aufbau von Datenprodukten und Datendiensten. Es handelt sich also um Datenproduktdenken. Bei der Datenverwaltung sprechen wir über die Verwaltung von Daten als Vermögenswert. Wenn wir über die Verwaltung von Daten als Produkt sprechen, ist dies letztendlich spezifischer. Es ist diese Vorstellung, dass wir über zentrale Plattformdienste verfügen sollten. Aber darüber hinaus brauchen wir eine Struktur rund um Datendomänen, Bereiche, Geschäfte, Fachwissen und Wissen, die es uns ermöglicht, sie selbst zu bedienen. Ich denke, das ist der Schlüssel.“

Datenmanagement, fügte Masschelein hinzu, sei ein Begriff, den es bereits seit vielen Jahrzehnten gebe. Es wurde ausführlich beschrieben von Datenverwaltungsverein, wodurch viel Arbeit in Bezug auf die Art und Weise geleistet wurde, wie Daten verwaltet werden sollten. Letztendlich war ein Teil davon das Metadatenmanagement, das Datenkatalogisierungssoftware und Datenherkunftsfunktionen hervorbrachte.

Masschelein sieht Datenüberwachung, Datenbeobachtbarkeit, Und Datentests als spezialisierte Teilbereiche des Qualitätsmanagements innerhalb des umfassenderen Datenmanagementrahmens. Baeyens fügte Kontext zur Datenbeobachtbarkeit hinzu:

„Sie haben Ingenieure, die Datenpipelines bauen. Sie bereiten Daten für die Verwendung in Datenprodukten vor, beispielsweise in Modellen für maschinelles Lernen. Es gibt eine Reihe von Ingenieuren, die regelmäßig neue Produkte entwickeln. Sobald diese Produkte in Produktion gehen, beginnt die Beobachtbarkeit. Da könnten die Daten tatsächlich schlecht werden. Wenn die Modelle, die die Daten nutzen, nicht merken, dass die Daten schlecht sind, führt das zu allerlei sehr kostspieligen und gefährlichen Konsequenzen.“

Datenüberwachung, Tests, Fitness und Zusammenarbeit

Wie für DataOpsEs geht darum, datenbezogene Fähigkeiten zu nutzen, die in Best-Practice-Prozessen organisiert sind, um Datenprodukte mit zunehmender Geschwindigkeit und erhöhter Zuverlässigkeit bereitzustellen. Viele kleine Prozesse müssen eingeführt und standardisiert werden, um eine bessere Arbeit mit Daten zu ermöglichen, ähnlich wie wir es getan haben DevOps im Software-Engineering, sagte Masschelein.

MLOps, das scheinbar austauschbar mit AIOps verwendet wird, basiert auf einer guten DataOps-Grundlage, ist aber spezialisierter. Bei DataOps werden wir beispielsweise die Vorhersagegenauigkeit nicht überwachen. Dies ist spezifisch für das Datenprodukt und auch spezifisch für den Lebenszyklus des Datenprodukts. Masschelein betrachtet es aus einer Lebenszyklusperspektive:

„Das sind zwei verschiedene Dinge, weil der Lebenszyklus eines Datensatzes letztlich nicht eng mit dem Lebenszyklus des maschinellen Lernens oder eines Datenprodukts verknüpft ist.“ Es gibt auch verschiedene Leute, die das machen. Wenn es um die Verwaltung von Daten und DataOps geht, haben wir Datenproduzenten, die außerhalb der Organisation sein können, und Sie haben intern generierte Daten.

Eine andere Sichtweise ist die Werkzeuglandschaft. Und wenn Sie sich den Software-Stack für Überwachung und Observability ansehen, haben wir ganz unten die Infrastruktur. Also schreiben wir zunächst Anwendungen und dann nutzen wir heutzutage Daten und maschinelles Lernen als zwei Arten neuer Ebenen.“

Wir fangen gerade erst mit Software und Plattformen an, um die Überwachung dieser relativ neuen Schichten zu unterstützen, während die anderen schon viel länger existieren, stellt das Duo fest. Und hier kommt die eigene Plattform von Soda ins Spiel. Der Name entstand, weil den Gründern die Idee gefiel, dass stille Datenprobleme wie kohlensäurehaltige Limonade aufsprudeln. Soda umfasst also Überwachung, Tests, Datenfitness und Zusammenarbeit.

Zusammenarbeit ist ein Querschnittsthema, das die Lösung von Problemen im Zusammenhang mit der Datenüberwachung und -qualität erleichtern kann.

Limonade

Bei der Überwachung geht es darum, Datensätze automatisch auf Probleme zu überwachen. Das bedeutet, dass Sie versuchen herauszufinden, ob an den Datensätzen, die in Ihren Umgebungen landen, etwas Ungewöhnliches vorliegt. Wie viele Datensätze haben Sie beispielsweise dieses Mal ungefähr verarbeitet? Ist das ungewöhnlich im Vergleich zu dem, was am selben Tag letzte Woche passiert ist? Soda kann beispielsweise maschinelles Lernen nutzen, um Anomalien zu erkennen.

Die Überwachung deckt jedoch nur einen kleinen Prozentsatz der möglichen Datenprobleme ab. Aus diesem Grund ist das Testen und Validieren von Daten der nächste Schritt. Hier unterstützen Sie sowohl die Dateningenieure als auch die Fachexperten. Hier können Regeln wie „Wir dürfen nur X Prozent der fehlenden Daten in dieser Spalte haben“, „Wir benötigen referenzielle Integrität“ oder „Ein zulässiger Satz von Werten“ festgelegt werden.

Das ist alles schön und gut, aber wenn Sie über ein System zur Erkennung von Datenproblemen verfügen, werden viele Warnungen generiert. Die Frage ist also: Wie gehen Sie mit den Warnungen um? Welchen Geschäftsprozess durchlaufen Sie? Hier kommen Daten-Fitness-Dashboards ins Spiel. Dies ermöglicht die SLA-Verfolgung und gibt den Dateneigentümern einen Überblick über alle Erwartungen an die Daten im gesamten Unternehmen sowie einen Arbeitsablauf zur Lösung von Problemen.

Nicht zuletzt ist die Zusammenarbeit ein Querschnittsthema. Mithilfe von Kollaborationsfunktionen können Menschen mit unterschiedlichen Kenntnissen über das Problem, die häufig über stillschweigendes, undokumentiertes Wissen verfügen, zusammenarbeiten und Probleme lösen. Baeyens erwähnte, dass dies auch Funktionen berührt, die traditionell nicht als Zusammenarbeit angesehen werden. B. indem es Analysten ermöglicht wird, Domänenwissen selbst zu verwalten, ohne Daten einzubeziehen Ingenieure.

Seifenlauge und Soda

Die BPM-Expertise, die Baeyens bei Soda einbringt, wurde beim Aufbau der Plattform genutzt, insbesondere bei der Art und Weise, wie die verschiedenen Module in einem Workflow-Ablauf zusammenpassen. Soda funktioniert mit SQL-Quellen und die Spark-Integration ist fast abgeschlossen. Ziel ist es, einen möglichst großen Teil der Datenlandschaft abdecken zu können.

Soda deckt möglicherweise nicht alle wichtigen Säulen einer umfassenden Datenstruktur gemäß der Gartner-Definition ab, aber andererseits ist es schwer, sich viele Lösungen vorzustellen, die dies tun. Es erweitert jedoch Datenkataloge und konzentriert sich auf DataOps. Darüber hinaus richtet sich Limonade an unterschiedliche Nutzersegmente, was sich auch im Angebot widerspiegelt.

Es gibt eine Open-Source-Schicht, die sich an Dateningenieure richtet. Baeyens glaubt, dass das Benutzersegment nicht unbedingt an einem SaaS-Angebot interessiert ist. Open-Source-Soda-SQL Ziel ist es, einfach zu sein und mit Technologien zu arbeiten, die die Zielgruppe gerne nutzt – SQL und YAML, so Baeyens.

Soda SQL verzeichnet ein gutes Wachstum und eine gute Akzeptanz und ist eine Möglichkeit für Menschen, Soda kennenzulernen. Wenn ihnen jedoch gefällt, was sie sehen, und ihr Bedarf wächst und auch Leute wie Analysten und CDOs einschließen, dann ist es an der Zeit, auf die kostenpflichtige SaaS-Version von Soda umzusteigen.

Das Unternehmen vor kurzem erhielt eine Serie-A-Finanzierung in Höhe von 11,5 Millionen Euro, was zusammen mit der bisherigen Startfinanzierung eine Gesamtsumme von rund 14 Millionen Euro ergibt. Dies sollte Soda eine gute Ausgangslage für die Weiterentwicklung seines Angebots bieten, mit dem Ziel, sowohl das Engineering- als auch das Go-to-Market-Team zu vergrößern.

Die Gründer von Soda scheinen nicht zuletzt die Landschaft, in der sie tätig sind, genau zu kennen.

Große Daten

So finden Sie heraus, ob Sie in einen Datenverstoß verwickelt sind (und was als nächstes zu tun ist)
Der Kampf gegen Voreingenommenheit in der KI beginnt bei den Daten
Faire Prognose? Wie 180 Meteorologen „ausreichend gute“ Wetterdaten liefern
Krebstherapien sind auf schwindelerregende Datenmengen angewiesen. So ist es in der Cloud sortiert
  • So finden Sie heraus, ob Sie in einen Datenverstoß verwickelt sind (und was als nächstes zu tun ist)
  • Der Kampf gegen Voreingenommenheit in der KI beginnt bei den Daten
  • Faire Prognose? Wie 180 Meteorologen „ausreichend gute“ Wetterdaten liefern
  • Krebstherapien sind auf schwindelerregende Datenmengen angewiesen. So ist es in der Cloud sortiert