Optimierung der Datenwissenschaft mit Open Source: Datenversionskontrolle und kontinuierliches maschinelles Lernen

  • Sep 05, 2023

Kann ein Open-Source-basierter Workflow, der Versionskontrolle sowie kontinuierliche Integration und Bereitstellung nutzt, dazu beitragen, maschinelles Lernen zu rationalisieren, wie es bei der Softwareentwicklung der Fall war?

MLOps, kurz für Machine Learning Operations, ist das Äquivalent von DevOps für Machine-Learning-Modelle: Taking them von der Entwicklung bis zur Produktion und Verwaltung ihres Lebenszyklus im Hinblick auf Verbesserungen, Korrekturen, Neubereitstellungen usw An.

Grundierungen

  • Was ist KI? Alles, was Sie wissen müssen
  • Was ist maschinelles Lernen? Alles, was Sie wissen müssen
  • Was ist Deep Learning? Alles, was Sie wissen müssen
  • Was ist künstliche allgemeine Intelligenz? Alles, was Sie wissen müssen

Das MLOps-Nirvana erreichen ist ein großes Hindernis für die Wertschöpfung aus maschinellem Lernen und Datenwissenschaft. Versionskontrollsysteme wie Git und Praktiken wie Kontinuierliche Integration / kontinuierliche Bereitstellung (CI/CD) haben zur Operationalisierung der Softwareentwicklung beigetragen.

Was wäre, wenn diese Systeme und Praktiken auch für MLOps verwendet werden könnten? Iterative.ai möchte dieser Frage mit den Open-Source-Projekten Data Version Control und Continuous Machine Learning nachgehen.

Versionskontrolle in maschinelles Lernen integrieren

Dateningenieure, maschinelles Lernen und Data-Science-Praktiker arbeiten mit einer Vielzahl von Daten. Sie benötigen einen Workflow und unterstützende Tools, um den Überblick über ihre Artefakte und deren Versionen zu behalten, Probleme zu lösen und team- und systemübergreifend zusammenzuarbeiten.

Iterative.ai ist ein MLOps-Unternehmen, das sich der Rationalisierung des Arbeitsablaufs von Datenwissenschaftlern widmet. Heute haben sie die neuesten Versionen von Data Version Control angekündigt (DVC) und kontinuierliches maschinelles Lernen (CML) Open-Source-Projekte.

Iterative.ai behauptet, dass DVC und CML den Bedarf an proprietären KI-Plattformen überflüssig machen, indem sie herkömmliche Softwaretools wie Git und CI/CD erweitern, um den Anforderungen von Ingenieuren für maschinelles Lernen gerecht zu werden. ZDNet Kontakt mit Dmitry Petrov, CEO und Gründer von Iterative.ai, um mehr über DVC und CML zu erfahren.

CML ist ein Open-Source-Projekt, das den Workflow für maschinelles Lernen erleichtern soll

Das Ziel von DVC besteht darin, Agilität, Reproduzierbarkeit und Zusammenarbeit in bestehende Data-Science-Workflows zu integrieren. DVC bietet Benutzern eine Git-ähnliche Schnittstelle zum Versionieren von Daten und Modellen und bringt Versionskontrolle in das maschinelle Lernen, um die Herausforderungen der Reproduzierbarkeit zu bewältigen.

DVC basiert auf Git und ermöglicht Benutzern die Erstellung kompakter Metadateien und ermöglicht es dem System, große Dateien zu verarbeiten, anstatt sie in Git zu speichern. Es funktioniert mit Remote-Speicherung für große Dateien in der Cloud oder einem lokalen Netzwerkspeicher.

CML ist eine Open-Source-Bibliothek zur Implementierung von Continuous Integration and Delivery (CI/CD) in maschinellen Lernprojekten. Benutzer können Teile ihres Entwicklungsworkflows automatisieren, einschließlich Modelltraining und -bewertung, Vergleich von Experimenten zum maschinellen Lernen im gesamten Projektverlauf und Überwachung sich ändernder Datensätze. CML generiert außerdem automatisch Berichte mit Metriken und Diagrammen in jeder Git-Pull-Anfrage.

SEHEN: Analytics: Big-Data-Wissenschaft in eine Geschäftsstrategie verwandeln (ZDNet/TechRepublic-Sonderfeature) | Laden Sie die kostenlose PDF-Version herunter (TechRepublic)

Projekte und Produkte

Das klingt fast zu schön, um wahr zu sein: vollständig Open-Source-Projekte, die diese Art von Funktionalität und Wert bieten? Großartig, aber was ist der Haken und für wen? Sind die Projekte wirklich Open Source oder vielleicht Open Core – d. h. gibt es proprietäre Teile? Und was ist das Geschäftsmodell von iterative.ai?

Ein gehosteter Dienst (SaaS-Angebot) für DVC und CML erscheint auf den ersten Blick unwahrscheinlich. Wie Petrov feststellte, gibt es kein gehostetes DVC oder CML, da sie wie Git oder Terraform verteilt und vor Ort installiert sind. Das Geschäftsmodell, fügte Petrov hinzu, sei ähnlich HashiCorp:

„Wir entwickeln Open-Source-Tools und stellen sie den Praktikern kostenlos zur Verfügung. Wir erstellen DVC und CML, während HashiCorp Terraform, Vault und andere erstellt. Die Monetarisierung erfolgt aus Unternehmensszenarien (bessere Datenzugriffskontrolle, Sicherheit, Integrationen, Teamzusammenarbeit usw.). Das sind separate Produkte zusätzlich zu DVC und CML.“

DVC ist ein Open-Source-Projekt, das Dateningenieuren und Praktikern des maschinellen Lernens dabei helfen soll, die Versionskontrolle für ihre Projekte zu nutzen

Das andere, was uns an der Kombination von DVC und CML auffiel, ist, dass sie offenbar eine Menge Funktionalität bieten, die eigentlich recht komplex ist. Die meisten Softwareentwickler verwenden Git beispielsweise nicht über die Befehlszeile, sondern über IDEs – visuelle Tools für die Softwareentwicklung, die die Versionskontrolle über Git integrieren.

Leitfaden für Führungskräfte

Was ist maschinelles Lernen? Alles, was Sie wissen müssen

Hier erfahren Sie, wie es mit künstlicher Intelligenz zusammenhängt, wie es funktioniert und warum es wichtig ist.

Lies jetzt

Es stellt sich heraus, dass es hier eine Analogie gibt. Iterative.ai bietet zusätzlich zu DVC und CML auch DVC-Studio, Packing-UI und Kollaborationsfunktionen. Petrov verglich dies mit Git + GitHub. DVC-Studio ist kein Open Source und auch noch nicht offiziell veröffentlicht:

„Heutzutage verwenden die Leute DVC und CML so, wie sie sind, und es ist größtenteils eine Befehlszeilenerfahrung. Ohne Studio sind diese beiden weiterhin funktionsfähig. Wie Git und GitHub – man braucht weder GitHub noch GitLab, um Git zu verwenden, aber es ist schön, es zu haben“, sagte Petrov.

Von der Gemeinschaft zum Unternehmen

Wie viele Menschen nutzen DVC und CML heute tatsächlich so, wie sie sind? Ziemlich viel, wie es scheint. Iterative.ai zählt über 400 Unternehmen, über 4.000 Community-Mitglieder sowie über 200 Mitwirkende und über 7.000 Github-Stars. Petrov erwähnte außerdem mehr als 2.000 zusätzliche Benutzer für DVC.

Petrov, promovierter Informatiker, ist selbst Datenwissenschaftler, zuvor bei Microsoft – Bing. DVC war sein Lieblingsprojekt, als er es 2017 startete, bevor er zusammen mit dem Mitbegründer und Ex-Kollegen Ivan Shcheklein iterative.ai gründete.

In der heutigen Ankündigung hob Petrov leichtgewichtige Experimente zum maschinellen Lernen als Hauptmerkmal von DVC 2.0 hervor. DVC ist Hervorragend geeignet, um Machine-Learning-Projekte reproduzierbar zu machen, es entsteht jedoch ein gewisser Overhead, da für jeden Schritt oder jedes Mal ein Git-Commit erforderlich ist Experiment.

Das Produktangebot von iterative.ai basiert auf DVC und CML

DVC 2.0 vereinfacht und automatisiert dieses Erlebnis. Experimente zum maschinellen Lernen können jetzt mit einem einzigen Befehl erstellt werden und sind vollständig reproduzierbar, sagte Petrov. Ein weiterer Schritt zum Experimentieren sind Prüfpunkte für maschinelles Lernen und Live-Metriken oder Protokolle.

Diese beiden sind wichtig für Deep-Learning-Szenarien, wenn Sie das maschinelle Lernen verfolgen müssen Trainingsprozess und verwenden Sie nicht das neueste Modell, sondern eines der Vorgängermodelle (Checkpoints), Petrov hinzugefügt.

Heutzutage erfolgt die Einführung von DVC und CML ausschließlich von unten nach oben und wird von der Community vorangetrieben. Allerdings liegen uns keine weiteren Details zu spezifischen Unternehmensanwendungsfällen oder dem Vorhaben von iterative.ai vor Petrov unterstützte an dieser Stelle und erwähnte, dass geplant sei, die derzeitige Mitarbeiterzahl von 19 auf über 30 zu erhöhen im Jahr 2021.

DVC und CML scheinen eine vernünftige Idee zu sein, und die Einführung sieht vielversprechend aus. Es lohnt sich, die Projekte und auch iterative.ai im Auge zu behalten, um zu sehen, wie Traktion sich auf Unternehmensnutzung und Nachhaltigkeit auswirkt.

Große Daten

So finden Sie heraus, ob Sie in einen Datenverstoß verwickelt sind (und was als nächstes zu tun ist)
Der Kampf gegen Voreingenommenheit in der KI beginnt bei den Daten
Faire Prognose? Wie 180 Meteorologen „ausreichend gute“ Wetterdaten liefern
Krebstherapien sind auf schwindelerregende Datenmengen angewiesen. So ist es in der Cloud sortiert
  • So finden Sie heraus, ob Sie in einen Datenverstoß verwickelt sind (und was als nächstes zu tun ist)
  • Der Kampf gegen Voreingenommenheit in der KI beginnt bei den Daten
  • Faire Prognose? Wie 180 Meteorologen „ausreichend gute“ Wetterdaten liefern
  • Krebstherapien sind auf schwindelerregende Datenmengen angewiesen. So ist es in der Cloud sortiert