Strata 2015 Post Mortem: Erwartungen an intelligente, schnelle Anwendungen wecken

  • Sep 16, 2023

Ovum-Chefanalyst Tony Baer liefert eine Zusammenfassung und Analyse dessen, was er letzte Woche bei Strata + Hadoop World in New York gelernt hat.

baer-headshot-v3.png

Tony Bär

Dieser Gastbeitrag stammt mit freundlicher Genehmigung von Tony Baers OnStrategies-Blog. Bär ist ein Hauptanalytiker Abdeckung von Big Data unter Ovum.

Vor einem Jahr, Gewinner des Turing-PreisesDr. Michael Stonebraker wies darauf hin, dass, wenn man versucht, mehr als eine Handvoll Datensätze zu verwalten, den manuellen Ansätzen die Kraft ausgeht und die Maschine zur Hilfe kommen muss. Er bezog sich auf die Aufgabe, Datensätze im Kontext der Fähigkeiten seines neuesten Startups zu katalogisieren. Tamr. Wenn Ihr typisches Data Warehouse oder Data Mart drei oder vier Datenquellen umfasst, ist dies für Sie möglich Machen Sie sich mit den Besonderheiten jedes Datensatzes vertraut und lernen Sie, wie Sie diese für Analysen integrieren können.

Aber erhöhen Sie diese Zahl auf Dutzende, wenn nicht Hunderte oder Tausende von Datensätzen, und jedes menschliche Gehirn wird gegen die Wand stoßen – vielleicht im wahrsten Sinne des Wortes. Und hier machte maschinelles Lernen Big Data erstmals zugänglich, nicht nur für Datenwissenschaftler, sondern auch für Geschäftsanwender. Vorgestellt von

Paxata, und seitdem nutzen diese Tools durch eine lange Reihe von Start-ups und bekannten Namen maschinelles Lernen, um dem Benutzer zu helfen Daten streiten durch einen neuartigen iterativen Prozess. Seitdem werden Analysetools wie z Watson Analytics von IBM setzen maschinelles Lernen ein, um Endbenutzer bei der Durchführung prädiktiver Analysen zu unterstützen.

Den Boden der letzten Woche begehen Strata Hadoop-Welt In New York sahen wir, wie maschinelles Lernen „neue“ Ansätze zum Aufbau von Data Warehouses vorantreibt. Infoworks überwacht, auf welche Daten Endbenutzer ihre Abfragen abzielen, indem es bei der Überwachung von Protokollen einen Ansatz verfolgt, der der Erfassung von Änderungsdaten ähnelt; Aber anstatt nur Änderungen zu verfolgen (was für die Datenherkunft nützlich ist), leitet es das Datenmodell ab und erstellt OLAP-Würfel. Alation, ein weiteres Startup, verwendet einen ähnlichen Ansatz zum Crawlen von Datensätzen, um Kataloge mit Google-like zu erstellen PageRanks Zeigt an, welche Tabellen und Abfragen am beliebtesten sind. Ergänzt wird es durch eine Kollaborationsumgebung, in der Menschen Kontext hinzufügen, und eine Abfragefunktion in natürlicher Sprache, die den Katalog durchsucht.

So wie maschinelles Lernen den Datentransformationsprozess verändert, um Geschäftsanwendern die Orientierung zu erleichtern Durch Big Data beginnt es auch, die Informationen bereitzustellen, mit denen Geschäftsanwender effektiver arbeiten können explorative Analytik. Während in den letzten Jahren interaktives SQL der härteste Wettbewerb für Hadoop-Anbieter war, konnten etablierte BI-Tools damit umgehen Hadoop ist lediglich ein größeres Data Warehouse – maschinelles Lernen wird von entscheidender Bedeutung sein, um Benutzern dabei zu helfen, mit explorativen Analysen im Großen und Ganzen produktiv zu sein Daten.

Was maschinelles Lernen innerhalb eines interaktiven Erlebnisses ermöglicht, ist das Entstehen Funke Rechenmaschine. Spark macht Hadoop von einer Big-Data-Plattform zu einer Fast-Data-Plattform. Mittlerweile enthält jede kommerzielle Hadoop-Distribution eine Spark-Implementierung, wobei die Auswahl der Spark-Engines (z. B. SQL, Streaming, Machine Learning und Graph) je nach Anbieter unterschiedlich ist. Vor ein paar Monaten hat IBM dies angekündigt Investieren Sie 300 Millionen US-Dollar und widmen Sie 3500 Entwicklern Spark Produktentwicklung für maschinelles Lernen, gefolgt von der Ankündigung von Cloudera Eine Plattform Initiative, um die Lücken von Spark zu schließen.

Und so wurde unsere Aufmerksamkeit durch die Strata-Session von Netflix geweckt Spark im Petabyte-Bereich ausführen. Zu den Schwächen von Spark gehört, dass es nicht konsistent über tausend Knoten skaliert wurde und nicht für eine hohe Parallelität bekannt ist. Das Data Warehouse von Netflix ist derzeit maximal 20 Petabyte groß und bedient etwa 350 Benutzer (wir gehen davon aus, dass es sich um technisch versierte Datenwissenschaftler und Dateningenieure handelt). Spark steckt bei Netflix noch in den Kinderschuhen; Während die Arbeitslasten wachsen, sind sie nicht auf einem Niveau, das einen dedizierten Cluster rechtfertigen würde (Netflix führt seine Datenverarbeitung in der Amazon-Cloud auf S3-Speicher aus). Ein Großteil der Spark-Workloads dient dem Streaming und wird unter YARN ausgeführt. Und das führt zu einer Reihe von Problemen, die zeigen, dass Spark bei großem Maßstab und hoher Parallelität noch in Arbeit ist.

Zu den Problemen, an denen Netflix arbeitet, um Spark zu skalieren, gehört das Hinzufügen von Caching-Schritten, um das Laden großer Datenmengen zu beschleunigen. Damit verbunden ist die Verringerung der Latenz beim Abrufen großer Metadatensätze („Listenaufrufe“), die häufig mit großen Datensätzen verbunden sind. Netflix arbeitet an einer Optimierung, die auch für Amazons S3 gelten soll. Ein weiteres Skalierungsproblem im Zusammenhang mit dem Scannen von Dateien (Spark scannt normalerweise alle Hive-Tabellen, wenn eine Abfrage zum ersten Mal ausgeführt wird); Netflix hat eine Problemumgehung entwickelt, um die Prädikatenverarbeitung herunterzufahren, sodass Abfragen nur relevante Tabellen scannen.

Für die meisten Geschäftsanwender wird das Problem der Spark-Skalierung nicht relevant sein, da nicht erwartet wird, dass ihre Abfragen routinemäßig mehrere Petabyte an Daten umfassen. Doch damit Spark sein Versprechen einlösen kann, MapReduce für iterative, komplexe und datenintensive Workloads zu ersetzen, wird sich die Skalierung als wesentliche Hürde erweisen. Wir haben kaum Zweifel daran, dass die große Spark-Community dieser Aufgabe gewachsen sein wird. Aber die Zukunft wird nicht unbedingt immer nur Spark sein. Halten Sie Ausschau nach dem Apex Streaming-Projekt; Es hat einige wichtige Auftraggeber angezogen, die für ihre Unterstützung bekannt sind Sturm.