Hortonworks spielt den Spagat in der Cloud

  • Oct 30, 2023

Unter den großen Anbietern von Elefantenplattformen ist Hortonworks nach wie vor der letzte, der sich nicht scheut, Hadoop mit seinem Namen in Verbindung zu bringen. Aber nach dem DataWorks Summit dieser Woche ist es offensichtlich, dass Hortonworks und Data-Warehousing-Anbieter in einer zunehmend Cloud-zentrierten Welt die gleiche Rolle in der Analyse spielen wollen.

dataworks-summit-san-jose-2017-keynote.png

In mancher Hinsicht Hortonworks ist insofern altmodisch, als es immer noch an dem hohen Ziel festhält, die Hälfte der weltweiten Daten zu verwalten Eine Ära, in der Cloud-Objektspeicher und maßgeschneiderte Analysedienste weitere Alternativen zum hinzufügen mischen. Das ehrgeizige Ziel von Hortonworks ist vielleicht nicht realistisch, aber egal, es gibt größere Fische zu braten.

Die zugrunde liegende Botschaft des diesjährigen North American DataWorks-Gipfel und Analystenbriefings ist, dass das Unternehmen im Wettbewerb steht und vor den Herausforderungen steht, sich in einer multipolaren Cloud-Welt zurechtzufinden.

Mein datenfreudiger Bruder Andrew Brust

berichtete über die Schlagzeilen erscheint Anfang der Woche: Hortonworks veröffentlicht das 3.0-Version davon Datenplattform das basiert verwirrenderweise darauf Hadoop 3.1. Als wir haben berichtet Zu Beginn des Jahres markierte die 3.x-Generation von Apache Hadoop einen Wendepunkt in Sachen Containerisierung und Speicherung. HDP 3.0 fügt YARN-Unterstützung für die Ausführung von Docker-Containern hinzu, was bedeutet, dass Sie containerisierte Jobs mit allen integrierten Abhängigkeiten und Konfigurationen ausführen können. Es unterstützt auch Erasure Coding, bietet einen Weg zum Tiering von Daten und beginnt mit der abstrahierten Unterstützung für spezielle Hardware wie GPUs.

Das Unternehmen stabilisiert sich finanziell. Oben angekommen ein Q4 Das Schlage die Straße, der neuesten Q1-Quartal das im Mai endete, zeigte einen positiven Cashflow. Im Gegensatz zu Cloudera, Hortonworks hat dieses Kunststück bisher geschafft, ohne die Forschung und Entwicklung zu kürzen. Doch bei allen Anbietern, deren Plattformen auf Hadoop basieren, herrscht ein gemeinsamer Nenner: die Abschottung die Luken, insbesondere wenn es um die Kundenakquise geht – nur dass sich Hortonworks weniger lautstark äußert Es.

Nachdem letztes Jahr bekannt gegeben wurde, dass die Zusammenarbeit mit IBM deutlich ausgeweitet wird und sich auf eine gemeinsame Partnerschaft erstreckt Als wir auf den Markt und das Produkt eingingen, war die offene Frage, ob dieses Jahr Fortschritte in Richtung Heirat zeigen würden. Nach einem Jahr waren zwar spürbare Auswirkungen auf die Zahl der neuen HDP-Kunden in der IBM-Basis zu verzeichnen, aber im Großen und Ganzen noch nicht sehr beeindruckend. Der langsame Ausbau der Beziehung verdeutlicht die Herausforderung, ein riesiges Unternehmen wie IBM im Handumdrehen zu sanieren, und zeigt, dass der Kundenstamm von Hortonworks immer noch Wert auf Unabhängigkeit legt. Aber es gab eine neue Entwicklung in der IBM-Beziehung: Sie eröffnet eine neue IBM Hosted Analytics mit Hortonworks (IHAH) Cloud-Service, der auch IBM Db2 Big SQL und die IBM Data Science Experience bündelt. Dieses Akronym haben wir uns übrigens nicht ausgedacht.

Auch wenn Hortonworks und IBM versuchen, beste Freundinnen zu werden, lässt sich Microsoft kaum in die Karten schauen. Dies ist das Unternehmen, in dem Azure HDInsight stellte Hortonworks seinen ersten großen OEM-Kanal zur Verfügung. Hortonworks und Microsoft hat die Azure-Beziehung wieder gestärktund erweitert es auf die IaaS-Seite, wo es neue gemeinsame Entwicklung und Unterstützung für die Optimierung von HDP auf der Azure-Kerninfrastruktur gibt. Am Horizont erwarten wir eine erweiterte Unterstützung von Azure Data Lake Storage (ADLS), eine optimiertere Form des Cloud-Speichers, die einer Strategie entspricht, der sich Cloudera bereits angeschlossen hat.

Vergessen wir nicht Google Cloud. Hortonworks hat den ersten großen Schritt getan Für die GCP-Plattform optimieren mit Unterstützung von Google Cloud Storage. Damit liegt Google auf Augenhöhe mit dem, was Hortonworks bereits mit AWS und Azure macht.

Doch mit der Flut an Cloud-Ankündigungen geht eine maßvollere Haltung seitens der Hortonworks-Kunden einher. Obwohl das Unternehmen die Cloud-Umsätze nicht aufschlüsselt, schätzt es, dass etwa 20 % seiner Kundenbasis mindestens eine HDP-Implementierung in der Cloud haben. Angesichts der Tatsache, dass Hadoop-Anbieter wie Hortonworks ihr Geschäft mit bestehenden Kunden ausbauen, ist das relativ bewusste Tempo der Cloud-Einführung ist verständlich, da dies weitgehend die Migration bestehender Arbeitslasten von Early Adopters erfordern würde, die wahrscheinlich bereits über die Fähigkeiten verfügen, ihre Arbeitslasten zu verwalten Cluster. Sicher, da immer mehr Workloads Daten umfassen, die in der Cloud gespeichert sind, werden Sie feststellen, dass ein höherer Prozentsatz der installierten Basis dort implementiert wird. Bedenken Sie jedoch, dass dies nicht die primäre Kohorte ist, die eine Cloud-Vereinfachung fordert, da die installierte Basis von Hortonworks vor allem auf die frühen Hadoop-Anwender setzt.

Und mit der Cloud sind Hortonworks und andere Anbieter von Hadoop-Plattformen nicht mehr die einzigen Anbieter für Big-Data-Analysen. Es gibt viele À-la-carte-Dienste für die Ausführung von R- oder Python-Projekten, ganz zu schweigen von maschinellem Lernen und Deep Learning Lern-Workloads und da Cloud-Speicher de facto zum Datensee wird, benötigen Sie nicht unbedingt Hadoop, um ausgeführt zu werden ihnen. Der Unterschied, den Hadoop bietet, ist die Governance, aber das ist auch die Domäne etablierter Data-Warehouse-Betreiber, die auch die Ausführung vielfältigerer Analyse-Workloads in Betracht ziehen.

Dies schafft die Grundlage für die feindlichen Beziehungen aller etablierten Anbieter mit den AWSs, Azures und GCPs der Welt. So seltsam es auch erscheinen mag, sich Hortonworks oder Cloudera und MapR als Teil des lokalen „Vermächtnisses“ vorzustellen, sie stehen vor der Herausforderung, dies zu tun Entgegenwirken Sie der Wahrnehmung, dass native Plattformen von Cloud-Anbietern wie EMR, Cloud Dataproc oder Punktdienste zum neuen Big-Data-Standard in der Welt werden Wolke.

Für Hortonworks ist das der Ort Dataplane-Dienste (DPS) kommt herein. Als Wir haben letzten Herbst darüber berichtet, DPS ist eigentlich ein Katalog von Katalogen zum Registrieren und Katalogisieren von Datendiensten. Um DPS benutzerfreundlicher zu machen, beginnt Hortonworks mit der Einführung einer Reihe aufgaben- oder rollenorientierter Plug-Ins, beginnend mit Data Analytics Studio, mit dem Sie Hive-Metadaten erkunden können; und Data Steward Studio, das gerade in der Vorschau veröffentlicht wurde, um herauszufinden, welche Cluster erhalten Zugriff auf den NameNode und Prüfung auf Ausreißer wie PII-Daten, die nicht ordnungsgemäß markiert wurden oder maskiert. Aber das ist erst der Anfang – wir gehen davon aus, dass DPS eine wachsende Rolle dabei spielen wird, HDP cloudunabhängiger zu machen.

Der Ton der Keynotes der Konferenz wechselte von Gerede über Apache-Zootiere zu Auszügen aus einem Data Warehousing Während der Konferenz (mit Schwerpunkt auf Themen wie der Bedeutung der Datenqualität) strebt Hortonworks eine unternehmerische Botschaft an Normalität. Hadoop sollte nicht diese seltsame Ausreißerplattform sein, die in der Ecke sitzt. Behalten Sie Projekte im Auge wie Apache Ozon die nach jahrelanger Entwicklung endlich dazu führen, dass Hadoop nicht nur in der Cloud, sondern auch im Rechenzentrum des Unternehmens wie ein normaler Bürger aussieht.

Klarstellung: Vielen Dank, Roman V Shaposhnik, zur Korrektur des Datensatzes. Hortonworks hat den Ozone-Vorschlag schon seit mehreren Jahren auf dem Tisch, um das Dateisystem von Hadoop mit Cloud-Objektspeichern kompatibel zu machen. Derzeit gibt es kein formelles Open-Source-Projekt mit Apache oder einer anderen Entität. Aber angesichts der Tatsache, dass Objektspeicher zunehmend HDFS in der Cloud verdrängen, sollte man niemals nie sagen.