Hortonworks kommt in die Amazon AWS Cloud

  • Oct 19, 2023

Das Besondere am neuen Cloud-Dienst von Hortonworks auf Amazon: Dies ist keine Kopie des bestehenden HDInsight-Dienstes in der Microsoft Azure-Cloud.

hortonworks-on-aws.jpg

Für Anbieter von Datenplattformen: Amazonas ist der ultimative Feind. Wenn Sie eine große Cloud-Marktpräsenz anstreben, kommt man an der Amazon-Cloud kaum vorbei. Daher ist es nicht verwunderlich, dass sich Hadoop-Anbieter zunehmend mit Amazon AWS anfreunden – und Microsoft Azure.

Für HortonworksUngefähr ein Viertel der Kunden stellt für einige oder alle ihrer Arbeitslasten die Cloud bereit. Bisher war die primäre Cloud-Präsenz die Hadoop-Engine von Azure HDInsight Big-Data-Dienst.

Besondere Funktion

Cloud: So machen Sie SaaS richtig

Software as a Service bietet unwiderstehliche Vorteile für Unternehmen jeder Größe – von Kosteneinsparungen über Skalierbarkeit bis hin zur mobilen Zugänglichkeit. Wir bieten Anleitungen zur Vermeidung der Fallstricke der Cloud und zur richtigen Auswahl Ihrer SaaS-Partner.

Lies jetzt

Hortonworks ist das jüngste Unternehmen, das sich dem Kampf mit Amazon anschließt und einen neuen Service ankündigt, der über den AWS-Marktplatz angeboten wird und nativ mit S3-Speicher und EC2-Rechenleistung läuft. Der Dienst Hortonworks Data Cloud (HDCloud) für AWS ist ein spezialisierter Dienst, der für die Bewältigung der gängigsten Hadoop-Workloads entwickelt wurde:

Funke Und Bienenstock.

Die Herausforderung für Hadoop-Anbieter besteht darin, dass der EMR-Service von Amazon in der AWS-Cloud das nativste und nahtlosste Erlebnis bietet. Es handelt sich um einen verwalteten Dienst, d. h. nachdem Sie den Typ und die Anzahl der EC2-Knoten ausgewählt haben, stellt EMR sich selbst bereit. Im Gegensatz dazu wird Hortonworks (oder Cloudera) in der Amazon-Cloud als reine Infrastructure-as-a-Service ausgeführt (IaaS) erfordert, dass Kunden die Last der Bereitstellung und Verwaltung der Cloud-Infrastruktur übernehmen Arbeitsbelastungen. Sogar mit Hortonworks Cloudbreak oder Cloudera-Direktor, was dazu beitrug, die Bereitstellung zu automatisieren, das Spielfeld mit EMR wurde in puncto Benutzerfreundlichkeit nicht ausgeglichen und nutzte HDFS anstelle des AWS-Standards S3 Lagerung.

Hier kommt das HDCloud-Angebot ins Spiel. Angeboten durch AWS Marketplaceerhalten Sie eher ein EMR-ähnliches Managed-Cloud-Erlebnis, und wie bei EMR zahlen Sie Amazon, nicht Hortonworks (Hortonworks erhält offensichtlich eine Lizenzgebühr von Amazon). Es nutzt S3 und sieht daher auch wie ein Standard-AWS-Dienst aus.

Das neue Hortonworks AWS-Angebot ist keine vollständige Implementierung davon Hortonworks-Datenplattform (HDP), da der Dienst nur die beliebtesten Workloads abdeckt: Spark für Analysen und maschinelles Lernen und Hive (mit dem neuen LLAP Beschleunigung) für interaktives SQL.

Auch: Die öffentliche Cloud von AWS ist doppelt so groß wie Microsoft, Google und IBM zusammen | Amazon hofft, dass diese Tools dabei helfen können, Budgetengpässe zu bekämpfen | AWS festigt Hybrid-Cloud-Position mit VMware-Partnerschaft: Das bedeutet das

Daher ist HDCloud kein Nachbau von HDInsight für AWS. Im Vergleich dazu ist HDInsight ein umfassenderer Dienst, der eine umfassendere Version der Hortonworks-Datenplattform bietet. Und neben Spark und Hive läuft auch HDInsight Sturm Und HBase. Darüber hinaus ist HDInsight umfassender verwaltet als das neue AWS-Angebot von Hortonworks. Beispielsweise übernimmt Azure alle Upgrades, während bei AWS mehr manuelle Eingriffe erforderlich wären.

Die Hintergrundgeschichte all dessen ist, dass Cloud-Kunden zunehmend zweckmäßige Alternativen anstelle des Zugriffs auf eine vollständige Plattform verlangen. Und so gibt es heute spezialisierte maschinelle Lerndienste, die Zugriff auf eine Handvoll Modellierungsalgorithmen aller großen Cloud-Anbieter bieten, und es gibt nur Spark-Dienste von Anbietern wie Datensteine, oder von Qubole, das die Wahl zwischen Nur-Spark- oder vollständigem Hadoop bietet. Dies war auch das Problem, das die Entwicklung angeheizt hat Spark vs. Hadoop-Debatte. Obwohl HDP und HDInsight bereits über vollständige Spark-Unterstützung verfügen, hat die Nachfrage nach maßgeschneiderten Cloud-Diensten für kurzlebige Arbeitslasten Hortonworks dazu veranlasst, den Fokus seines neuen Amazon-Angebots einzugrenzen.

Zurück zu AWS: Die offensichtliche Frage ist, warum HDCloud anstelle von EMR verwendet werden sollte. Hortonworks differenziert sich durch die Optimierung für Hive- und Spark-Workloads durch die Nutzung einer Funktion, die von übernommen wurde Ambari Dies optimiert die Konfiguration von Rechenknoten. Hortonworks fördert außerdem seine Fähigkeit, Hive eine detailliertere Sicherheit auf Zeilen- und Spaltenebene zu bieten.

EMR hat mit seinen proprietären Datenzugriffsoptimierungen schon lange die Nase vorn. HDCloud nutzt aktuelle Verbesserungen das mit Apache Hadoop 2.7 geliefert wurde, um mit der EMR-Leistung im Vergleich zu S3 gleichzuziehen.

Von Anfang an berechnet HDCloud über Jahresverträge oder Stundensätze. Da die bestehende Cloudbreak-Technologie (von der einige mit dem neuen AWS-Angebot verwendet werden) bereits Spot-Instanzen ermöglicht, gehen wir davon aus, dass HDCloud irgendwann auch Spot-Preise hinzufügen wird. Beachten Sie auch das Branding „für AWS“. Es würde uns nicht wundern, wenn die HDCloud irgendwann über andere öffentliche Clouds verfügbar wäre.

Hinweis: In einer früheren Version dieses Beitrags wurde angedeutet, dass Qubole nur dedizierte Spark-Dienste anbietet. Tatsächlich ist Spark Teil eines breiteren Portfolios cloudbasierter Big-Data-Analysen, das eine vollständige Implementierung von Hadoop-bezogenen Workloads umfasst.