Hadoop und Big Data: Wo Apache Slider ins Spiel kommt und warum es wichtig ist

  • Oct 20, 2023

Hadoop-Veteran Arun Murthy sagt, dass Apache Slider einen großen Einfluss auf die zukünftige Vielseitigkeit und Akzeptanz der verteilten Big-Data-Technologie haben wird.

Arun Murthy_Co-founder_Hortonworks300x379

Arun Murthy. Bild: Hortonworks

Laut Arun Murthy, Mitbegründer von Hortonworks, wird der diese Woche zur Aufnahme in den Hadoop-Stack eingereichte Code dazu beitragen, die Verbreitung der verteilten Big-Data-Plattform zu beschleunigen.

Die Einreichung des Slider-Frameworks beim Apache Software Foundation Incubator führt dazu, dass vorhandene Anwendungen, wie z. B. NoSQL-Datenbanken, unverändert weiterlaufen Hadoop und seine YARN-Ressourcenverwaltungsschicht.

„Es ist ein Blick in die Zukunft von Hadoop und YARN. „Das ist ein wirklich wichtiger Schritt nach vorne, denn es ermöglicht uns, das Spektrum an Anwendungen und Anwendungsfällen zu erweitern, die Sie tatsächlich mit Hadoop und YARN bedienen können“, sagte Murthy.

„Eine NoSQL-Datenbank ist ein Beispiel; Ein Beispiel hierfür ist ein Analysedienst. Wir gehen davon aus, dass diese Dinge Slider verwenden, um die Lücke zwischen einem Silo, in dem sie heute leben, und einer nativen Ausführung in Hadoop zu schließen.“

Die Arbeit an Apache Slider läuft bereits seit acht bis neun Monaten und das Framework wird voraussichtlich in der zweiten Hälfte dieses Jahres für den breiteren Markt verfügbar sein.

YARN wurde letzten Oktober in Hadoop 2.0 veröffentlicht und trennt die Ressourcenverwaltungs- und Verarbeitungskomponenten von MapReduce, sodass andere Verarbeitungsalgorithmen verwendet werden können.

Murthy, der seit dem ersten Tag im Jahr 2006 an Hadoop arbeitet, beschrieb Slider als eine Erweiterung von Hadoop, die über die reine Datenverarbeitung hinausgeht.

„Es ermöglicht uns, Dienste wie [die Open-Source-Apache-NoSQL-Datenbank] HBase und Mission-Learning-Apps im Kontext von YARN auszuführen.“ Dadurch wird YARN über ein oder zwei Anwendungsfälle hinaus auf Hunderte, wenn nicht sogar mehr, erweitert“, sagte er.

„Slider ist ein Framework, das es Ihnen ermöglicht, bestehende Always-on-Dienste zu überbrücken und sicherzustellen, dass sie wirklich gut auf YARN funktionieren, ohne dass die Anwendung selbst geändert werden muss.“ Das ist wirklich wichtig.

„Im Moment sind es HBase und Accumulo, aber es könnte Cassandra sein, es könnte MongoDB sein, es könnte alles auf der Welt sein.“ Das ist der entscheidende Teil.“

Tech-Pro-Forschung

  • Leitfaden für IT-Führungskräfte zur Big-Data-Sicherheit
  • Kultur, Automatisierung und Self-Service: Die Schlüssel zum Erfolg von Big Data
  • Open-Source-Big-Data- und DevOps-Tools: Ein schneller Weg zu Analyseanwendungen
  • Einstellungspaket: Datenarchitekt
  • IoT in der realen Welt: Fünf Top-Anwendungsfälle

Murthy sagte, dass diejenigen, die bereit sind, Anwendungen zu ändern, YARN bereits direkt verwenden können und keinen Slider benötigen.

„Aber viele Kunden und Partner möchten eine bestehende Anwendung nicht ändern, deshalb machen wir es wirklich einfach, diese Lücke zwischen einer bestehenden App und Hadoop und YARN zu schließen“, sagte er.

Das Ziel besteht darin, dass YARN zum Betriebssystem des Rechenzentrums wird, das in der Lage ist, neben der Datenverarbeitung auch andere Arten von Always-on-Diensten auszuführen.

Murthy sagte, Apache HBase, eine verteilte Datenbank, die auf Googles BigTable basiert und in Java geschrieben ist, sei ein einfaches Beispiel.

„Die Leute betreiben HBase, sie betreiben MapReduce. Wenn es sich um unabhängige Systeme handelt, laufen sie immer noch auf demselben physischen Rechner. HBase verbraucht etwas CPU, RAM und Festplatte. „MapReduce verbraucht etwas CPU, RAM und Festplatte“, sagte er.

„Wenn sie nichts voneinander wissen, treten sie aufeinander und das SLA des Kunden wird darunter leiden.“ Irgendwann wird HBase etwas Schlimmes tun und MapReduce wird etwas anderes tun.“

Es geht darum, über die umfassendere Architektur nachzudenken: „Wenn wir Hadoop der breiten Masse zugänglich machen, ist es wirklich wichtig, ein sauberes, konsistentes Ressourcenmanagement-Framework bereitzustellen“, sagte Murthy.

Damit dieses Framework wirklich konsistent ist, muss es in der Lage sein, Datendienste und nicht nur Datenanwendungen zu unterstützen.

„Denn wir sprechen im Laufe der Zeit davon, dass die Leute mit 10, 15 oder 20 Knoten beginnen und schnell auf 200 kommen. Wenn wir unsere Arbeit gut machen, kommen sie auf 2.000, 5.000 und 20.000. Wenn man also von dieser Größenordnung ausgeht, spricht man von Investitions- und Betriebsausgaben in zweistelliger Millionenhöhe“, sagte er.

„Wenn Sie dazu in der Lage sein wollen, müssen Sie in der Lage sein, alle diese Ressourcen konsistent zu verwalten, egal ob es sich um CPU, Festplatte, Speicher oder Netzwerk handelt.“

Wenn Softwareanbieter einen Service auf Basis einer Anwendung aufgebaut haben, müssen sie laut Murthy traditionell mit ihnen verhandeln Der Kunde und die interne IT-Abteilung besprechen, wie sie diesen Dienst in ihrem Rechenzentrum installieren können, was viele Monate dauern kann Gespräche.

„Wir gehen davon aus, dass Hadoop und YARN in jedem Rechenzentrum vorhanden sind. „Das trifft heute immer mehr zu, aber in sechs oder zwölf Monaten wird es absolut wahr sein“, sagte er.

Lesen Sie dies

Hadoop 2.0: MapReduce an seiner Stelle, HDFS ganz erwachsen

Lies jetzt

„Wenn man also davon ausgehen kann, dass Hadoop und YARN existieren und man auf YARN-Slider arbeiten kann, kann man viel mehr über die Umgebung annehmen.“

„Sie befinden sich jetzt nicht mehr in einem Gespräch mit der IT-Abteilung oder der IT-Seite des Unternehmens; Sie befinden sich jetzt in einem Gespräch mit dem eigentlichen Geschäftsbereich, in dem Sie einen Anwendungsfall demonstrieren und den Wert demonstrieren können.“

Folglich sagte Murthy, dass die Zielgruppe für Slider nicht so sehr der einzelne Entwickler sei, sondern eher der unabhängige Softwareanbieter und seine Partner.

„Wir werden mit diesen Leuten zusammenarbeiten, um Slider in ihre Datenbank zu binden, Slider in ihre Analyse-App zu binden, Slider in ihre ETL zu binden [extract, „Transformieren, Laden]-App – im Wesentlichen jeder Dienst, und ein Dienst ist etwas, das für immer läuft und mehreren Benutzern einen Dienst bereitstellt, nicht nur einem Benutzer“, er sagte.

„Wir sehen bereits, dass Partner ihre bestehenden Anwendungen übernehmen – seien es Analyseanwendungen oder ETL-Anwendungen – und sie wollen nicht viel ändern.“

„Aber sie wollen an der Spitze von Hadoop stehen und Zugriff auf die Ressourcen von Hadoop und auf die Daten von Hadoop haben.“

Murthy sagte, die Leute hätten ehrgeizige Pläne für Projekte zusätzlich zu YARN-Slider und Hadoop.

„Wir sehen, wie Leute Webfarmen – JBoss, Concat-Computer – auf Hadoop aufbauen. Aber wir müssen Schritt für Schritt vorgehen“, sagte er.

„Wir sind große Anhänger des Kriechens, Gehens und Laufens. In der Crawling-Phase werden HBase, Accumulo und andere Datenbanken auf YARN ausgeführt.

Mehr zu Hadoop und Big Data

  • Cloudera sammelt 900 Millionen US-Dollar und plant Expansion
  • Intel unterstützt Cloudera im überfüllten Hadoop-Distro-Wettbewerb
  • Hortonworks erhält 100-Millionen-Dollar-Finanzierung für die Weiterentwicklung von Hadoop
  • Clouderas Zahlenshow
  • Cloudera sammelt 160 Millionen US-Dollar für den Hadoop-Big-Data-Vorstoß
  • Microsofts SQL Server 2014 krönt die Datenplattform von Redmond
  • Big Data: Warum IT-Abteilungen die Analyse nicht behindern dürfen
  • MongoDB-Chef: Warum die Uhr für relationale Datenbanken tickt