Hadoop wird 10, die Big-Data-Branche kommt voran

  • Sep 23, 2023

Apache Hadoop, das Open-Source-Projekt, das wohl den Big-Data-Trend auslöste, wurde diese Woche 10 Jahre alt. Der Gründer des Projekts, Doug Cutting von Cloudera, wurde nostalgisch, als die Anbieter in diesem Bereich eigene Neuerscheinungen herausbrachten.

Es ist kaum zu glauben, aber es ist wahr. Der Apache Hadoop Das Projekt, die Open-Source-Implementierung des Dateisystems (GFS) und der MapReduce-Ausführungs-Engine von Google, wurde diese Woche 10 Jahre alt.

Die Technologie, ursprünglich Teil von Apache Nutch, ein noch älteres Open-Source-Projekt für Web-Crawling, wurde 2006 in ein eigenes Projekt aufgeteilt, als ein Team von Yahoo entsandt wurde, um seine Entwicklung zu beschleunigen.

Der stolze Papa meldet sich zu Wort
Doug Cutting, Gründer beider Projekte (sowie Apache Lucene), früher bei Yahoo und derzeit Chefarchitekt bei Cloudera, schrieb a Blogeintrag zum Gedenken an den Geburtstag des Projekts, benannt nach dem ausgestopften Elefantenspielzeug seines Sohnes.

In seinem Beitrag weist Cutting zu Recht darauf hin, dass „herkömmliche Unternehmens-RDBMS-Software dies inzwischen getan hat.“ Konkurrenz: Open-Source-, Big-Data-Software.“ Die Datenbankbranche befand sich lange Zeit in einer echten Stagnation über ein Jahrzehnt. Hadoop und NoSQL haben das geändert und die etablierten Anbieter von ihrem Dreck befreit und wieder dazu beigetragen, ihre Produkte mit wichtigen neuen Funktionen aufzufrischen.

Hervorgehoben

iPhone 15: Vier Dinge machen dieses Upgrade-Jahr zu einem unterhaltsamen Jahr
So verwenden Sie ChatGPT zum Erstellen von Diagrammen und Tabellen
Jedes Produkt, das wir bei Apples September-Event erwarten (und was nicht vorgestellt wird)
Die derzeit besten Handy-Angebote: Sparen Sie bei den neuesten iPhones und Androids
  • iPhone 15: Vier Dinge machen dieses Upgrade-Jahr zu einem unterhaltsamen Jahr
  • So verwenden Sie ChatGPT zum Erstellen von Diagrammen und Tabellen
  • Jedes Produkt, das wir bei Apples September-Event erwarten (und was nicht vorgestellt wird)
  • Die derzeit besten Handy-Angebote: Sparen Sie bei den neuesten iPhones und Androids

Schlafende Riesen erwachen

Microsoft SQL Server unterstützt jetzt Columnstore-Indizes, um große Analyseabfragen zu verarbeiten Datenmengen und die kommende Version 2016 fügt PolyBase-Funktionalität für die integrierte Abfrage von Daten hinzu Hadoop. Mittlerweile haben Oracle und IBM ihre eigenen Hadoop-Brücken hinzugefügt und ermöglichen eine bessere Handhabung halbstrukturierter Daten.

Teradata hat sich ziemlich stark auf Hadoop und Big Data konzentriert, beginnend mit der Übernahme von Aster-Daten und weiterhin durch seine vielfältigen Partnerschaften mit Cloudera und Hortonworks. In der Hadoop-Ära erwarb inzwischen, vielleicht aus Rücksicht auf Teradata, praktisch jeder Mega-Anbieter eines der reinen Data-Warehousing-Unternehmen.

Neue Generation
Cutting weist ebenfalls treffend darauf hin, dass die ursprünglichen Kernkomponenten von Hadoop in Frage gestellt und/oder ersetzt wurden: „Neue Ausführungs-Engines wie Apache Spark und neue Speichersysteme wie Apache Kudu (brütend) zeigen, dass sich dieses Software-Ökosystem schnell weiterentwickelt, ohne dass es einen zentralen Kontrollpunkt gibt.“ Zugegeben, das sind beide Projekte schwer von Cloudera verfochten, also nehmen Sie den Kommentar mit Vorsicht.

Salz hin oder her, Cuttings Kommentar, dass das Hadoop-Ökosystem „keinen zentralen Kontrollpunkt“ habe, ist eine sorgfältige Überlegung wert; denn es ist zwar richtig, aber nicht unbedingt gut. Der Begriff „schöpferische Zerstörung“ ist manchmal wirklich ein Widerspruch in sich. Die schnellen Technologieaustauschzyklen in der Big-Data-Szene stellen die Stabilität des Weltraums vor Herausforderungen.

Gib dem Frieden eine Chance
Vielleicht, aber die Verschiebung des Technologieziels kann auch bedeuten, dass sie überhaupt keine Software erhalten, da die aktuelle Umgebung so risikoanfällig ist, dass sie das Wachstum von Unternehmensprojekten behindert. Wir brauchen ein gewisses Gleichgewicht, wenn wir wollen, dass das Wachstum im Verhältnis zum Niveau der technologischen Innovation steht.

Cutting schließt seinen Beitrag mit der Erklärung: „Ich freue mich darauf, Hadoops anhaltenden Einfluss als Datenjahrhundert zu verfolgen.“ sich entfaltet.“ Obwohl ich nicht sicher bin, ob Daten und Analysen das ganze Jahrhundert prägen werden, haben sie wahrscheinlich ein gutes Jahrzehnt vor sich zwei. Hoffentlich kann die Branche bei der Entwicklung kooperativer und kompatibler Standards ein wenig besser werden, statt sich zu überschneiden und zu konkurrieren. Wir wollen nicht zum Stillstand zurückkehren, aber besser befahrbares Gelände würde der Branche und ihren Kunden entgegenkommen

Mittlerweile zurück im umkämpften Markt
Apropos Branche: Diese Woche gab es neben (und sogar trotz) Hadoops Geburtstag eine Menge Ankündigungen:

  • Pentaho hat die Integration der Python-Sprache in seine Data Integration Suite eingeführt
  • Paxata hat seine neue Version Winter '15 herausgebracht (allerdings im Jahr 2016), die neue automatische Zahlen- und Fülltransformationen sowie neue Algorithmen enthält um seine Datenvorbereitungsempfehlungen und die Integration mit LDAP und SAML für Unternehmenssicherheit, Single Sign-On und Identität zu unterstützen Management
  • Himmelsbaum, ein Anbieter von Predictive Analytics, besprach, dass er bald eine kostenlose Einzelbenutzerversion seines Produkts auf den Markt bringen wird, die er bald offizieller (und offizieller) bekannt geben wird RapidMiner, ebenfalls im Vorhersagebereich, hat letzte Woche seine neue Version 7 mit einer überarbeiteten Benutzeroberfläche veröffentlicht.
  • NoSQL-Anbieter Aerospike hat eine neue Version seiner gleichnamigen Datenbank auf den Markt gebracht, die jetzt Geodatenunterstützung, zusätzliche Ausfallsicherheit in Cloud-gehosteten Umgebungen und serverseitige Unterstützung für Listen- und Kartendatenstrukturen bietet

Nachdenken über das Wochenende
Das ist eine ziemlich arbeitsreiche Woche. Und ich wage zu behaupten, dass dies ohne Hadoop als Katalysator viel weniger der Fall gewesen wäre. Während der Klimawandel, die Finanzmärkte, die Geopolitik und der Ölpreis beängstigende neue Ausmaße an Volatilität erreichen, floriert der Datensektor der Technologiebranche. Wir könnten hoffen, dass die Technologie rund um Big Data eingesetzt werden könnte, um einige der wirklich großen Probleme unserer Welt zu lösen oder zumindest besser zu verstehen.

Dies wird nicht das Jahrhundert der Daten sein, es sei denn, dies geschieht tatsächlich.