Hadoop fylder 10 år, Big Data-industrien ruller med

  • Sep 23, 2023

Apache Hadoop, open source-projektet, der uden tvivl udløste Big Data-dille, fyldte 10 år i denne uge. Projektets grundlægger, Clouderas Doug Cutting, blev nostalgisk, da sælgere i rummet væltede deres egne udgivelser frem.

Det er svært at tro, men det er sandt. Det Apache Hadoop projektet, open source-implementeringen af ​​Googles filsystem (GFS) og MapReduce-udførelsesmotor, fyldte 10 år i denne uge.

Teknologien, oprindeligt en del af Apache Nutch, et endnu ældre open source-projekt til webcrawling, blev udskilt i sit eget projekt i 2006, da et team hos Yahoo blev sendt for at fremskynde udviklingen.

Stolt far vejer ind
Doug Cutting, grundlægger af begge projekter (samt Apache Lucene), tidligere Yahoo, og i øjeblikket Chief Architect hos Cloudera, skrev en blogindlæg til minde om projektets fødselsdag, opkaldt efter hans søns udstoppede elefantlegetøj.

I sit indlæg påpeger Cutting korrekt, at "Traditionel RDBMS-software til virksomheder nu har konkurrence: open source, big data-software." Databaseindustrien havde været i reel stas i et godt stykke tid over et årti. Hadoop og NoSQL ændrede det, og fik de etablerede leverandører væk fra deres duffs og tilbage i branchen med at opfriske deres produkter med store nye funktioner.

Udvalgte

iPhone 15: Fire ting gør dette til et sjovt opgraderingsår
Sådan bruger du ChatGPT til at lave diagrammer og tabeller
Hvert produkt, vi forventer ved Apples begivenhed i september (og hvad der ikke bliver afsløret)
De bedste telefontilbud lige nu: Spar på de nyeste iPhones og Androids
  • iPhone 15: Fire ting gør dette til et sjovt opgraderingsår
  • Sådan bruger du ChatGPT til at lave diagrammer og tabeller
  • Hvert produkt, vi forventer ved Apples begivenhed i september (og hvad der ikke bliver afsløret)
  • De bedste telefontilbud lige nu: Spar på de nyeste iPhones og Androids

Sovende kæmper vågner

Microsoft SQL Server understøtter nu columnstore-indekser for at håndtere analytiske forespørgsler på store mængder af data og dens kommende 2016-version tilføjer PolyBase-funktionalitet til integreret forespørgsel af data i Hadoop. I mellemtiden har Oracle og IBM tilføjet deres egne Hadoop-broer sammen med bedre håndtering af semistrukturerede data.

Teradata har drejet ret skarpt mod Hadoop og Big Data, startende med opkøbet af Aster data og fortsætter gennem sine mangefacetterede partnerskaber med Cloudera og Hortonworks. I mellemtiden, i Hadoop-æraen, måske i respekt for Teradata, erhvervede praktisk talt alle megaleverandører et af de rene skuespil til data warehousing.

Ny generation
Cutting påpeger, også præcist, at de originale kernekomponenter i Hadoop er blevet udfordret og/eller erstattet: "Nye udførelsesmotorer som f.eks. Apache Spark og nye lagersystemer som Apache Kudu (inkuberer) demonstrere, at dette software-økosystem udvikler sig hurtigt uden noget centralt kontrolpunkt." Indrømmet, begge disse projekter er tungt forkæmpet af Cloudera, så tag kommentaren med et gran salt.

Salt eller intet salt dog, Cuttings kommentar om, at Hadoop-økosystemet har "intet centralt kontrolpunkt" er en, der er værd at overveje nøje; fordi selv om det er korrekt, er det ikke nødvendigvis godt. Udtrykket "kreativ ødelæggelse" er nogle gange virkelig en oxymoron. Big Data-scenens hurtige teknologiudskiftningscyklusser efterlader pladsstabiliteten udfordret.

Giv fred en chance
Måske, men det bevægelige teknologimål kan også betyde, at de slet ikke får nogen software, fordi det nuværende miljø er tilstrækkeligt risikovilligt til at hindre væksten af ​​virksomhedsprojekter. Vi har brug for en vis ligevægt, hvis vi ønsker, at væksten skal stå i forhold til niveauet af teknologisk innovation.

Cutting afslutter sit indlæg med at erklære: "Jeg ser frem til at følge Hadoops fortsatte indflydelse som dataårhundredet udfolder sig." Selvom jeg ikke er sikker på, at data og analyser vil definere hele århundredet, har de sandsynligvis et godt årti eller to. Forhåbentlig kan industrien blive lidt bedre til at udvikle standarder, der er samarbejdsvillige og kompatible frem for overlappende og konkurrencedygtige. Vi vil ikke tilbage til stasen, men mere sejlbart terræn ville passe industrien og dens kunder

I mellemtiden tilbage på det konkurrenceprægede marked
Når vi taler om branchen, var der en række meddelelser i denne uge, ved siden af ​​(og endda på trods af) Hadoops fødselsdag.:

  • Pentaho introducerede Python sprogintegration i sin Data Integration Suite
  • Paxata lancerede sin nye Winter '15-udgivelse (omend i 2016), som inkluderer nyt autonummer og udfyldningstransformationer, nye algoritmer for at hjælpe dets anbefalinger til dataforberedelse og integration med LDAP og SAML til virksomhedssikkerhed, single sign-on og identitet ledelse
  • SkyTree, en leverandør af prædiktiv analyse, diskuterede, at det snart vil lancere en gratis enkeltbrugerversion af sit produkt, som det snart vil annoncere mere formelt (og RapidMiner, også i det forudsigelige rum, udgav sin nye version 7 i sidste uge med en fornyet brugergrænseflade)
  • NoSQL-leverandør Aerospike lancerede en ny udgivelse af sin eponyme database, som nu byder på geospatial dataunderstøttelse, øget modstandsdygtighed i cloud-hostede miljøer og serversideunderstøttelse af liste- og kortdatastrukturer

Weekend grublerier
Det er en ret travl uge. Og jeg tør godt sige, at uden Hadoop som katalysator ville det have været meget mindre. Efterhånden som klimaændringer, finansmarkeder, geopolitik og olieprisen når skræmmende nye niveauer af volatilitet, trives datasektoren i teknologiindustrien. Vi håber måske, at teknologien omkring Big Data kan implementeres for at hjælpe med at løse, eller i det mindste bedre forstå, nogle af vores verdens virkelig store problemer.

Dette vil ikke være århundredet med data, medmindre det faktisk sker.