Hvorfor Hadoop er svært, og hvordan man gør det nemmere

  • Sep 05, 2023

Hadoop er kommet for at blive. Men det er modne analyseværktøjer til Hadoop, DBMS-abstraktionslag over det og Hadoop-as-a-Service cloud-tilbud, der vil gøre open source Big Data-platformen handlingsdygtig.

Som min kollega Toby Wolpe skrev om tidligere i dag, Gartner frigivet en undersøgelse af dets Research Circle-medlemmer i dag, der viser, at virksomhedens adoption af Hadoop ikke har fulgt med hypen.

Først og fremmest for at bruge et teknisk udtryk: "nej duh." For næsten enhver ny teknologi er der typisk en stor forskel mellem hvad de teknologiske journalister og analytikere antyder, at alle gør med den teknologi, og hvad... alle gør med den teknologi.

For det andet, mens konteksten er, at Gartners undersøgelse fandt, at - for at bruge Tobys formulering - "Lige 26 procent er allerede i gang med at implementere, pilotere eller eksperimentere med Hadoop" (min fremhævelse), jeg synes tilfældigvis, at det er et meget lovende tal. Faktisk ville jeg have gættet noget lidt lavere. Hvorfor? Fordi Hadoops arv er en specialists værktøj, ikke et Enterprise-værktøj. Det er ved at ændre sig, men processen er ikke færdig endnu. Med det i tankerne er 26% penetration ret godt, og det vil blive bedre.

Hadoop og den almindelige database
I sidste uge, på Microsofts Ignite-konference, annoncerede den Redmond-baserede softwaregigant den kommende udgivelse af SQL Server 2016 (se Mary Jo Foleys dag-og-dato dækning her), den fremtidige nye version af dets flagskibs relationelle database management system (RDBMS). En stor del af den udmelding var det PolyBase, som tjener som en bro fra SQL Server til Hadoop, vil være tilgængelig i mainstream-udgivelsen af ​​SQL Server, snarere end kun i Analytics platform system release og det skybaserede Azure Data Warehouse (hvilket i sig selv først blev annonceret ugen før).

Med andre ord bringer Microsoft muligheden for at kortlægge data gemt i Hadoop Distributed File System (HDFS) som eksterne tabeller i SQL Server, og gør det tilgængeligt som en funktion til virksomhedens RDBMS kunder. Husk, at SQL Server er en af ​​de bedste RDBMS'er på markedet med hensyn til installerede enheder og omsætning. At give alle i det meget store økosystem adgang til data i Hadoop via deres eksisterende færdighedssæt (dvs. Transact SQL-forespørgslen og programmeringssproget) er en ret stor sag.

Modsat syn
Det er også et modspil til fortolkningen af ​​Gartners undersøgelse, der siger, at Hadoop på en eller anden måde sygner hen. Det, der sygner ud, er virksomhedens vilje til at investere i et nyt premium-kompetencesæt og det lave produktivitet involveret i arbejdet med Hadoop gennem dets brogede hold af kommandolinjeskaller og scripting Sprog. En god datamotor skal fungere bag kulisserne og under coveret, ikke i rampelyset. Microsofts SQL Server PolyBase-teknologi er kun én arkitektonisk tilgang til at gøre Hadoop til en arbejdshest i stedet for noget, som kunderne skal komme helt tæt på og personligt med.

Der er andre tilgange til dette, både med hensyn til at implementere en Hadoop-klynge selv, såvel som at arbejde med den. Virksomheder kan lide Qubole og AltiScale adressere førstnævnte og i mindre abstraheret omfang også Amazon Web Services, Microsoft og Google. Andre produkter og værktøjer adresserer Hadoop-frontenden, nogle gange med en SQL-grænseflade og nogle gange uden.

Hadoop er her, det er ægte, væn dig til det
Lagring af data i HDFS kan være meget økonomisk overbevisende. På mange måder er HDFS Hadoops dræberapp. Om ikke andet så er Hadoop kommet for at blive. Men det er modne analyseværktøjer til Hadoop, DBMS-abstraktionslag til Hadoop og Hadoop-as-a-Service cloud-tilbud, der vil gøre Hadoop handlingsdygtig for størstedelen af ​​teknologibrugere. At få dem til at gå til et terminalvindue i karaktertilstand vil ikke skære det længere.