Apache Spark: How Hortonworks sigter mod at tænde op for in-memory-motoren

Apache Spark open source in-memory computing-rammeværket er i fokus for en række nye initiativer, som netop er blevet afsløret af Hortonworks.

Hadoop software- og servicefirmaet Hortonworks siger planlægger det skitseret i dag til Apache Spark er designet til at gøre in-memory-motoren til en bedre kandidat til virksomhedsbrug.

Virksomheden fokuserer sin indsats på at forbedre den måde, Spark arbejder på med Hadoops YARN-ressourcestyringslag og på at give motoren bedre styring, sikkerhed og drift.

Målet med at integrere Spark dybere med YARN handler om at gøre det muligt for det at fungere mere effektivt med andre motorer, såsom Hive, Storm og HBase, på en enkelt dataplatform og fjerner behovet for dedikeret Spark klynger.

Arun Murthy: Spark er en af de mest interessante ting, der er kommet ud af open source-fællesskabet. Billede: Hortonworks

Ifølge Hortonworks vil det fortsætte sin politik med at bidrage med resultaterne af disse initiativer tilbage til Apache Hadoop open source-projektet.

"Spark er en af de mest interessante ting, der er kommet ud af open source-fællesskabet, og det er et vidnesbyrd om både modstandsdygtigheden af Hadoop-økosystemet og Apache open source-fællesskabet, som vi ser alle disse innovationer," Hortonworks medstifter Arun Murthy, som har arbejdet på Hadoop siden dets oprettelse i 2006, sagde.

"Hukommelsen bliver billigere. Vi har kunder, der nu nemt kører 100 GB eller deromkring på hver boks, hvilket betyder, at hvis du syr 10 eller 20 af disse maskiner sammen, så har du pludselig en terabyte eller to RAM.

"I disse scenarier er det meget tiltalende for dataforskeren at komme ind og sige: 'Jeg vil lave hurtig interaktiv analytics og skrive nogle algoritmer som maskinlæring og modellering og iteration med en ramme som Gnist'. Det er derfor, Spark er så tillokkende, især for den næste generation af udviklere."

Hvad tilføjer til denne appel er Sparks Scala API, givet scriptsprogets rolle som et Lisp-lignende funktionelt programmeringssprog til matematik.

"Sæt sammen, at Scala er et godt sprog til matematik og for folk, der tænker i matematik, og det faktum, at du har nok hukommelse i forhold til udviklingen af hardwaren," sagde Murthy.

"Da jeg startede i Hadoop, ville vores servere have omkring 4GB til 8GB RAM pr. boks. Det var state of the art på det tidspunkt. I dag er det ikke 4GB eller 8GB; det er 128 GB eller 256 GB hukommelse. Så Spark er den rigtige teknologi på det rigtige tidspunkt."

Selvom en stor del af interessen for Spark i øjeblikket kommer fra dataforskere, der beskæftiger sig med maskiner læring, er Hortonworks opsat på, at rammerne fungerer godt, når en virksomhed driver flere arbejdsbyrder.

"Hvis man ser på den overordnede kontekst af data, er det derfor, vi har haft denne idé om YARN som dette dataoperativsystem og at have alle dine data i Hadoop," sagde Murthy.

Læs dette

Hurtigere, mere dygtig: Hvad Apache Spark bringer til Hadoop

Læs nu

"Så, uanset om det er dataforskeren, der bruger Spark, om det er en analytiker, der bruger Hive, eller en programmør eller udvikler, der bruger en NoSQL database, kan alle disse mennesker komme til ét sted og bruge GARN til at formidle blandt de mange motorer, som du har inden for samme sammenhæng."

Dette mål er illustreret af det arbejde, Hortonworks har været involveret i med at forbedre integrationen mellem Spark og Apache Hive data warehouse-softwaren og dets binære ORC-filformat.

"Hvis du laver din ETL og sætter dine data i ORC-format, så du kan forespørge dem effektivt ved hjælp af Hive, nu videnskabsmand, der ønsker adgang til disse data, kan have en tilsvarende god oplevelse med at behandle disse filer via Spark," Murthy sagde.

På sikkerhedsfronten siger Hortonworks, at det investerer massivt i at sikre, at Spark fungerer problemfrit på en sikker Hadoop-klynge og opfylder kundernes krav om autorisation med LDAP eller Active Directory, før der gives adgang til Spark Web-brugeren Interface.

Hortonworks forsøger også at adressere, hvad det beskriver som den mindre end ideelle måde, Spark on YARN bruger klyngressourcer på.

"Det, der i dag sker, er, at Spark-implementeringsmodellen i YARN mere ligner en langvarig tjeneste, hvor du kommer ind, får fat i en masse hukommelse på disse kasser og løber," sagde Murthy.

Tech Pro Research

IT-leders guide til big data-sikkerhed
Kultur, automatisering og selvbetjening: Nøglerne til succes med big data
Open source big data og DevOps-værktøjer: En hurtig vej til analyseapplikationer
Ansættelsessæt: Dataarkitekt
IoT i den virkelige verden: Fem top use cases

"Denne implementeringsmodel er fantastisk, hvis du laver interaktive analyser og iterationer, men den er ikke så god, hvis du laver batch, fordi hvis du laver batch, vil du måske have adgang til en masse ressourcer på et tidspunkt og færre ressourcer på et senere tidspunkt punkt. Du har disse ebbe og floder i din ansøgning.

"Så det, vi har gjort, er, at vi foreslår en alternativ udførelses- eller implementeringsmodel for Spark til batch, hvor Spark nu kan begynde at bruge nogle af de indbyggede funktioner, der er tilgængelige i Hadoop-platformen, uanset om det er Hadoop-shuffle i YARN, som giver dig mulighed for at overføre mellemliggende data.

"Vi vil bruge Garn-shuffle, vi vil bruge nogle af de fremskridt, vi gjorde i et lignende projekt som Spark, Apache Tez, og rent faktisk udnytte investeringer begge steder.

"Vi kan bruge de to af disse og give vores samlede virksomhedsbrugere en betydelig god oplevelse så de kan få en høj udnyttelse og høj gennemstrømning til deres batchapplikationer igennem Gnist."

Murthy sagde, at Hortonworks' initiativer til Spark anvender den samme tilgang, som den allerede har anvendt med succes nye teknologier, såsom distribueret beregningsramme Storm og high-throughput distribueret meddelelsessystem Kafka.

"Vi har haft en række kunder, der bruger alle disse teknologier tidligt. De tilmelder sig programmet, og vi bruger tid sammen med dem for at forstå de områder, som vi som virksomhedssoftwareleverandør skal fokusere på for at gøre det virkelig klippefast," sagde han.

"Det, vi gør nu, er at annoncere resultatet af dette program, som vi ønsker at gå videre og trække ind i Apache Spark-kerneprojektet. Så kan vi roligt støtte det«.

Mere om Hadoop og big data

Big data: Stadig forfulgt af sikkerhedsfrygt, men Europa er ved at indhente det
DataStax beskriver, hvordan Apache Cassandra drager fordel af $106m finansieringsboost
Teradata køber Hadoop-konsulentfirmaet Think Big Analytics
Fra Hadoops tidligste dage til efter-garn: Hvorfor nogle problemer bare ikke vil forsvinde
Beefed-up Couchbase Server 3.0 beta retter sig mod udviklere og administratorer
Pivotal og Hortonworks samarbejder om Ambari for enterprise Hadoop
Hadoop's Tez: Hvorfor er det vigtigt at vinde Apaches status på topniveau
Udviklere eller deres chefer: Hvem vælger egentlig databasen?
Hadoop-sikkerhed: Hortonworks køber XA Secure – og planlægger at gøre det til open source