Hadoop e big data: dove si inserisce Apache Slider e perché è importante

  • Oct 20, 2023

Il veterano di Hadoop Arun Murthy afferma che Apache Slider avrà un impatto importante sulla futura versatilità e adozione della tecnologia dei big data distribuiti.

Arun Murthy_Co-fondatore_Hortonworks300x379

Arun Murthy. Immagine: Hortonworks

Secondo il co-fondatore di Hortonworks Arun Murthy, il codice inviato questa settimana per l'inclusione nello stack Hadoop contribuirà ad accelerare la diffusione della piattaforma di big data distribuita.

La presentazione del framework Slider all'Apache Software Foundation Incubator farà sì che le applicazioni esistenti, come i database NoSQL, funzionino senza modifiche su Hadoop e il suo livello di gestione delle risorse YARN.

"Guarda al futuro di Hadoop e YARN. Questo è un passo avanti davvero importante perché ci consente di espandere lo spettro di applicazioni e casi d'uso che è possibile effettivamente gestire con Hadoop e YARN", ha affermato Murthy.

"Un database NoSQL è un esempio; un servizio di analisi è un esempio. Ci aspettiamo che queste cose utilizzino Slider per colmare il divario tra il silo in cui vivono oggi e l'esecuzione nativa in Hadoop."

Il lavoro su Apache Slider è già andato avanti negli ultimi otto o nove mesi e si prevede che il framework sarà disponibile per il mercato più ampio entro la seconda metà di quest'anno.

YARN è stato rilasciato lo scorso ottobre in Hadoop 2.0 e separa i componenti di gestione e elaborazione delle risorse di MapReduce, consentendo l'utilizzo di altri algoritmi di elaborazione.

Murthy, che ha lavorato su Hadoop sin dal primo giorno nel 2006, ha descritto Slider come un ampliamento di Hadoop oltre la semplice elaborazione dei dati.

"Ci consente di eseguire servizi come HBase [database Apache NoSQL open source] e app di apprendimento missionario, il tutto nel contesto di YARN. Ciò porta YARN da uno o due casi d'uso a centinaia se non di più", ha affermato.

"Slider è un framework che ti consente di collegare i servizi sempre attivi esistenti e assicura che funzionino davvero bene su YARN senza dover modificare l'applicazione stessa. Questo è davvero importante.

"In questo momento si tratta di HBase e Accumulo, ma potrebbe essere Cassandra, potrebbe essere MongoDB, potrebbe essere qualsiasi cosa al mondo. Questa è la parte fondamentale."

Ricerca tecnologica professionale

  • Guida del leader IT alla sicurezza dei big data
  • Cultura, automazione e self-service: le chiavi del successo dei big data
  • Big data open source e strumenti DevOps: un percorso rapido verso le applicazioni di analisi
  • Kit per l'assunzione: Architetto dei dati
  • L'IoT nel mondo reale: cinque casi d'uso principali

Murthy ha affermato che coloro che desiderano modificare le applicazioni possono già utilizzare direttamente YARN e non hanno bisogno di Slider.

"Ma molti clienti e partner non vogliono modificare un'applicazione esistente, quindi noi rendiamo davvero semplice colmare il divario tra un'app esistente e Hadoop e YARN", ha affermato.

L'obiettivo è che YARN diventi il ​​sistema operativo del data center, in grado di eseguire altri tipi di servizi sempre attivi oltre all'elaborazione dei dati.

Murthy ha affermato che Apache HBase, che è un database distribuito basato sulla BigTable di Google e scritto in Java, è un semplice esempio.

"Le persone utilizzano HBase, utilizzano MapReduce. Se sono sistemi indipendenti, funzionano ancora sulla stessa scatola fisica. HBase consuma CPU, RAM e disco. MapReduce consuma CPU, RAM e disco", ha affermato.

"Se non si conoscono, si calpesteranno a vicenda e lo SLA del cliente ne risentirà. Ad un certo punto HBase farà qualcosa di brutto e MapReduce farà qualcos'altro."

È una questione di pensare a un'architettura più ampia: "Mentre portiamo Hadoop alle masse, è davvero importante fornire un quadro pulito, coerente e di gestione delle risorse", ha affermato Murthy.

Affinché tale struttura sia veramente coerente, deve essere in grado di supportare servizi dati e non solo applicazioni dati.

"Perché in realtà stiamo parlando di persone che nel tempo iniziano con 10, 15 o 20 nodi e arrivano rapidamente a 200. Se facciamo bene il nostro lavoro arriveranno a 2.000, 5.000 e 20.000. Quindi, se si arriva a questa scala, si parla di decine di milioni di dollari di capex e opex," ha detto.

"Se vuoi essere in grado di farlo, devi essere in grado di gestire tutte queste risorse in modo coerente, che si tratti di CPU, disco, memoria o rete."

Secondo Murthy, laddove i fornitori di software costruiscono un servizio su un'applicazione, tradizionalmente devono negoziare il cliente e il reparto IT interno su come installare il servizio nel proprio data center, il che può comportare molti mesi di lavoro parla.

"Ci aspettiamo che Hadoop e YARN siano presenti nei data center di tutti. Oggi è sempre più vero, ma tra sei o dodici mesi sarà assolutamente vero", ha detto.

Leggi questo

Hadoop 2.0: MapReduce al suo posto, HDFS tutto cresciuto

Leggi ora

"Quindi, se si può presumere che Hadoop e YARN esistano e si possa lavorare su YARN-Slider, si può presumere molto di più riguardo all'ambiente.

"Ora non sei più in conversazione con il reparto IT o con il lato IT dell'azienda; ora sei in una conversazione con l'effettivo settore di attività in cui puoi dimostrare un caso d'uso e il valore."

Di conseguenza, Murthy ha affermato che il pubblico target di Slider non è tanto il singolo sviluppatore ma piuttosto il fornitore di software indipendente e i partner.

"Quello che faremo è lavorare con questi ragazzi per associare Slider nel loro database, associare Slider nella loro app analitica, associare Slider nel loro ETL [estrarre, trasforma, carica] app: essenzialmente qualsiasi servizio, e un servizio è qualcosa che funziona per sempre e fornisce un servizio a più utenti, non a un solo utente," Egli ha detto.

"Stiamo già vedendo i partner prendere le loro applicazioni esistenti, siano esse applicazioni di analisi o applicazioni ETL, e non vogliono cambiare molto.

"Ma vogliono superare Hadoop e avere accesso alle risorse di Hadoop e ai dati di Hadoop."

Murthy ha affermato che le persone hanno piani ambiziosi per progetti oltre a YARN-Slider e Hadoop.

"Stiamo vedendo persone costruire web farm - JBoss, computer concatenati - sopra Hadoop. Ma dobbiamo fare un passo alla volta", ha detto.

"Crediamo fermamente nel gattonare, camminare, correre. La fase di scansione riguarda HBase, Accumulo e altri database in esecuzione su YARN."

Maggiori informazioni su Hadoop e big data

  • Cloudera raccoglie 900 milioni di dollari e pianifica l'espansione
  • Intel sostiene Cloudera nell'affollata corsa alla distribuzione Hadoop
  • Hortonworks ottiene un round da 100 milioni di dollari per far crescere Hadoop
  • Lo spettacolo dei numeri di Cloudera
  • Cloudera raccoglie 160 milioni di dollari per il push dei big data di Hadoop
  • SQL Server 2014 di Microsoft corona la piattaforma dati di Redmond
  • Big data: perché i dipartimenti IT non devono rappresentare un ostacolo per l'analisi
  • Capo MongoDB: Perché il tempo stringe per i database relazionali