Hadoop e Big Data, “strataficati”

Mentre Hadoop va oltre MapReduce, le prossime frontiere sono l'attenzione all'azienda, la tecnologia in-memory e l'apprendimento automatico accessibile.

Oggi è stato l'ultimo giorno di Strata/Hadoop World a New York, uno spettacolo che continua a crescere. Se raccogliessi tutte le e-mail, i comunicati stampa e le note informative relative all'evento di quest'anno, probabilmente avrei bisogno di un cluster Hadoop per esaminarlo. Scrivere un post per notizia sarebbe impossibile. In effetti, anche una raccolta di notizie finirebbe probabilmente per essere una lunga lista di annunci, e scommetto che sarebbe piuttosto noioso da leggere.

Molto più prezioso, e spero non troppo pretenzioso, sarebbe sintetizzare ciò che ho sentito, letto e visto in un un breve elenco di tendenze emerse dallo spettacolo e, in un certo senso, riassumono la situazione attuale del settore dell'analisi. Quindi ecco qui... Strata/Hadoop World NYC 2013...in quattro semplici temi.

Hadoop oltre MapReduce
La grande novità nel mondo Hadoop subito prima di Strata era il

Versione di disponibilità generale (GA) di Hadoop 2.0. Questa nuova versione di Hadoop mantiene le funzionalità delle versioni precedenti ma elimina un requisito importante: l'utilizzo del metodo batch-driven a due passaggi Riduci mappa algoritmo per elaborare i dati.

MapReduce è utile per alcuni domini problematici, ma è pessimo per molti altri... in effetti, ho sempre pensato che fosse negativo per la maggior parte dei casi d'uso dell'analisi aziendale. Ma poiché MapReduce era il modo di fare le cose nella terra di Hadoop, persone e fornitori si sono arrangiati e hanno imparato come inserire vari picchetti quadrati di analisi nel foro rotondo di MapReduce.

Non penso che sia esagerato affermare che la dipendenza MapReduce abbia trattenuto Hadoop. E ora che Hadoop 2.0 è uscito, lo vedremo diventare molto più mainstream. Ci vorrà del tempo, perché l'ecosistema attorno al Componente YARN di Hadoop (che rende possibile l'elaborazione non MapReduce) deve svilupparsi, ma ancora una volta l'interfaccia dei prodotti con YARN e alcuni progetti killer open source che lo circondano emergono, è probabile l'adozione di Hadoop accelerare.

E siamo già alle gare con il Versioni GA di Hortonworks Data Platform (HDP) 2.0 annunciato la scorsa settimana e quello della distribuzione di Apache Hadoop di Cloudera (CDH) 5.0 annunciato ieri a Strata. Entrambe le distribuzioni si basano sul codice base Hadoop 2.0.

In primo piano

Windows 10 è troppo popolare per il suo bene?
5 modi per trovare il posto migliore per iniziare la tua carriera
Ecco come l’intelligenza artificiale generativa cambierà in meglio la gig economy
3 motivi per cui preferisco questo Android da $ 300 rispetto al Pixel 6a di Google

Più di un anno fa, ho incontrato un ingegnere di Microsoft che mi ha detto che MapReduce avrebbe ritirato il suo dominio nel mondo Hadoop. A quel tempo, pensavo che stesse esagerando. No, sono certo che la sua valutazione fosse in realtà piuttosto sottostimata.

Parlando di Microsoft, ha utilizzato Strata come forum per annunciare il Versione GA della sua offerta Hadoop basata su cloud, HDInsight. La distribuzione Hadoop di Microsoft è basata su HDP di Hortonworks per finestre, la cui versione basata su Apache 2.0 non è ancora uscita. Si prevede che verrà rilasciato il mese prossimo e, apparentemente, dovrebbe trovare posto in HDInsights poco dopo.

Due parole: in memoria
In memoria è in realtà un termine abusato, quindi esito a usarlo per definire un'unica categoria. Ma lo farò comunque, perché le aziende e i prodotti che si identificano sotto l'etichetta di fatto rientrano in una categoria, anche se solo attitudinalmente.

Partiamo da SAP, azienda che ha avuto grande risalto a Strata, e che continua a sfondare HANA tamburo. Sono ancora piuttosto scettico riguardo a un modello che mi farebbe utilizzare la RAM come supporto di archiviazione per il mio database... i server moderni superano circa 256 GB di RAM in questo momento e anche se quadruplica, ci vorranno comunque 1.024 scatole per arrivare a un petabyte, il che sembra ingombrante. Ma SAP ha molti clienti ERP e li sta migrando sulla piattaforma HANA, dando HANA massa critica e proprietà di preziosi dati transazionali, la cui analisi è fondamentale per il Attività commerciale. In altre parole, SAP sta mettendo HANA al centro dell'azione, il che la rende una piattaforma strategicamente importante... indipendentemente dai suoi meriti tecnici (o dalla loro mancanza).

Pertanto, quando SAP annuncia che sta portando avanti una strategia HANA-first, questa è una novità e apre la strada a una tendenza. A ciò si aggiunge il nuovo sistema basato su HANA Suite di applicazioni Customer Engagement Intelligence annunciato da SAP e la sua strategia "caldo, caldo, freddo" di archiviazione dei dati in HANA, QI di Sybase e Hadoop, e puoi discernere il messaggio dell'azienda: HANA è il fiore all'occhiello, il data warehouse è ancora importante, e il modo migliore per riconoscere Hadoop è incorporarlo nel tuo stack... in fondo al file gerarchia.

Incluse altre aziende e prodotti ricordati in evidenza presso Strata Software GridGain e ScaleOut i cui prodotti, tra gli altri trucchi, possono fungere da spazi di lavoro in memoria per l'elaborazione Hadoop, che entrambe le società affermano di accelerare enormemente; Kognitio(la cui versione 8.1 era annunciato a Strata oggi) e persino una nuova funzionalità del CDH 5.0 di Cloudera: la capacità di "bloccare" i dati in memoria (qualcosa che i database relazionali offrono ormai da anni). Poi c'è la prossima versione del database di punta di Microsoft, SQLServer2014, che includerà un nuovo motore OLTP in memoria.

Ora che ho riunito tutti questi prodotti, lascia che li separi. Kognitio è un prodotto maturo che utilizza la memoria non per l'archiviazione dei dati, ma per l'elaborazione. Compila inoltre le query SQL in codice macchina e la combinazione di codice a livello di macchina eseguito con i dati in memoria può rendere le cose davvero molto veloci. In effetti, l'OLTP in memoria di SQL Server utilizza una strategia simile.

GridGain e ScaleOut Software combinano l'elaborazione in memoria con il grid/cluster computing. E, in un certo senso, l'elaborazione Hadoop è semplicemente una caratteristica bonus per i prodotti di entrambe le società. La tecnologia di ciascuna azienda può funzionare indipendentemente da Hadoop e fornire molto valore da sola.

La capacità di Cloudera di fissare i dati nella memoria è in realtà solo una variazione del caching. Normalmente, i dati memorizzati nella cache sono soggetti a essere "cancellati" dalla memoria e in tempi piuttosto indeterminati. Il blocco consente allo sviluppatore o all'amministratore del database di specificare che determinati dati devono essere mantenuti nella cache e non scaricati. Se disponi di una cache abbastanza grande e aggiungi grandi porzioni o tutto il tuo database, tecnicamente hai i tuoi dati in memoria. Ma questo è molto diverso dal lavorare con prodotti le cui architetture sono costruite attorno al presupposto di un funzionamento esclusivo in memoria.

Impresa o fallimento
Ho usato la frase nel sottotitolo sopra nel mio articolo sul CDH 5 di Cloudera. È chiaro che Cloudera ha il cliente Enterprise nei suoi siti. In generale, questo è l’anno in cui le start-up devono iniziare a guadagnare se vogliono sopravvivere, e i clienti Enterprise sono la strada per arrivarci.

Ciò significa aggiungere funzionalità noiose ma necessarie agli stack Hadoop. Ecco perché Cloudera ha aggiunto il blocco della memoria. È anche il motivo per cui MapR ha annunciato lunedì a Strata a versione beta della sicurezza, caratterizzato dall'autenticazione HTTPS/basata su certificati e Kerberos, integrata con Active Directory e LDAP, a livello di cluster, nella propria distribuzione Hadoop. È per questo motivo che la mania di SQL-on-Hadoop è stata avviata da introduzione dell'Impala di Cloudera agli Strata dello scorso anno la maggior parte degli operatori del settore dei dati ora offre soluzioni comparabili.

L'unità Enterprise spiega anche il perché MetaScala, una consociata interamente controllata da Sears Holdings, offre competenze in materia di strategia, consulenza e implementazione di Hadoop per le aziende...e perché, in molti casi, aiuta le aziende a spostare il codice COBOL su Maiale Apache e vecchia scuola EBCDIC file in ASCII file in HDFS. Forse non è attraente, ma è di grande aiuto per i clienti, poiché affronta i loro punti critici, riduce i costi, accelera i lavori, e portare il codice legacy – i cui sviluppatori potrebbero essere in pensione – in un linguaggio più moderno che funzioni con il linguaggio basato su file dati.

Analisi self-service
La prossima e ultima area da coprire è quella del data mining, dell’apprendimento automatico e dell’analisi predittiva. Sì, Revolution Analytics annunciato il rilascio della versione 7 del prodotto Revolution R Enterprise a Strata lunedì, ma va oltre. Lo dico da un po' i data scientist non sono scalabili, e che dovremo rendere l'analisi accessibile agli utenti aziendali se il vero vantaggio della modellazione e dell'analisi predittiva è quello di pervadere il mondo degli affari. Bene, ora abbiamo alcune start-up in quel gioco specifico.

SkyTree E Laboratori dati alpini ciascuno offre prodotti che forniscono front-end di interfaccia utente grafica per tale lavoro di analisi. Il termine "scienziato dei dati in una scatola" viene talvolta applicato a ciò che fanno prodotti come questo, ma preferirei essere più a mio agio con l'applicazione del termine "self-service" qui. Entrambi questi prodotti si sovrappongono a Hadoop per eseguire l'elaborazione, ma in larga misura ciò finisce per essere un dettaglio di implementazione, come dovrebbe essere. Piattaforma dati ParAccel di Actian, attraverso l'integrazione del prodotto DataRush acquisito insieme a Pervasive Software all'inizio di quest'anno, ora ha il proprio Motore del flusso di dati, che offre sia machine learning/analisi che ETL (extract-transform-load) su Hadoop e può persino combinarli nella stessa orchestrazione.

E anche se non erano presenti all'evento, devo sottolinearlo Software di previsione, se voglio coprire in modo completo lo spazio dell'analisi self-service. Predixion fornisce anche una GUI sull'analisi, ma lo fa con una svolta: il suo ambiente nativo è Microsoft Excel e ha la capacità di lavorare su molte origini dati, tra cui Hadoop, apparecchiature di data warehouse, database relazionali standard e Di più. Forse è per questo che Accenture ora utilizza Predixion come strumento standard nella Accenture Analytics Platform e ha investito anche in Predixion.

Il mio Hadoop è cresciuto
Analisi predittiva in Excel? Esecuzione del codice Pig trasferito dal mainframe COBOL? Allontanarsi dalle competenze di programmazione relativamente oscure di MapReduce per eseguire il lavoro Hadoop? Questa roba sarebbe stata difficile da immaginare a Strata due anni fa. Perché sta succedendo? Perché Hadoop sta maturando, così come le aziende che lo supportano.