Viene fornito Hortonworks Data Platform 2.0

  • Sep 10, 2023

Sapevamo che questo giorno sarebbe arrivato. Come io segnalato la settimana scorsa, Apache Hadoop 2.0 è stato rilasciato per la disponibilità generale e ora è il principale fornitore di Hadoop Hortonworks ha risposto allo stesso modo con la propria versione 2.0 Distribuzione Hortonworks Data Platform (HDP).. Dato che Architetto e co-fondatore di Hortonworks Arun Murthy era al timone del rilascio di Apache Hadoop, era assolutamente previsto un tempestivo aggiornamento da parte di Hortonworks.

Lavorare un po' di FILATO
La caratteristica distintiva delle versioni 2.0 di Apache Hadoop e HDP è l'inclusione FILATO - acronimo di Yet Another Resource Negotiator - che evidenzia i componenti di gestione di Hadoop Riduci mappa motore dall'algoritmo di elaborazione MapReduce stesso. In altre parole, sebbene Hadoop 2.0 possa utilizzare MapReduce per elaborare i dati, ora è solo uno dei potenzialmente molti algoritmi che possono collegarsi al motore.

Se stai cercando una definizione rapida e sporca per MapReduce, è un algoritmo che preelabora i dati in coppie chiave e valore in un Passaggio "Mappatura", quindi aggrega o consolida i dati in un passaggio "Riduci" e lo fa in parallelo su più nodi in un calcolo grappolo.

Stinger, prendi la II
Insieme a YARN arriva l'ulteriore sviluppo di un progetto guidato da Hortonworks chiamato Pungiglione. Stinger mira a creare Alveare Apache 100 volte più veloce di quanto non fosse prima dell'inizio del progetto. Hive è il motore Apache che converte essenzialmente le query SQL in lavori MapReduce, consentendo così ai comuni strumenti di reporting e BI di interrogare Hadoop, anche se un po' lentamente.

La Fase 1 di Stinger (che include miglioramenti della compatibilità SQL, tecnologia di archiviazione delle colonne, compressione e hash join in memoria) era già stata implementata. Con il rilascio di HDP e Hadoop, 2.0, Hive 0.12 e Stinger Phase 2, in cui Hive continua a utilizzare MapReduce ma beneficia comunque di YARN in esecuzione al di sotto, è ora in fase di consegna. Hortonworks mi ha detto che Stinger Phase 2 ora offre miglioramenti delle prestazioni di 60x-70x rispetto alle versioni pre-Stinger di Hive, grazie in gran parte a Miglioramenti diretti di Hive, comprese query basate su vettori e ottimizzazioni per i cosiddetti star join comuni nelle query di tipo data warehouse scenari.

Stinger Phase 3 funzionerà su un motore chiamato Tez (la parola hindi per "velocità", pronunciata "taze"), che sostituirà completamente MapReduce. E dato che Stinger Phase 2 ha già raggiunto il livello 60x-70x, Hortonworks mi ha detto di ritenere piuttosto fiducioso che Stinger Phase 3 possa superare l'obiettivo di 100x originariamente stabilito per progetto. Va notato che qualsiasi distribuzione Hadoop che includa Hadoop 2.0 e Hive 0.12 conterrà lo Stinger Miglioramenti della fase 2, poiché il codice non è proprietario di Hortonworks, ma fa parte di Open Source Hive progetto.

Cosa c'è nella scatola
HDP 2.0 include aggiornamenti ai vari componenti dello stack Hadoop, tra cui HBase, Pig e, come già accennato, Hive. La seguente figura descrive in dettaglio le varie versioni dei rilasci del progetto Apache inclusi in vari rilasci di HDP:

Mappa della versione HDP/Apache

I prodotti di numerosi partner, tra cui Microstrategy, Tableau, Splunk, WANdisco, Talend ed Elasticsearch sono già certificati HDP 2.0.

IL Sandbox HDP, un'immagine di macchina virtuale predefinita contenente l'installazione HDP completa e verrà aggiornata per HDP 2.0 a breve e includerà tutorial di Hortonworks, ma anche di terze parti tra cui Microsoft, Talend e Quadro.

Hadoop attivato finestre
Parlando di Microsoft, secondo Hortonworks la versione Windows di HDP 2.0 verrà rilasciata a metà novembre. La ragione del breve ritardo si basa principalmente su alcuni ritocchi finali relativi all'integrazione tra Apache Ambari E Centro di sistema Microsoft. Verrà aggiornata anche la versione Windows di HDP Sandbox, disponibile nei formati VMWare, Virtual Box e Hyper-V.

La versione HDP 2.0 è una grande novità... e con Mondo strati/Hadoop in arrivo la prossima settimana a New York City, mi aspetto che ci sarà un quantità di più molto presto.