Microsoft HDInsight dobi Spark 2.0, hitrejši Hive in boljšo varnost

  • Sep 26, 2023

Microsoft naredi HDInsight vrhunsko ponudbo Hadoop/Spark z integracijo Azure Active Directory, Spark 2.0, prenosni računalniki Zeppelin, novi način Hive "LLAP" in prvovrstna integracija ISV aplikacije.

Ko je Microsoft začel potapljati prste v vode Hadoop, je sodeloval z Hortonworks prenesti Hadoop v Windows in ga zagnati v oblaku Azure. Toda zagon Hortonworks Data Platform (HDP) za Windows je pomenil HDInsight (kot je bil Hadoop na Azure sčasoma označen) je bil vedno korak za bolj običajnimi distribucijami Linuxa in nenehno dohiteval. Ko se je Microsoft odločil ponuditi gruče HDInsight, ki delujejo v sistemu Linux, se je vse spremenilo. Podpora iz vse industrije se je materializirala in najnovejše funkcije Hadoop so bile dodane storitvi v veliko hitrejših časovnih okvirih.

Poglej tudi

Hadoop in Spark: Zgodba o dveh mestih

Zlahka se navdušiti nad idealizmom okoli sijoče nove stvari. Toda razjasnimo nekaj: Spark ne bo nadomestil Hadoopa.

Preberi zdaj

Kljub temu je HDInsight treba dopolniti in danes Microsoft napoveduje prav to. Nova različica HDInsight, ki temelji na

HDP 2.5 lansira danes in skupaj z njim nekatere Microsoftove specifične varnostne in aplikacijske integracije, zaradi katerih je HDInsight kandidat za vodilno ponudbo Hadoop v oblaku.

Iskrica v očeh
Kaj je torej notri? Apache Spark 2.0, za začetek. Ta različica Spark vključuje tehnologijo iz Projekt Tungsten, ki daje Sparku moč vektoriziranih izračunov. Skupaj z novo različico samega Spark bo HDInsight zdaj vključeval podporo za Apaški cepelin zvezki, ki razvijalcem omogočajo ustvarjanje albumom podobnih kompozicij kode in vizualizacij podatkov, ki se izvajajo na Spark.

Preberite tudi: Spark prihaja v Azure HDInsight

HDInsight je že ponujal podobne zmožnosti uporabe Jupiter, še ena odprtokodna tehnologija prenosnikov. Lepo pa je videti, da HDInsight vključuje obe tehnologiji za prenosnike, tako kot večina drugih ponudb Hadoop. Še en lep dodatek, povezan s Sparkom, je priključek Spark-HBase, ki omogoča uporabo Spark SQL – iz prenosnih računalnikov ali drugje – za poizvedovanje podatkov v Apache HBase.

Hive se premakne na hitri pas
Uporaba HDP 2.5 pod pokrovom pomeni tudi, da lahko Microsoft pošilja Apache Hivenov način LLAP ("Live Long And Process"), ki izhaja iz "Stinger. Naslednji" pobuda okoli Hive. Kot sem poročal pred letom in pol, tehnologija združuje Hive Apache Tez s predpomnjenjem, vektorizacijo in drugimi optimizacijami za zagotavljanje, za kar tako Microsoft kot Hortonworks trdita, da so odzivni časi manj kot sekunde.

Preberite tudi: SQL in Hadoop: zapleteno je

Preberite tudi: Novice o vrhu Hadoop: red in razdrobljenost ekosistema

Microsoft pravi, da lahko na splošno ta nova izvedba Hive izboljša zmogljivost petindvajsetkrat nad prejšnjo implementacijo Hive on Tez, ki jo je pošiljal.

Primerjalni rezultati za LLAP vs. Panj na Tezu

Zasluge: Microsoft

Občutek varnega
Ta nova različica Azure HDInsight vključuje tudi integracijo z Azure Active Directory (ki se lahko integrira z lokalnimi namestitvami imenika Active Directory) in pregledno zmožnostjo šifriranja podatkov v mirovanju. Slednja zmožnost v kombinaciji z uporabo Azure Data Lake Store, omogoča, da šifrirne ključe upravlja stranka z uporabo Azure Key Vault storitev.
Platformiranje na HDP 2.5 pomeni tudi, da bo HDInsight zdaj vključeval Apache Ranger (v inkubaciji), tehnologija, ki izhaja iz Hortonworksovega prevzema XA Secure leta 2014.

Preberite tudi: Varnost Hadoop: Hortonworks kupi XA Secure -- in ga namerava spremeniti v odprto kodo

Ranger zagotavlja natančno plast nadzora dostopa, ki temelji na vlogah, nad Hadoopom in njegovimi različnimi distribucijskimi komponentami. Podpora za Ranger, kot tudi Apaški stražar, postaja de rigueur v svetu Hadoop, zato je Rangerjev dodatek HDInsightu verjetno dobra stvar za Microsoft in njegove stranke.

To je tretja oseba, stranka
Končno Microsoft uvaja novo možnost za integracijo aplikacij tretjih oseb ISV (neodvisni prodajalec programske opreme) s HDInsight. Poklicali Azure HDInsight aplikacijska platforma, omogoča, da se aplikacije ISV pripravijo skupaj z gručo HDInsight ali preprosto dodajo obstoječi gruče in imeti dostop do gruče in njenih virov, kot bi lahko na mestu uporabe namestitev.

(Popolno razkritje: moj delodajalec, Datameer, je bil prvi ISV, katerega aplikacija je bila vključena v aplikacijsko platformo HDInsight in Microsoftovo sporočilo za javnost o današnjih napovedih HDInsight vključuje citat mojega šefa, Stefana Groschupfa, podjetja Datameer DIREKTOR.)

A Microsoft to tudi napoveduje Sod in StreamSets se pridružujejo tudi programu Azure HDInsight ISV. Datameer bo v dobri družbi: Cask ponuja odličen, enoten API za razvijalce, ki zajema celoten sklad Hadoop, in Spark. In StreamSets, o katerem sem pisal pred samo nekaj tedni, ponuja platformo za upravljanje pretoka podatkov, obdelavo strojno ustvarjenih pretočnih podatkov.

Preberite tudi: Ali so operacije z velikimi podatki obvladljive? Dve podjetji pravita da.

Kdaj ga lahko odprem?
Uvedba HDP 2.5 in Spark 2.0 bo danes splošno dostopna. Če želite izkoristiti tudi način LLAP v Hive, boste morali zagotoviti posebno vrsto gruče HDInsight, ki je na voljo v predogledu.

Če ste stranka Azure, se verjetno želite tega dokopati. Vem, da vem, saj bom dostavil a predstavitev na HDInsight na konferenci prihodnji teden. In ali ni tako kot platforma v oblaku, da vaša predstavitev postane zastarela le teden dni, preden ste pripravljeni, da jo predstavite?