„Hadoop“ ir „Big Data“, „Stratafied“

  • Oct 20, 2023

Kai „Hadoop“ peržengia „MapReduce“, „Enterprise“ orientaciją, atminties technologija ir prieinamas mašininis mokymasis yra kitos ribos.

„Strata“ + „Hadoop World“ miniatiūra

Šiandien buvo paskutinė diena Strata / Hadoop World Niujorke, šou, kuris tik auga. Jei šiais metais surinkčiau visus el. laiškus, pranešimus spaudai ir informacinius pranešimus, susijusius su įvykiu, man tikriausiai prireiktų Hadoop klasterio, kad galėčiau jį peržiūrėti. Parašyti įrašą vienai naujienai būtų neįmanoma. Tiesą sakant, net naujienų santrauka greičiausiai taptų skalbinių pranešimų sąrašu, ir aš lažinuosi, kad būtų gana nuobodu skaityti.

Daug vertingiau ir, tikiuosi, ne per daug pretenzingiau būtų apibendrinti tai, ką girdėjau, skaičiau ir mačiau trumpas tendencijų, kurios pasirodė laidoje, sąrašas ir tam tikra prasme apibendrina, kur šiuo metu yra analizės pramonė. Taigi čia... Strata / Hadoop World NYC 2013... keturiomis paprastomis temomis.

Hadoop ne tik MapReduce
Didžiosios naujienos Hadoop pasaulyje prieš pat Strata buvo „Hadoop 2.0“ bendrojo prieinamumo (GA) leidimas

. Ši nauja „Hadoop“ versija išlaiko ankstesnių versijų galimybes, tačiau pašalina vieną svarbų reikalavimą: naudoti dviejų eigų, paketinį režimą. MapReduce duomenų apdorojimo algoritmas.

„MapReduce“ tinka kai kurioms probleminėms sritims, tačiau daugeliui kitų – nešvari... tiesą sakant, aš visada maniau, kad tai blogai daugeliui verslo analitikos naudojimo atvejų. Tačiau kadangi „MapReduce“ buvo būdas atlikti reikalus „Hadoop“ šalyje, žmonės ir pardavėjai susitvarkė ir išmoko į „MapReduce“ apvalią skylę įstatyti įvairius analitinius kvadratinius kaiščius.

Nemanau, kad būtų per daug lengva sakyti, kad „MapReduce“ priklausomybė sulaikė „Hadoop“. Ir dabar, kai „Hadoop 2.0“ yra išleista, pamatysime, kad ji taps daug populiari. Tai užtruks, nes ekosistema aplink Hadoop YARN komponentas (dėl to galima apdoroti ne MapReduce) turi sukurti, bet dar kartą produktų sąsają Atsiradus YARN ir keletui atvirojo kodo žudikų projektų, greičiausiai bus priimtas Hadoop paspartinti.

Ir mes jau išvykome į lenktynes ​​su „Hortonworks Data Platform“ (HDP) 2.0 GA leidimai paskelbė praėjusią savaitę, o „Cloudera“ platina „Apache Hadoop“. (CDH) 5.0 vakar paskelbta Strata. Abu platinimai yra pagrįsti Hadoop 2.0 kodo baze.

Teminiai

  • Ar „Windows 10“ per populiari dėl savo gerovės?
  • 5 būdai, kaip rasti geriausią vietą savo karjerai pradėti
  • Taip generatyvus AI pakeis koncertų ekonomiką į gerąją pusę
  • 3 priežastys, kodėl man labiau patinka šis 300 USD kainuojantis „Android“, o ne „Google Pixel 6a“.

Daugiau nei prieš metus sutikau „Microsoft“ inžinierių, kuris man pasakė, kad „MapReduce“ atsitrauks nuo dominavimo „Hadoop“ pasaulyje. Tuo metu maniau, kad jis pervertina dalykus. Ne, esu tikras, kad jo vertinimas iš tikrųjų buvo gana nepakankamas.

Kalbant apie „Microsoft“, ji naudojo „Strata“ kaip forumą, kad paskelbtų GA išleido debesyje pagrįstą „Hadoop“ pasiūlymą HDInsight. „Microsoft“ „Hadoop“ distribucija yra pagrįsta „Hortonworks“ HDP Windows, kurios „Apache 2.0“ versija dar nėra išleista. Tačiau tikimasi, kad kitą mėnesį jis sumažės, o netrukus po to jis turėtų patekti į HDInsights.

Du žodžiai: atmintyje
In-memory iš tikrųjų yra piktnaudžiaujama terminu, todėl aš nesiryžtu jį naudoti apibrėždamas vieną kategoriją. Bet vis tiek ketinu tai padaryti, nes įmonės ir produktai, kurie save identifikuoja pagal etiketę, iš tikrųjų patenka į kategoriją, net jei tik iš požiūrio.

Pradėkime nuo SAP – įmonės, kuri sėkmingai dirbo „Strata“ ir kuri vis dar populiarėja HANA būgnas. Vis dar gana skeptiškai žiūriu į modelį, kuris leistų man naudoti RAM kaip savo duomenų bazės laikmeną... Šiuolaikiniai serveriai yra geriausi apie 256 GB RAM šiuo metu ir net jei ji padidės keturis kartus, vis tiek prireiks 1 024 dėžučių, kad pasiektumėte petabaitą, o tai atrodo nelengvas. Tačiau SAP turi daug ERP klientų ir perkelia juos į HANA platformą, suteikdama HANA kritinė masė ir nuosavybės teisė į vertingus sandorių duomenis, kurių analizė yra labai svarbi verslui. Kitaip tariant, SAP įdeda HANA į veiksmų vidurį, todėl ji tampa strategiškai svarbia platforma...nepriklausomai nuo jos techninių privalumų (ar jų nebuvimo).

Taigi, kai SAP praneša, kad žengia pirmyn pagal HANA strategiją, tai yra naujiena, ir tai rodo tendencijos pėdsaką. Prie to pridėkite naują, HANA pagrįstą „Customer Engagement Intelligence“ programų rinkinys paskelbė SAP, ir jos „karšta, šilta, šalta“ duomenų saugojimo HANA strategiją, Sybase IQ ir Hadoop, ir jūs galite įžvelgti įmonės pranešimą: HANA yra karūnos brangakmenis, duomenų saugykla vis dar yra svarbu, o geriausias būdas pripažinti „Hadoop“ yra įtraukti jį į savo krūvą... apačioje hierarchija.

Įtrauktos kitos atmintyje esančios įmonės ir produktai, esantys „Strata“. „GridGain“ ir „ScaleOut“ programinė įranga kurių produktai, be kitų gudrybių, gali veikti kaip Hadoop apdorojimo atmintyje esančios darbo vietos, kurias abi bendrovės teigia nepaprastai paspartinančios; KognitioAnalitinė platforma (kurios 8.1 leidimas buvo paskelbė „Strata“ šiandien) ir netgi nauja „Cloudera“ CDH 5.0 galimybė: galimybė „prisegti“ duomenis atmintyje (tai, ką reliacinės duomenų bazės siūlo jau daugelį metų). Tada yra būsima „Microsoft“ pavyzdinės duomenų bazės versija, SQL Server 2014, kuriame bus naujas OLTP variklis atmintyje.

Tačiau dabar, kai sumaišiau visus šiuos produktus, leiskite man juos atskirti. Kognitio yra brandus produktas, kuris naudoja atmintį ne duomenų saugojimui, o apdorojimui. Jis taip pat sukompiliuoja SQL užklausas į mašininį kodą, o kompiuterio lygio kodo, veikiančio su atmintyje esančiais duomenimis, derinys gali iš tikrųjų labai pagreitinti darbą. Tiesą sakant, SQL serverio atmintyje esantis OLTP naudoja panašią strategiją.

„GridGain“ ir „ScaleOut“ programinė įranga sujungia apdorojimą atmintyje su tinklelio / klasterio skaičiavimu. Ir tam tikra prasme „Hadoop“ apdorojimas yra tik papildoma abiejų įmonių produktų funkcija. Kiekvienos įmonės technologija gali veikti nepriklausomai nuo „Hadoop“ ir pati teikti daug vertės.

„Cloudera“ galimybė prisegti duomenis į atmintį iš tikrųjų yra tik talpyklos kaupimas. Paprastai talpykloje saugomi duomenys gali būti „išvalomi“ iš atminties ir šiek tiek neapibrėžtu laiku. Prisegimas leidžia kūrėjui arba duomenų bazės administratoriui nurodyti, kad tam tikri duomenys turi likti talpykloje, o ne išvalyti. Jei turite pakankamai didelę talpyklą ir prisegate didelius gabalus arba visą savo duomenų bazę, techniškai jūsų duomenys yra atmintyje. Tačiau tai visiškai skiriasi nuo darbo su produktais, kurių architektūra sukurta remiantis išskirtinio veikimo atmintyje prielaida.

Įmonė arba biustas
Aukščiau esančioje paantraštėje esančią frazę naudojau savo straipsnis „Cloudera“ CDH 5. Akivaizdu, kad „Cloudera“ savo svetainėse turi „Enterprise“ klientą. Apskritai tai yra metai, kai pradedančios įmonės turi pradėti uždirbti pinigų, jei nori išgyventi, o įmonės klientai yra būdas tai pasiekti.

Tai reiškia, kad „Hadoop“ kaminuose reikia pridėti nuobodžių, bet būtinų funkcijų. Štai kodėl „Cloudera“ pridėjo atminties prisegimą. Taip pat dėl ​​to MapR pirmadienį paskelbė Strata a saugumo beta versija, kuriame yra HTTPS / sertifikatas pagrįstas ir Kerberos autentifikavimas, integruotas su Active Directory ir LDAP, klasterio lygiu, savo Hadoop paskirstyme. Štai kodėl SQL-on-Hadoop pamišimas, kurį pradėjo Cloudera's Impala pristatymas Praėjusių metų „Strata“ dėka dauguma duomenų pramonės žaidėjų dabar siūlo panašius sprendimus.

„Enterprise“ diskas taip pat paaiškina, kodėl MetaScale, visiškai priklausanti Sears Holdings dukterinė įmonė, įmonėms siūlo strategiją, patarimus ir Hadoop diegimo patirtį... ir kodėl daugeliu atvejų tai padeda įmonėms perkelti COBOL kodą į Apache kiaulė ir senoji mokykla EBCDIC failus į ASCII failus HDFS. Galbūt tai nėra seksualu, bet tai didžiulė pagalba klientams, padedanti išspręsti jų skaudulius, sumažinti išlaidas, pagreitinti darbus, ir senojo kodo, kurio kūrėjai gali būti išėję į pensiją, perkėlimas į modernesnę kalbą, kuri veikia su failais duomenis.

Savitarnos analitika
Kita ir paskutinė sritis yra duomenų gavybos, mašininio mokymosi ir nuspėjamosios analizės sritis. Taip, „Revolution Analytics“. paskelbė pirmadienį „Strata“ buvo išleista „Revolution R Enterprise“ produkto 7 versija, tačiau ji viršija tai. Jau kurį laiką tai sakau duomenų mokslininkai nekeičia masto, ir kad turėsime padaryti analizę prieinamą verslo vartotojams, jei tikroji modeliavimo ir nuspėjamosios analizės nauda bus persmelkta verslo pasaulyje. Na, dabar turime keletą pradedančiųjų tame žaidime.

SkyTree ir Alpių duomenų laboratorijos kiekvienas iš jų siūlo produktus, kuriuose yra grafinės vartotojo sąsajos sąsajos tokiam analizės darbui. Terminas „duomenų mokslininkas dėžutėje“ kartais taikomas tokiems produktams, kaip šis, bet man čia būtų patogiau taikyti terminą „savitarna“. Abu šie produktai dedami ant „Hadoop“, kad būtų atliktas jų apdorojimas, tačiau didžiąja dalimi tai yra įgyvendinimo detalė, kaip ir turėtų būti. Actian ParAccel duomenų platforma, integravus DataRush produktą, kurį jis įsigijo kartu su Pervasive Software anksčiau šiais metais, dabar turi savo DataFlow variklis, kuris siūlo ir mašininį mokymąsi / analizę, ir ETL (ištraukimas-transformavimas-įkėlimas) per Hadoop ir netgi gali juos sujungti į tą patį orkestravimą.

Ir nors jų renginyje nebuvo, turiu pabrėžti Predixion programinė įranga, jei noriu visapusiškai aprėpti savitarnos analizės erdvę. „Predixion“ taip pat teikia grafinę sąsają, o ne analizę, tačiau tai daro su posūkiu: jo gimtoji aplinka yra „Microsoft Excel“ ir galimybė dirbti su daugeliu duomenų šaltinių, įskaitant Hadoop, duomenų saugyklos įrenginius, standartines reliacines duomenų bazes ir daugiau. Galbūt todėl „Accenture“ dabar naudoja „Predixion“ kaip standartinį „Accenture Analytics“ platformos įrankį ir taip pat investavo į „Predixion“.

Mano „Hadoop“ užaugo
Nuspėjamoji „Excel“ analizė? Vykdote Pig kodą, kuris buvo perkeltas iš pagrindinio kompiuterio COBOL? Norite atsikratyti gana neaiškių „MapReduce“ programavimo įgūdžių rinkinio, kad galėtumėte atlikti „Hadoop“ darbą? Prieš dvejus metus „Stratoje“ būtų buvę sunku tai įsivaizduoti. Kodėl tai vyksta? Nes „Hadoop“ bręsta, kaip ir už jo esančios įmonės.