Cloudera Enterprise 6 jõuab tänavatele

Hadoop 3.0 võtab Cloudera platvormi järgmises väljaandes peaosa.

Video: kuidas LA kasutab tehisintellekti ja õppimist liikluse paremaks mõistmiseks

Saabudes keset üleminekuaastat, Cloudera teatab kell Strata Londoni konverents see nädal ~~üldine~~ platvormi 6.0 väljalaske beetaversioon pärast laiendatud beetaversiooni. Uue väljalase jaoks Hadoop 3.0 on saate staar.

Vaatasime üle Hadoop 3.0 aasta alguses. Kokkuvõtteks võib öelda, et 3.0 Apache Hadoopi väljalase tähistab platvormi jaoks suurt veelahet, kuna see hakkab teabe elutsüklit käsitlema funktsiooniga, millel on väga nõme nimi: Kustutamise kodeerimine.

TechRepublic: Apache Hadoop: petuleht

Kustutamise kodeerimine on väljakujunenud RAID-tehnoloogiate põhifunktsioon. Kuna Hadoop 3.0 kasutab seda funktsiooni, tunnistab Apache'i kogukond, et Hadoop ei vabastata ettevõtte salvestusruumi gravitatsiooniseadustest.

Taust on järgmine: kui Hadoop ilmus, oli idee, et isegi kui andmeid korrati kolm korda, salvestusruum oleks nii odav ja skaleeritav arvutus nii lineaarne, et te ei peaks mõtlema piiramisele seda. Umbes nagu vananenud põhimõte, et tuumaenergia oleks nii odav, et te ei peaks seda mõõtma.

Noh, võib-olla võib universum tunduda lõpmatu, kuid mingil hetkel on salvestusruumi laienemisel piir. Isegi pilves, nagu paar kuud tagasi märkisime, muutub liiga odav hind lõpuks kalliks.

Kustutamise kodeerimine tähendab, et te ei pea andmeid 3x kordama; Hadoop 3.0 juurutamise tegelik jalajälg väheneb ligikaudu poole võrra. Muidugi on alati kompromiss. Kustutamiskodeeritud andmed on sisuliselt peaaegu rea andmed, mis tähendab, et pääsete neile juurde oma arvutuste tegemiseks, kuid alles pärast nende taastamist.

Cloudera Enterprise 6 hõlmab ka Hadoop 3.0 uut võimalust föderatsiooni LÕNG nii et mitu YARN-i mootorit saaksid arvutusi jaotada klastri erinevate jaotatud osade vahel. Seal on NameNode'i sarnane täiendus - ühe ooterežiimi NameNode asemel võib teil olla nii palju kui soovite. See funktsioon ei pruugi iseenesest arvutada ega salvestada, kuid muudab tõrkesiirde palju vastupidavamaks.

Muud Cloudera 6 esiletõstmised hõlmavad Apache Kafka 1.0 tugi, umbes kuus kuud pärast seda, kui see GA läks. See peegeldab Cloudera strateegiat, mis ei toeta eraldumist, vaid toetab uusi avatud lähtekoodiga funktsioone, kui need on stabiliseerunud. Sama kehtib ka Solr 7 ilmus eelmisel suvel, mis on Cloudera Searchi tuum. Sel juhul tegi Cloudera kaotatud aja tasa see oli varem 4.x Solr versioonis. Solr 7 tipphetked hõlmavad indeksi värskendamise režiimide valikut. Suure mastaabiga juurutuste puhul võivad teil olla mitme serveriga sarnased võimalused, mis võimaldavad mis tahes kohalikul koopial saada ülemrakenduseks (see kiirendab laiendatud juurutuste jaoks otsingu indekseerimist); Paxose-laadne võime, kus kapten valitakse konsensuse alusel; või jätkake olemasoleva ülem-alluv režiimiga, kus indeksi värskendused tõmmatakse ülemseadmelt.

Eriline iseärasus

Eriaruanne: Kõik kui teenuse tulevik (tasuta PDF)

SaaS avaldas suurt mõju sellele, kuidas ettevõtted pilveteenuseid tarbivad. Selles e-raamatus vaadeldakse, kuidas teenusena leviv trend IT-töökohti levib ja muudab.

Lugege kohe

Cloudera 6 teeb ka hüppe Spark 2.0. Võrreldes varasemate versioonidega on Spark (ja Kafka) tihedam integreerimine, mis lihtsustab andmekanalite haldamist. Hive 2 toetamine tähendab, et Cloudera 6 kasutab vektoriseerimist, mis parandab Hive jõudlust kuni 80 protsenti, samas kui Ozzie 5.0 toetamine lisab võimaluse ajastada korduvaid töid.

Kõik see tuleb aastal, mil ettevõte teeb suure pöörde. Nagu kõik teised Hadoopi müüjad (ja konverentsid), enamik võtab Printsilaadsed strateegiad mis tegelikult lisavad Hadoopi jaoks varem tuntud ettevõtte tunnuslause. See on tingitud arusaamisest, et nagu iga ettevõtte tehnoloogilise investeeringu puhul, vajavad suurandmed rohkem ärikesksust, et saada sisseost väljaspool ettevõtte tippkeskuse üksust või andmeteaduse meeskonda.

Siis on nn identiteediprobleem: kas need inimesed tõesti müüvad Hadoopi ja lihtsalt mis on Hadoop ikkagi? Hadoop määratleti algselt mastaabiarvuti (MapReduce) ja salvestusruumina (HDFS). Ometi täna, Cloudera ja Hortonworks mõlemad müüvad pilvepõhiseid platvormi teenusena (PaaS) pakkumisi, mis asuvad HDFS-i asemel pilveobjektide salvestusruumis, ja nende pakkumisi optimeeritakse Sparki arvutussüsteemis üha enam.

Siis on tõsiasi, et Hadoop pole enam ainus tee suurandmete arvutuste tegemiseks; seal on voogesituse andmeanalüüsi torujuhtmed, rääkimata spetsiaalsetest teenustest Sparkile, masinõppele, ja süvaõpe, mis pakuvad alternatiivseid teid suurandmete analüüsiks väljaspool Apache'i komponente Hadoop.

Cloudera jaoks on asja ülempiiriks see, et ettevõte on pidanud kasumlikkuse saavutamiseks tegema raskeid otsuseid. Cloudera ja selle suurte andmeplatvormide konkurentide, nagu Hortonworks ja MapR, äritegevuse võti seisneb selles, et müügitsükkel on selline mis tahes ettevõtte süsteem: see on pikk ja saab kasumlikuks alles uuenemise ajal, kui jalajäljed kasvavad - nn maa ja laieneb strateegia,. Avaliku ettevõttena pole Cloudera numbrites saladust. Müük kasvas kenasti, kuid tekkis arusaam, et liiga paljud neist on ühekordsed tehingud. Nii otsustas Cloudera sel aastal mõru ravimit võtta. Aktsiahinnad on pärast a võtmist tagasihoidlikult taastunud terav sukeldumine pärast vabastamist 18. majandusaasta lõplikud tulemused aprillis, kui ettevõte püüab oma mängu parandada Wall St. ootuste haldamine.