Kaip Databricks tobulina savo Apache Spark debesų platformą

Didėjant prieigai prie duomenų rinkinių įmonėse, „Databricks“ didelių duomenų „Apache Spark“ debesies pasiūlymas prideda naujų funkcijų.

Inžinerijos vadovas Ali Ghodsi: Iš pradžių tik nedidelė duomenų mokslininkų komanda vykdė savo duomenų užklausas.
Vaizdas: Databricks

Beveik du mėnesius po jo „Apache Spark“ pagrįsta debesų platforma tapo viešai prieinama„Databricks“ šiandien pristato funkcijų rinkinį, kuris, pasak jos, padės įmonėms, turinčioms dideles komandas, kontroliuoti prieigą prie duomenų ir palengvins „Spark“ programų kūrimą.

Be prieigos valdymo, Databricks 2.0 dabar siūlo populiarią R statistinio programavimo kalbą, kelių Spark versijų palaikymą ir nešiojamojo kompiuterio versijų kūrimą.

„Spark“ prasidėjo 2009 m. kaip UC Berkeley AMPLab tyrimo projektas, skirtas sukurti grupavimo skaičiavimo sistemą, skirtą tiksliniams darbo krūviams, kuriuos „Hadoop“ netinkamai aptarnauja. 2010 m. jis pasirodė atvirojo kodo, o praėjusiais metais jame buvo daugiau nei 450 bendraautorių. Jo kūrėjai 2013 m. įkūrė „Databricks“.

Databricks yra debesies pagrindu sukurta didelių duomenų apdorojimo platforma, sukurta naudojant Spark, su standartinėmis bibliotekomis, tokiomis kaip Spark SQL ir MLlib, ir kelių vartotojų grafine sąsaja.

Platformoje taip pat siūlomi interaktyvūs nešiojamieji kompiuteriai, skirti supaprastinti „Spark“ programų kūrimą ir valdymą. Nešiojamieji kompiuteriai turi sąsajas, leidžiančias kūrėjams rašyti „Spark“ užduotis „Python“, „Scala“ ar SQL ir suplanuoti jas. Databricks teigia, kad nešiojamieji kompiuteriai gali būti pakartotinai paleisti kaip automatiškai vykdomos gamybos užduotys.

Taip pat žr

„Databricks“ debesų platforma „Apache Spark“ paleidžiama į viešumą

Skaitykite dabar

„Iš pradžių tai buvo tik nedidelė duomenų mokslininkų komanda, kuri vykdė užklausas dėl savo duomenų. Tačiau netrukus jis išsiplėtė ir toje pačioje organizacijoje juo naudojosi gal 100 žmonių. Reikalavimai staiga pasikeitė gana dramatiškai“, – sakė „Databricks“ inžinerijos vadovas Ali Ghodsi.

„Jie turėjo rinkodaros žmonių, produktų vadybininkų ir kitų prieigą prie jų duomenų. Jūs gaunate šiuos skirtingus asmenis organizacijoje, kurie dabar gali užduoti klausimus iš duomenų rinkinio. Tai iš tikrųjų yra beveik visų šių naujų funkcijų pagrindas.

Remiantis Databricks, nešiojamų kompiuterių prieigos kontrolės sąrašai suteikia išsamias teises ir privilegijas nustatytas individualiai didelėms komandoms, turinčioms skirtingus vaidmenis ir įvairius prieigos prie kodo poreikius duomenis.

„Kai ateina rinkodara, norisi būti atsargiems. Galbūt yra slaptų prieigos prie „Amazon“ raktų ar kitų dalykų, kuriuos turite savo užrašų knygelėse, nes dabar jūsų užrašų knygelės yra jūsų šaltinio kodas, užrašai ir viskas“, – sakė Ghodsi.

„Norite įsitikinti, kad nenorite jais dalytis su visais organizacijos nariais. Maža to, kai kurioms iš šių organizacijų tai yra reikalavimų laikymosi pažeidimas.

Tačiau „Databricks“ pristatė ne tik įvairius prieigos kontrolės lygius, bet ir nešiojamojo kompiuterio versiją funkcija, todėl kūrėjai gali valdyti ir sekti kodų bazę integruodami su populiariais versijų valdymo įrankiais, pvz kaip Gitas.

Taip pat žr

Apache Spark 1.4 prideda R kalbą ir sustiprintą mašininį mokymąsi

Skaitykite dabar

„Vis daugiau žmonių bendradarbiauja kurdami tuos pačius sąsiuvinius. Galite užeiti ir patys pakeisti užklausą. Augant įmonės naudojimui ir turint gal 100 žmonių, turinčių prieigą prie šio failo, vienas iš akivaizdžių dalykų Problema tampa ta, kad galbūt nenorite, kad kas nors tupėtų prie jūsų užrašų knygelių ir viską sujaukintų“, – Ghodsi. sakė.

„Norėtumėte pamatyti, ką aš pakeičiau, ir galbūt norite atkurti senąją jo versiją.

Prieiga prie versijų neapsiriboja nešiojamaisiais kompiuteriais, bet apima ir pačią „Spark“ su nauja funkcija, leidžiančia kūrėjams eksperimentuokite su naujausiais „Spark“ patobulinimais, tačiau išlaikykite suderinamumą įdiegdami kelias „Databricks“ versijas platforma.

„Įmonei augant, kai kurie išmanesni duomenų inžinieriai gali norėti turėti prieigą prie daug naujesnių „Spark“ funkcijų. Dabar jie nori valdyti savo „Spark“ grupes pagal versijas ir tai yra daug sunkesnė problema“, – sakė jis.

„Puikus dalykas SaaS aplinkoje yra tai, kad mes iš tikrųjų galime tai padaryti. Galime valdyti skirtingus klasterius ir pasirinkti, kokias versijas turi kiekvienas klasteris. Tada, kai norite pereiti prie naujų versijų, galime automatiškai pakeisti ankstesnių grupių dydį, kad jos taptų vis mažesnės.

„Galite palaipsniui pereiti ir išbandyti naujas „Spark“ versijas. Svarbiausias dalykas yra tai, kad turėtume dinamiškai koreguoti šių grupių dydį.

Naudojant 1.4 „Spark“ versiją, kuri paprastai pasiekiama birželio mėn. siūlo palaikymą R kalbai, Databricks pasekė savo debesų platformos pavyzdžiu, o R vartotojai dabar gali dirbti tiesiogiai su dideliais duomenų rinkiniais per SparkR API.

Anot Ghodsi, ne duomenų mokslininkų galimybė atlikti tiriamąją analizę ir rašyti darbus „Databricks in R“ yra svarbi dalis norint plačiau paskleisti prieigą prie duomenų įmonėse.

„Kiti žmonės įmonėje, o ne užkietėję didžiųjų duomenų mokslų daktarai, ne originalūs vaikinai, nes tiems originaliems vaikinams iš tikrųjų gerai sekėsi tiesiogiai tirti tokius žemo lygio Spark dalykus. Jie yra išmintingi, jiems patinka ši medžiaga, jie naudojasi nuo pirmųjų „Spark“ dienų, kai kurie iš jų dar anksčiau, kai tai buvo didžiulė sėkmė“, – sakė jis.

„Tačiau dabar organizacijoje yra žmonių, kurie nori užduoti klausimus. Kai kurie iš jų žino SQL. Tačiau praėjusiais metais matėme, kad vis daugiau žmonių klausdavo apie R.

Databricks teigė, kad nuo tada, kai platforma buvo prieinama maždaug prieš šešias savaites, ji pritraukė daugiau nei 1700 užsiregistravusių žmonių. įmonių diegimo įmonėse, pvz., transporto priemonių pardavimo internetu ir informacijos svetainėje Edmunds.com bei dietos versle, skaičius MyFitnessPal.

Daugiau apie didelius duomenis

IBM, „Cloudera“, „Amazon“ pranešimai: „Big Data“ naujienų apžvalga
Atsisakykite rinkodaros nesąmonių: ar tikrasis duomenų mokslininkas atsistos?
Virtualizuotas „Hadoop“: trumpas galimybės apžvalga
Apache atlasas, parketo progresas; Whirr išėjo į pensiją
„MariaDB Corp“ kūrėjams sukuria geresnes „Chef“ ir „Docker“ funkcijas
„Microsoft“ sujungia analizės paslaugas ir prideda „Cortana“ sąsają
„Spark“ ateina į „Azure HDInsight“.