როგორ აძლიერებს Databricks თავის Apache Spark ღრუბლოვან პლატფორმას

მონაცემთა ნაკრებებზე წვდომით ბიზნესის შიგნით ფართოვდება, Databricks-ის დიდი მონაცემთა Apache Spark ღრუბლოვანი შეთავაზება ამატებს ახალ ფუნქციებს, რომ გაუმკლავდეთ.

ინჟინერიის ხელმძღვანელი ალი ღოდსი: თავდაპირველად, მონაცემთა მეცნიერთა მხოლოდ მცირე ჯგუფი აწარმოებდა შეკითხვებს მათი მონაცემების წინააღმდეგ.
სურათი: მონაცემთა აგური

მისგან თითქმის ორი თვის შემდეგ Apache Spark-ზე დაფუძნებული ღრუბლოვანი პლატფორმა საჯაროდ ხელმისაწვდომი გახდაDatabricks დღეს გამოაქვეყნებს ფუნქციების ერთობლიობას, რომელიც ამბობს, რომ დაეხმარება ფირმებს დიდი გუნდებით გააკონტროლონ მონაცემების ხელმისაწვდომობა და გააადვილონ Spark აპლიკაციის შემუშავება.

დაშვების კონტროლის გარდა, Databricks 2.0 ახლა გთავაზობთ პოპულარული R სტატისტიკური პროგრამირების ენის გამოყენებას, Spark-ის მრავალი ვერსიის მხარდაჭერას და ნოუთბუქის ვერსიებს.

Spark-მა დაიწყო 2009 წელს, როგორც UC Berkeley AMPLab-ის კვლევითი პროექტი, რათა შეიქმნას კლასტერული გამოთვლითი ჩარჩო, რომელიც მიმართავს სამიზნე დატვირთვას, რომელსაც ცუდად ემსახურება Hadoop. 2010 წელს ის ღია კოდით შევიდა და გასულ წელს 450-ზე მეტი კონტრიბუტორი ჰყავდა. მისმა შემქმნელებმა განაგრძეს Databricks-ის დაარსება 2013 წელს.

Databricks არის ღრუბელზე დაფუძნებული დიდი მონაცემთა დამუშავების პლატფორმა, რომელიც აგებულია Spark-ზე, სტანდარტული ბიბლიოთეკებით, როგორიცაა Spark SQL და MLlib, და მრავალ მომხმარებლის გრაფიკული ინტერფეისით.

პლატფორმა ასევე გთავაზობთ ინტერაქტიულ ნოუთბუქებს, რომლებიც შექმნილია Spark აპლიკაციების შემუშავებისა და მართვის გასამარტივებლად. ნოუთბუქებს აქვთ ინტერფეისები, რომლებიც დეველოპერებს საშუალებას აძლევს დაწერონ Spark სამუშაოები Python-ში, Scala-ში ან SQL-ში და შემდეგ დაგეგმონ ისინი. Databricks ამბობს, რომ ნოუთბუქები შეიძლება განმეორდეს, როგორც ავტომატური წარმოების სამუშაოები.

Იხილეთ ასევე

Databricks-ის Apache Spark ღრუბლოვანი პლატფორმა გამოდის საჯარო

წაიკითხე ახლა

„თავდაპირველად, მონაცემთა მეცნიერთა მხოლოდ მცირე ჯგუფი იყო, რომელიც აწარმოებდა შეკითხვებს მათი მონაცემების საწინააღმდეგოდ. მაგრამ მალე ის გაფართოვდა და ჩვენ გვყავდა შესაძლოა 100 ადამიანი იყენებდა მას იმავე ორგანიზაციაში. მოთხოვნები საკმაოდ მკვეთრად შეიცვალა, უცებ“, - თქვა Databricks-ის ინჟინერიის ხელმძღვანელმა ალი ღოდიმ.

„მათ ჰყავდათ მარკეტინგის ადამიანები, პროდუქტის მენეჯერები და სხვები, რომლებმაც დაიწყეს წვდომა მათ მონაცემებზე. თქვენ მიიღებთ ამ განსხვავებულ პერსონებს ორგანიზაციაში, რომლებსაც ახლა ყველას შეუძლია კითხვების დასმა მონაცემთა ნაკრებიდან. ეს ნამდვილად არის თითქმის ყველა ამ ახალი ფუნქციის ფონი."

Databricks-ის მიხედვით, ნოუთბუქებისთვის წვდომის კონტროლის სიები იძლევა დეტალურ უფლებებსა და პრივილეგიებს დაყენებულია ინდივიდუალურად დიდი გუნდებისთვის, სხვადასხვა როლებით და მრავალფეროვანი საჭიროებებით კოდზე წვდომისთვის და მონაცემები.

„როდესაც შემოდის მარკეტინგი, გინდა იყო ფრთხილად. შესაძლოა, არის ამაზონზე წვდომის საიდუმლო გასაღებები ან სხვა ნივთები, რაც თქვენს ნოუთბუქებში გაქვთ - იმიტომ, რომ თქვენი ნოუთბუქები ახლა თქვენი საწყისი კოდია, თქვენი ჩანაწერები, ყველაფერი“, - თქვა ღოდიმ.

„გსურთ დარწმუნდეთ, რომ არ გაუზიარებთ მათ ორგანიზაციაში ნებით თუ უნებლიეთ. არა მხოლოდ ეს, ზოგიერთი ამ ორგანიზაციისთვის ეს არის შესაბამისობის დარღვევა“.

მაგრამ, ისევე როგორც წვდომის კონტროლის სხვადასხვა ფენების დაყენება, Databricks-მა შემოიტანა ნოუთბუქის ვერსია ფუნქცია, ასე რომ დეველოპერებს შეუძლიათ მართონ და თვალყური ადევნონ კოდების ბაზას ვერსიების კონტროლის პოპულარულ ინსტრუმენტებთან ინტეგრირებით, როგორიცაა როგორც Git.

Იხილეთ ასევე

Apache Spark 1.4 ამატებს R ენას და გამაგრებულ მანქანურ სწავლებას

წაიკითხე ახლა

„უფრო მეტი ადამიანი თანამშრომლობს ერთსა და იმავე ნოუთბუქებზე. შეგიძლიათ შეხვიდეთ იქ და შესაძლოა თავად შეცვალოთ შეკითხვა. როდესაც კომპანიის გამოყენება იზრდება და თქვენ გყავთ შესაძლოა 100 ადამიანი ამ ფაილზე წვდომის მქონე, ერთ-ერთი აშკარა რამ რაც პრობლემად იქცევა, შეიძლება არ გინდოდეს, რომ ვიღაც შენს ნოუთბუქებზე იჯდეს და რაღაცებს აერიოს“, - ღოდსი განაცხადა.

"გსურთ ნახოთ, რა შევცვალე და იქნებ გსურთ მისი ძველი ვერსიის დაბრუნება."

ვერსიებზე წვდომა არ შემოიფარგლება მხოლოდ ნოუთბუქებით, არამედ ვრცელდება თავად Spark-ზე, ახალი ფუნქციით, რომელიც საშუალებას აძლევს დეველოპერებს ექსპერიმენტი Spark-ის უახლესი მიღწევებით, მაგრამ შეინარჩუნეთ თავსებადობა Databricks-ში მრავალი ვერსიის განლაგებით პლატფორმა.

„როგორც კომპანია იზრდება, ზოგიერთ უფრო მცოდნე მონაცემთა ინჟინერს შეიძლება მოისურვოს წვდომა Spark-ის ბევრად უფრო ახალ ფუნქციებზე. ახლა მათ სურთ თავიანთი Spark კლასტერების ვერსიის კონტროლი და ეს ბევრად უფრო რთული პრობლემაა. ”- თქვა მან.

„სასიამოვნო რამ SaaS გარემოში არის ის, რომ ჩვენ შეგვიძლია ამის გაკეთება რეალურად. ჩვენ შეგვიძლია გავაკონტროლოთ სხვადასხვა კლასტერი და ავირჩიოთ რომელი ვერსიები აქვს თითოეულ კლასტერს. შემდეგ, როდესაც გსურთ ახალ ვერსიებზე გადასვლა, ჩვენ შეგვიძლია ავტომატურად შევცვალოთ თქვენი წინა კლასტერების ზომა, რათა უფრო და უფრო პატარა გახდეს.

„შეგიძლიათ თანდათან გადახვიდეთ და სცადოთ Spark-ის ახალი ვერსიები. აქ გადამწყვეტი ის არის, რომ ჩვენ უნდა შევძლოთ ამ კლასტერების ზომის დინამიურად კორექტირება. ”

Spark 1.4 ვერსიით, რომელიც ზოგადად ხელმისაწვდომია ივნისში, გთავაზობთ R ენის მხარდაჭერას, Databricks მიჰყვა თავის ღრუბლოვან პლატფორმაზე R მომხმარებლებს ახლა შეუძლიათ პირდაპირ იმუშაონ მონაცემთა დიდ ნაკრებებზე SparkR API-ის მეშვეობით.

ღოდსის თქმით, მონაცემთა გარეშე მეცნიერების შესაძლებლობა ჩაატარონ საძიებო ანალიზი და დაწერონ სამუშაოები Databricks-ში R in R-ში, არის მნიშვნელოვანი ნაწილი ბიზნესში მონაცემებზე წვდომის უფრო ფართოდ გავრცელებისთვის.

„კომპანიის სხვა ადამიანები, არა მსხვილი მონაცემების მეცნიერული დოქტორანტები, არა ორიგინალური ბიჭები, რადგან ეს ორიგინალური ბიჭები ნამდვილად კარგად იკვლევდნენ ასეთი დაბალი დონის Spark-ის საკითხებს. ისინი საზრიანები არიან, მათ უყვართ ეს ნივთები, ისინი მას იყენებენ Spark-ის პირველივე დღეებიდან, ზოგიერთი მათგანი ჯერ კიდევ მანამდე იყო, სანამ ეს იყო უზარმაზარი წარმატება. ”- თქვა მან.

„მაგრამ ახლა ორგანიზაციაში გყავთ ადამიანები, რომლებსაც სურთ კითხვების დასმა. ზოგიერთმა მათგანმა იცის SQL. მაგრამ ის, რაც შარშან ვნახეთ, არის ის, რომ უფრო და უფრო მეტი ადამიანი იკითხავს R-ის შესახებ.

Databricks-მა თქვა, რომ პლატფორმის ზოგადი ხელმისაწვდომობის შემდეგ, დაახლოებით ექვსი კვირის წინ, მან მოიზიდა 1,700-ზე მეტი რეგისტრაცია. საწარმოთა რაოდენობა ისეთ ფირმებში, როგორიცაა მანქანების ონლაინ გაყიდვები და საინფორმაციო საიტი Edmunds.com და დიეტის მქონე ბიზნესი MyFitnessPal.

მეტი დიდი მონაცემების შესახებ

IBM, Cloudera, Amazon განცხადებები: დიდი მონაცემების ახალი ამბების მიმოხილვა
შეწყვიტე მარკეტინგული სისულელე: ადგება თუ არა რეალური მონაცემთა მეცნიერი?
ვირტუალიზებული Hadoop: მოკლე მიმოხილვა შესაძლებლობაზე
Apache Atlas, პარკეტის პროგრესი; ვირი პენსიაზე გავიდა
MariaDB Corp ამზადებს შეფ-მზარეულის და დოკერის უკეთეს ფუნქციებს დეველოპერებისთვის
Microsoft-ი აერთიანებს ანალიტიკური სერვისებს და ამატებს Cortana-ს წინა მხარეს
Spark მოდის Azure HDInsight-ზე