სტანდარტი დიდი მონაცემების შესანახად? Apache Spark-ის შემქმნელებმა გამოუშვეს ღია კოდის დელტა ტბა

მონაცემთა ტბებიდან მონაცემთა ჭაობებამდე და ისევ უკან. მონაცემთა სანდოობა, ისევე როგორც ტრანზაქციის მხარდაჭერაში, არის ერთ-ერთი მტკივნეული წერტილი, რომელიც აფერხებს ორგანიზაციებს მაქსიმალური სარგებლობისგან მათი მონაცემთა ტბებიდან. დელტა ტბა აქ არის ამის მოსაგვარებლად.

გამორჩეული

არის თუ არა Windows 10 ძალიან პოპულარული საკუთარი სიკეთისთვის?
5 გზა, რომ იპოვოთ საუკეთესო ადგილი თქვენი კარიერის დასაწყებად
აი, როგორ შეცვლის გენერაციული AI უკეთესობისკენ გიგის ეკონომიკას
3 მიზეზი, თუ რატომ მირჩევნია ეს 300 დოლარიანი Android ვიდრე Google-ის Pixel 6a

თეორიულად, მონაცემთა ტბები კარგ იდეად ჟღერს: ერთი დიდი საცავი ყველა მონაცემის შესანახად, რომელიც თქვენს ორგანიზაციას სჭირდება დასამუშავებლად, აერთიანებს მონაცემთა ათასობით წყაროს. პრაქტიკაში, მონაცემთა ტბების უმეტესობა ამა თუ იმ გზით არეულია, რაც მათ "მონაცემთა ჭაობის" სახელს ანიჭებს. მონაცემთა აგური ამბობს, რომ მიზეზი არის ტრანზაქციების მხარდაჭერის ნაკლებობა და მათ ახლახან აქვთ ღია წყარო დელტას ტბა, გამოსავალი ამ პრობლემის მოსაგვარებლად.

ისტორიულად, მონაცემთა ტბები ჰადოპისთვის ევფემიზმი იყო. ისტორიული Hadoop, ანუ: შენობაში, HDFS-ის გამოყენებით, როგორც შენახვის ფენა. მიზეზი მარტივია. HDFS გთავაზობთ ეკონომიურ, საიმედო შენახვას ყველა ფორმისა და ზომის მონაცემებისთვის, ხოლო Hadoop-ის ეკოსისტემა გთავაზობთ ამ მონაცემების დამუშავების მრავალფეროვან ვარიანტებს.

თუმცა, მონაცემთა დრო იცვლება და მონაცემთა ტბები მოჰყვება. ყველაფრისთვის ერთი დიდი მონაცემთა მაღაზიის არსებობის მთავარი იდეა რჩება, მაგრამ ეს სულაც არ არის აუცილებელი და არც Hadoop. ღრუბლოვანი საცავი ხდება დე ფაქტო მონაცემთა ტბა, და თავად Hadoop ვითარდება ღრუბლოვანი შენახვისა და ღრუბელში მუშაობის გამოსაყენებლად.

ფენა თქვენი შენახვის სისტემის თავზე, სადაც არ უნდა იყოს

Databricks არის კომპანია დაარსებული შემქმნელების მიერ აპაჩის ნაპერწკალი. Spark-მა შეავსა ან შეცვალა ტრადიციული Hadoop დიდწილად. ეს გამოწვეულია Spark-ის API-ების უფრო მაღალი აბსტრაქციისა და მისი უფრო სწრაფი, მეხსიერებაში დამუშავებით. თავად Databricks გთავაზობთ ღია წყაროს Spark-ის მართულ ვერსიას ღრუბელში, რამდენიმე საკუთრების გაფართოებით, სახელწოდებით Delta. Delta არის მხოლოდ ღრუბელზე და მას იყენებს მრავალი დიდი კლიენტი მთელს მსოფლიოში.

მათეი ზაჰარიასთან საუბარში, Apache Spark-ის თანაშემქმნელი და Databricks CTO. ზაჰარიამ აღნიშნა, რომ ზოგჯერ Spark-ის მომხმარებლები მიგრირებენ Databricks-ის პლატფორმაზე, სხვა დროს კი ეს არის ბიზნესის ხაზის მოთხოვნები, რომლებიც კარნახობს ღრუბლის პირველ მიდგომას. როგორც ჩანს, მონაცემთა ტბებთან გამკლავებამ, რომლებიც მოიცავს შენობებს და ღრუბლოვან შენახვას, აიძულა Databricks გაეკეთებინა რაღაც მათი ერთ-ერთი მთავარი პრობლემის მოსაგვარებლად: საიმედოობა.

Apache Spark-ის შემქმნელები ბევრს მუშაობენ მონაცემთა ტბებთან, რამაც შთააგონა მათ, რომ გაეკეთებინათ მათი ზოგიერთი საკითხი.

„დღეს თითქმის ყველა კომპანიას აქვს მონაცემთა ტბა, საიდანაც ცდილობენ მიიღონ ინფორმაცია, მაგრამ მონაცემთა ტბებს არ გააჩნიათ მონაცემთა სანდოობა. დელტა ტბამ აღმოფხვრა ეს გამოწვევები ასობით საწარმოსთვის. დელტას ტბის ღია კოდის მიღების გზით, დეველოპერებს შეეძლებათ მარტივად ააშენონ მონაცემთა სანდო ტბები და გადააქციონ ისინი „დელტას ტბებად““, - თქვა ალი ღოდიმ, Databricks-ის თანადამფუძნებელმა და აღმასრულებელმა დირექტორმა.

იმის ცოდნა, თუ საიდან მოდის ეს, უნდა დავინტერესდეთ, რას ნიშნავს ეს და რა სახის მონაცემთა შენახვას უჭერს მხარს Delta Lake?

„დელტას ტბა ზის თქვენი საცავის სისტემის[ებზე] თავზე, ის არ ცვლის მათ. Delta Lake არის ტრანზაქციული შენახვის ფენა, რომელიც მუშაობს როგორც HDFS, ასევე ღრუბლოვანი საცავების თავზე, როგორიცაა S3, Azure blob საცავი. მომხმარებლებს შეუძლიათ ჩამოტვირთოთ ღია წყარო Delta Lake და გამოიყენონ ის წინასწარ HDFS-ით. მომხმარებლებს შეუძლიათ წაიკითხონ ნებისმიერი შენახვის სისტემიდან, რომელიც მხარს უჭერს Apache Spark-ის მონაცემთა წყაროებს და დაწეროს Delta Lake, რომელიც ინახავს მონაცემებს პარკეტის ფორმატში“, - განუცხადა ღოდიმ. ZDNet.

აპაჩი პარკეტი არის Databricks-ის არჩეული ფორმატი. პარკეტი არის ღია კოდის სვეტოვანი შენახვის ფორმატი, რომელიც ხელმისაწვდომია Hadoop-ის ეკოსისტემაში ნებისმიერი პროექტისთვის, მონაცემთა დამუშავების ჩარჩოს არჩევანის მიუხედავად. ასე რომ, როგორც ჩანს, დელტა ტბა მოქმედებს როგორც ფენა მონაცემთა შენახვის მხარდაჭერილი ფორმატების თავზე.

Იხილეთ ასევე

2017 წლისთვის დიდი მონაცემების ბიზნეს ინსპექტირებად გადაქცევა

როგორ შეუძლია ღრუბელს დაეხმაროს CIO-ებს, მაქსიმალურად გამოიყენონ ინფორმაცია მათი ფირმების მიერ შეგროვებული?

წაიკითხე ახლა

საიმედოობა = ტრანზაქციის მხარდაჭერა და სხვა

შემდეგ არის საიმედოობის ნაწილი. პრესრელიზში, რომელიც აცხადებდა დელტა ტბას, ფორმულირებაში აღნიშნულია არა მხოლოდ ტრანზაქციები, არამედ ისიც, რომ „მომხმარებლებს შეეძლებათ წვდომა მათი მონაცემების უფრო ადრეულ ვერსიებზე აუდიტის აუდიტისთვის, უკან დაბრუნება ან მანქანათმცოდნეობის ექსპერიმენტების რეპროდუცირება." ასე რომ, ჩვენ გვაინტერესებდა, რამდენად გამოდის ეს ყუთიდან და რას გვთავაზობს დელტა ლეიკი - არის ეს სტანდარტი, ინსტრუმენტი, თუ ორივე?

ღოდიმ თქვა, რომ Delta Lake გთავაზობთ ACID ტრანზაქციებს ჩაწერებს შორის ოპტიმისტური კონკურენტულობის კონტროლის საშუალებით, სნეპშოტის იზოლაციით, რათა მკითხველებმა არ დაინახონ ნაგვის მონაცემები, როდესაც ვინმე წერს, მონაცემთა ვერსიის დაბრუნებისა და სქემის აღსრულება სქემის ცვლილებების უკეთ დამუშავებისა და მონაცემთა ტიპების გასაკონტროლებლად ცვლილებები:

”ყველა ეს ხელს უწყობს მონაცემთა ტბების სანდოობის გაზრდას. მონაცემთა ვერსიები და დაბრუნება არის ის, რასაც დელტა ტბა გთავაზობთ უსასყიდლოდ. ეს შესაძლებლობა სრულიად ღია წყაროა და არ საჭიროებს რაიმე სპეციფიკურ Databricks-ის ინტეგრაციას.

Delta Lake-ს სურს მოახდინოს სტანდარტიზირება, თუ როგორ ინახება დიდი მონაცემები როგორც პრემზე, ასევე ღრუბელში. მიზანია მონაცემთა ტბების მომზადება ანალიტიკისა და მანქანათმცოდნეობისთვის. ამ მიზნის მისაღწევად, დელტა ტბა უზრუნველყოფს ღია ფორმატს და ტრანზაქციის პროტოკოლს.

ღია კოდის პროექტის ფარგლებში ჩვენ განვახორციელეთ ტრანზაქციების მართვის ფორმატი და პროტოკოლი; მათ შორის სტრიმინგის და ჯგუფური წამკითხველები და ჩამწერები მონაცემების გადასატანად და დელტას ტბაზე“.

Spark არის კეროვანი წერტილი მდიდარი დიდი მონაცემებისა და AI ეკოსისტემისთვის. სურათი: Apache Spark

მართლაც, ეს არის ის, რაც დელტას მომხმარებლებს უკვე დიდი ხანია შეუძლიათ გამოიყენონ: ვიხსენებთ 2017 წელს, როდესაც Delta გამოცხადდაღოდსის ციტატა იყო ის, რომ მათ „ძირითადად დაამატეს ტრანზაქციები და მეტამონაცემები“ Spark-ს ღრუბელში. ამის ღია კოდის ნაწილების განზრახვა მაშინაც იყო ნათქვამი.

საბოლოო დანიშნულება: მონაცემთა მეცნიერება და მანქანათმცოდნეობა

”ჩვენ თავიდანვე გვჯეროდა, რომ ინოვაცია ხდება თანამშრომლობით და არა იზოლაციით. ამ რწმენამ გამოიწვია Spark პროექტისა და MLflow-ის შექმნა. დელტა ტბა ხელს შეუწყობს დეველოპერების აყვავებულ საზოგადოებას, რომლებიც თანამშრომლობენ მონაცემთა ტბის სანდოობის გასაუმჯობესებლად და მანქანათმცოდნეობის ინიციატივების დაჩქარების მიზნით“, - თქვა ღოდიმ.

ეს ტექნოლოგია წარმოებაში გამოიყენება ისეთი ორგანიზაციების მიერ, როგორიცაა Viacom, Edmunds, Riot Games და McGraw Hill. ღოდიმ აღნიშნა, რომ Databricks-ს სურს, რომ Delta Lake იყოს სტანდარტი დიდი მონაცემების შესანახად და მოწოდებულია შექმნას აყვავებული ღია კოდის საზოგადოება:

”ჩვენ უკვე გვქონდა დიდი ინტერესი ჩვენი ზოგიერთი ყველაზე დიდი საბოლოო მომხმარებლისგან, რომლებიც აღფრთოვანებულნი არიან სისტემის გაფართოების პერსპექტივით საკუთარი კონკრეტული გამოყენების შემთხვევებისთვის ახლა, როდესაც ის ღია წყაროა. ჩვენ გვინდა, რომ დელტა ტბა იყოს სტანდარტი დიდი მონაცემების შესანახად. ამ მიზნით, ჩვენ გადავწყვიტეთ, რომ ის ღია კოდით გამოგვეყენებინა მთელი საზოგადოებისთვის. ჩვენ ვმუშაობთ გზებზე, რათა გადავჭრათ მეტი მონაცემთა ხარისხის პრობლემები, რომლებსაც მომხმარებლები აწყდებიან მონაცემთა ტბებში მონაცემების გადაყრისას.”

ისევ ეს არის შეესაბამება იმას, რაც ზაჰარიამ და ღოდიმ ადრე განაცხადეს. გამოყენების შემთხვევების დაახლოებით 80%-ში, ზაჰარიას თქმით, ადამიანების საბოლოო მიზანია მონაცემთა მეცნიერების ან მანქანური სწავლების გაკეთება. მაგრამ ამისათვის თქვენ უნდა გქონდეთ მილსადენი, რომელსაც შეუძლია საიმედოდ შეაგროვოს მონაცემები დროთა განმავლობაში. ორივე მნიშვნელოვანია, მაგრამ დანარჩენის გასაკეთებლად გჭირდებათ მონაცემთა ინჟინერია. ღოდიმ აღიარა, რომ დელტა ტბა არ მოხსნის მონაცემთა მილსადენების მშენებლობის საჭიროებას:

”მონაცემთა ტბებს, როგორც წესი, აქვთ მრავალი მონაცემთა მილსადენი, რომლებიც ერთდროულად კითხულობენ და წერენ მონაცემებს და მონაცემებს ინჟინრებმა უნდა გაიარონ დამღლელი პროცესი მონაცემთა მთლიანობის უზრუნველსაყოფად, არარსებობის გამო გარიგებები. Delta Lake მოაქვს ACID ტრანზაქციები თქვენს მონაცემთა ტბებში. ის უზრუნველყოფს სერიულობას, იზოლაციის დონის უძლიერეს გარანტიას. ამ საიმედოობის მახასიათებლების გამო, ის საოცრად ამარტივებს დიდი მონაცემების მილსადენების მშენებლობას. ”

დელტა ტბას სურს იყოს დე ფაქტო სტანდარტი მონაცემთა შენახვისთვის

Getty Images/iStockphoto

ეს არ არის ერთადერთი გზა მონაცემთა ტბებისთვის ტრანზაქციის მხარდაჭერის დასამატებლად: Apache Hive არის კიდევ ერთი, HDFS-ზე დაფუძნებული შენახვისთვის. მაგრამ დამატებული ღირებულება მოდის ტრანზაქციებისა და მონაცემთა გამაერთიანებელი ფორმატის კომბინაციიდან. Cloudera's Project Ozone არის კიდევ ერთი მცდელობა ღრუბლებში და შიდა საცავის გაერთიანების მიზნით, ტრანზაქციების ჩათვლით, მაგრამ ის მზად არ არის წარმოებაში. Hive-სა და ოზონის კომბინაციამ შეიძლება გამოიწვიოს მსგავსი რამ, რასაც Delta Lake გთავაზობთ, მაგრამ ის ჯერ კიდევ არ არის.

ეს არის მოგზაურობა -- მონაცემებიდან ცნობიერებამდე, მონაცემთა ინჟინერიის საშუალებით. და მონაცემთა მილსადენებიდან მონაცემთა მეცნიერებამდე და მანქანათმცოდნეობამდე, ტრანზაქციების საშუალებით. გასაგებად რომ ვთქვათ, თქვენს მონაცემთა ტბაზე ტრანზაქციების დამატება არ არის ბოლომდე: მონაცემთა ხარისხის მართვა ამაზე მეტს მოითხოვს. მაგრამ დელტა ტბა უნდა იყოს მისასალმებელი დანამატი ყველა იმ ინსტრუმენტთა ყუთისთვის, ვინც აშენებს ამ მონაცემთა მილსადენებს მონაცემებზე ორიენტირებული ინფორმაციის მიღწევის გზაზე.

ჭირი მაშინ და ახლა: სისხლი, ბაყაყები და კალიები არ ემთხვევა 2019 წლის დანგრევას

Დიდი მონაცემები

როგორ გავარკვიოთ, ხართ თუ არა ჩართული მონაცემების დარღვევაში (და რა უნდა გააკეთოთ შემდეგ)

AI-ში მიკერძოების წინააღმდეგ ბრძოლა იწყება მონაცემებით

სამართლიანი პროგნოზი? როგორ აწვდიან 180 მეტეოროლოგი ამინდის „საკმარისად კარგ“ მონაცემებს

კიბოს თერაპია დამოკიდებულია თავბრუდამხვევ მონაცემებზე. აი, როგორ არის დალაგებული ღრუბელში

როგორ გავარკვიოთ, ხართ თუ არა ჩართული მონაცემების დარღვევაში (და რა უნდა გააკეთოთ შემდეგ)
AI-ში მიკერძოების წინააღმდეგ ბრძოლა იწყება მონაცემებით
სამართლიანი პროგნოზი? როგორ აწვდიან 180 მეტეოროლოგი ამინდის „საკმარისად კარგ“ მონაცემებს
კიბოს თერაპია დამოკიდებულია თავბრუდამხვევ მონაცემებზე. აი, როგორ არის დალაგებული ღრუბელში