Arcadia Instant for KSQL: მონაცემთა ანალიტიკის სტრიმინგი მასებისთვის?

  • Oct 16, 2023

მიუხედავად იმისა, რომ კაფკას KSQL ცდილობს დეველოპერებს გაუადვილოს სტრიმინგის მონაცემთა დამუშავება, Arcadia Data ცდილობს ეს სიმარტივე მოუტანოს ანალიტიკოსებს და ბიზნეს მომხმარებლებს.

ცოდნა და რეალურ მოვლენებზე რეაგირება რეალურ დროში ბუნებრივი მიდრეკილებაა. ადამიანების უმეტესობა უყურებს მათ სპორტს პირდაპირ ეთერში და უმეტესობა უყურებს მათ სიახლეებს პირდაპირ ეთერში. და ისევე, როგორც პირდაპირი მოვლენის სტრიმინგი უფრო საინტერესოა, ვიდრე მოთხოვნით მის ყურებაზე ლოდინი, ბევრი ფიქრობს, რომ საუკეთესოა მონაცემებზე ორიენტირებული შეხედულებები არის ის, რომლებზეც მოქმედებენ როგორც კი მონაცემები - განსაკუთრებით ნივთების ინტერნეტიდან (IoT) - არის გენერირებული.

ვიზუალიზაცია-on-kafka.jpg

Arcadia-ის დაფა, რომელიც ამოძრავებს ნაკადის მონაცემებს

კრედიტი: Arcadia Data

დიდი მონაცემები დასვენების დროს/მონაცემთა მოძრაობაში გაყოფა
მაგრამ შეკითხვის მექანიზმების უმეტესობა დაფუძნებულია მონაცემთა ბაზაში უკვე ჩასმული მონაცემების ქვეჯგუფის აღდგენის პარადიგმაზე -- მსგავსი დაველოდოთ საღამოს ამბების ეთერში გასვლის დასრულებას, შემდეგ ველოდოთ მის ჩამოტვირთვას და შემდეგ ვნახოთ კონკრეტული სეგმენტი ან ამბავი ადგილობრივი თემიდან მართოს.

და ანალიტიკური ინსტრუმენტების უმეტესობა, ვიზუალური თუ სხვა, აგებულია ამ რუბრიკაზეც: მომხმარებლები ავლებენ ნივთებს ვიზუალიზაციაში, იმ ქმედებებით, რომლებიც წარმოქმნის SQL ან MDX მოთხოვნას, რომელიც აბრუნებს უკვე შენახულ მონაცემთა ზოგიერთ ქვეჯგუფს ჩვეულებრივში მონაცემთა ბაზა.

ამავდროულად, ნაკადის მონაცემების წაკითხვა დიდწილად ეფუძნება ზოგიერთ ძრავას, რაც იწვევს კოდის გარკვეულ ნაწილს, იმ დროს, როდესაც გარკვეული ნაწილი ჩამოდის. ასე რომ, ნაკადი მონაცემთა დამუშავება ეფუძნებოდა იმპერატიულ კოდს, რომელიც ამუშავებს მონაცემთა რიგს ერთდროულად ჩვეულებრივი მოთხოვნა და BI ინსტრუმენტების უმეტესობა დაფუძნებულია დეკლარაციულ კოდზე, რომელიც ამუშავებს მთელი რიგი მონაცემები.

უფსკრულის გადალახვა
ასეთ განსხვავებებს ტექნოლოგიაში ხშირად მოიხსენიებენ, როგორც წინაღობის შეუსაბამობას, სახელწოდება, რომელიც აქ საკმაოდ შესაფერისია. როგორ შეაფერხა ამ შეუსაბამობამ რეალურად ბიზნეს მომხმარებლების, ანალიტიკოსების და თუნდაც საწარმოების მონაცემების საფუძველზე დეველოპერები. ამან ასევე ხელი შეუშალა მათ IoT ტექნოლოგიების უპირატესობის გაცნობიერებაში.

თუმცა ცოტა ხნის წინ, სხვადასხვა ნაკადის მონაცემთა პლატფორმებმა განახორციელეს SQL-ის საკუთარი დიალექტი, რომელიც ადაპტირებულია იმ მონაცემებზე მუშაობისთვის, რომლებიც ჯერ არ შემოსულა. ეს დიალექტები ახდენენ მონაცემთა ნაკადის მოდელირებას, თითქოს ეს იყოს სპეციალური ცხრილი მონაცემთა ბაზაში. არსებითად, მოთხოვნა ხდება მონაცემების გაფილტრული ხედი, როგორც კი ის ჩამოდის.

დეველოპერების მხარდაჭერა; ხელსაწყოები მოდის მოგზაურობისთვის
მოთხოვნისა და სტრიმინგის პარადიგმების შერწყმით, SQL-ის ნაცნობ დეველოპერებს შეუძლიათ დაიწყონ უფრო ოსტატურად მუშაობა სტრიმინგის მონაცემებთან. მაგრამ, ალბათ, უფრო ღირებული ნაწილია ის, რომ ქვედა ნაკადის მონაცემთა ტექნოლოგიები, როგორიცაა დრაივერები/კონექტორები და თავად BI ინსტრუმენტები, ასევე შეუძლიათ უფრო კარგად იმუშაონ სტრიმინგის მონაცემებთან. სხვა სიტყვებით რომ ვთქვათ, ნაკადის მონაცემთა დამუშავების ჩვეულებრივი შეკითხვის მექანიკისა და სინტაქსის შესაბამისობით, ასოცირებული მონაცემთა მოძიების ხელსაწყოებისა და ტექნოლოგიების ეკოსისტემა შეიძლება, გარკვეული საინჟინრო სამუშაოებით, გახდეს მონაცემთა ნაკადის ინსტრუმენტები საკუთარ თავს.

აპაჩე კაფკა, სავარაუდოდ ყველაზე პოპულარულმა ღია წყაროს ნაკადის მონაცემთა პლატფორმამ, დაამატა საკუთარი SQL დიალექტი და ინტერფეისი, ე.წ. KSQL. KSQL პირველად გამოაცხადა შესართავი -- კაფკას მხარდამჭერი მთავარი კომერციული სუბიექტი -- ა ბლოგის პოსტი გასულ აგვისტოში და მისი ზოგადი ხელმისაწვდომობა მხოლოდ გასულ თვეში გამოცხადდა. როგორც სხვა მსგავსი დიალექტები, ის სთხოვს დეველოპერებს მოერგოს იდეას, რომ მოთხოვნის "შედეგების ნაკრები" მუდმივად შეიცვლება. და თუ ვიზუალური ანალიტიკის ინსტრუმენტს შეუძლია ანალოგიურად ადაპტირება, დაბრუნებული ვიზუალიზაციის მუდმივი განახლებით შეკითხვა -- ნაცვლად მათი სტატიკურად გადაცემის -- ის შეიძლება იყოს KSQL-ის ქვედა დინებაში ბენეფიციარი ძალა.

ასევე წაიკითხეთ: კაფკა იღებს SQL-ს KSQL-ით
ასევე წაიკითხეთ: Hortonworks, Confluent და Waterline ცდილობენ გააადვილონ დიდი მონაცემები

როგორ უკავშირდება კაფკა, KSQL და Arcadia Data ერთმანეთს

კრედიტი: Arcadia Data

თქვენს მახლობლად დესკტოპზე მოდის
Arcadia Instant-ის KSQL-ისთვის გამოშვებით, ანალიტიკის ერთმა გამყიდველმა სცადა თავისი პროდუქტის სწორედ ასეთი ტრანსფორმაცია და ის უფასოდ გახადა. ხოლო არკადიის მონაცემები გასულ თვეში გამოაცხადა KSQL ინტეგრაცია, იგი შემოიფარგლა მისით არკადიის საწარმო პროდუქტი. დღეს Arcadia აცხადებს მსგავს ინტეგრაციას Arcadia Instant, პროდუქტის უფასო ვერსია.

და მიუხედავად იმისა, რომ ეს ამცირებს შესვლის დიდ ბარიერს, Arcadia Instant for KSQL კიდევ უფრო შორს მიდის -- ის მომხმარებლებს გადალახავს პირველ რიგში Kafka-სა და KSQL-ის დაყენების რეალურ სირთულეს. იმის ნაცვლად, რომ შეზღუდოს KSQL შესაძლებლობები მომხმარებლებისთვის, რომლებსაც შეუძლიათ Arcadia Instant-ის დაკავშირება Kafka და KSQL კლასტერებთან, Arcadia-მ შექმნა დოკერი კონტეინერის სურათი, რომელიც მოიცავს ორივეს, ნაკადის მონაცემთა წყაროსთან ერთად.

მას შემდეგ, რაც კონტეინერის სურათი - ასევე უფასო ჩამოტვირთვა - იქნება, მომხმარებლებს შეუძლიათ უბრალოდ მიუთითონ Arcadia Instant მასზე და შეამოწმონ ფუნქციონირება, ყველაფერი დესკტოპ კომპიუტერზე. Arcadia-მ ასევე შექმნა დაწყების გზამკვლევი, რათა დაეხმაროს მომხმარებლებს ყველაფრის გაშვებაში. ყოველივე ამის შემდეგ, ბიზნეს მომხმარებლების უმეტესობა არ არის დოკერის ჟოკეი. სამივე კომპონენტი (Arcadia Instant-ის განახლებული ვერსია, Back-end Docker image და Getting Started სახელმძღვანელო) ხელმისაწვდომი უნდა იყოს ერთიდან. ვებ გვერდი სანამ ამ პოსტს წაიკითხავ.

კიდევ არის
დღევანდელ განცხადებებში საქმიანი მომხმარებლებისთვის განსახლების გარდა, როგორც ისინი, ასევე ტექნიკოსები უკვე იყენებენ Arcadia Enterprise ასევე იღებს რამდენიმე სიკეთეს: Arcadia-ს KSQL ინტეგრაციამ ახლა დაამატა მონაცემთა რთული ტიპების მხარდაჭერა, მათ შორის MAP და ARRAY მონაცემები. ის ასევე იღებს ახალ ფუნქციას სახელწოდებით Time Warp, რომელიც მომხმარებლებს საშუალებას აძლევს მიუთითონ მონაცემების სხვადასხვა დროის ფანჯარა ნაკადში. ეს, თავის მხრივ, საშუალებას აძლევს უახლეს წარსულში არსებული მონაცემების დათვალიერებას და საშუალებას აძლევს მომხმარებლებს „დააპაუზოს“ და „გამეორებას“ მონაცემები დროის კონკრეტული წერტილებიდან.

მე არ შემიძლია (ჯერ) პირადად დავდებ ამ გადაწყვეტის გარანტიას, როგორც Arcadia Data-მ ამიხსნა და ნება მომცა დამეწერა, მისი გამოშვებამდე. თუმცა დიდი სურვილი მაქვს გადმოვწერო და დავაინსტალირო. მე წლების განმავლობაში ვამბობდი, რომ სტრიმინგის მონაცემთა დამუშავება არ გახდება მთავარი, სანამ დეველოპერები და მომხმარებლები არ შეძლებენ მას განიხილონ, როგორც ჩვეულებრივი შეკითხვისა და ანალიტიკის განსაკუთრებული შემთხვევა. თუ Arcadia-მ აქ წარმატებას მიაღწია, შეგიძლიათ დადოთ ფსონი, რომ სხვა მოვაჭრეებიც მიჰყვებიან მას. და მაშინ შესაძლოა ციფრული ტრანსფორმაცია და მონაცემების საფუძველზე გადაწყვეტილების მიღება შეიძლება უფრო მეტი იყოს, ვიდრე მისწრაფების კონცეფციები.