Spark უფრო სწრაფი ხდება სტრიმინგის ანალიტიკისთვის

  • Sep 04, 2023

Spark Summit East ხაზს უსვამს პროგრესს მანქანური სწავლის, ღრმა სწავლისა და უწყვეტი აპლიკაციების მიმართულებით, რომლებიც აერთიანებს ჯგუფურ და ნაკადის დატვირთვას

მიუხედავად გამოწვევებისა, მათ შორის ახალი მდებარეობისა და უსიამოვნო ნორ-აღდგომისა, რამაც შეაფერხა მოგზაურობა, Spark Summit East-მა მოახერხა 7-9 თებერვალს ჯონ ბ-ზე 1500-ზე მეტი დამსწრე მიზიდვა. ჰაინსის საკონვენციო ცენტრი ბოსტონში. ეს იყო Apache Spark-ის მზარდი მიღების უახლესი დადასტურება და ღონისძიებამ ხაზი გაუსვა პერსპექტიულ განვითარებას ისეთ სფეროებში, როგორიცაა მანქანური სწავლება, ღრმა სწავლა და სტრიმინგის აპლიკაციები.

სამიტი აჭარბებდა შარშანდელ აღმოსავლეთ სანაპიროს სახლს ნიუ-იორკ ჰილტონში, მაგრამ კონტრასტმა ამ ვიწრო კვარტალსა და გამოქვაბულ ჰაინსს შორის შედარება გაართულა. როგორც დავწერე გასული წლის ღონისძიება, აუდიტორია ტექნიკური იყო და თუ რამე იყო, წლევანდელი დღის წესრიგი უფრო მეტად როგორი ჩანდა, ვიდრე ვიზუალური. მსხვილი საწარმოს მიმღებთაგან ნაკლები იყო ძირითადი საკვანძო სიტყვა და მეტი მოვაჭრეებისგან.

Spark progress 2016

მატაეი ზაჰარიამ Databricks-დან შეაჯამა Spark-ის პროგრესი გასულ წელს, ხაზს უსვამს მზარდ მიღებას

და შესრულების გაუმჯობესება სფეროებში, მათ შორის ნაკადის მონაცემთა ანალიზი.

სამიტზე დაინახა უამრავი ძირითადი მოლაპარაკება SQL-ისა და მანქანათმცოდნეობის საუკეთესო პრაქტიკაზე, ისევე როგორც სხვა ნიშან თემებზე, როგორიცაა "Spark for მასშტაბური მეტაგენომიკის ანალიზი" და "ანდრომედას გალაქტიკის მონაცემების ანალიზი ნაპერწკლის გამოყენებით." გამორჩეული დიდი სურათების ძირითადი ნოტები მოიცავდა შემდეგი:

მატაი ზაჰარიაSpark-ის დამფუძნებელმა და Databricks-ის ტექნოლოგიების მთავარმა ოფიცერმა, მიმოიხილა უახლესი პროგრესი და მომავალი განვითარება ღია კოდის პროექტში. ზაჰარიას საუბრის მთავარი თემა ეხებოდა უწყვეტი აპლიკაციების მხარდაჭერას, რომლებიც საჭიროებენ როგორც ისტორიული, ასევე ნაკადის, რეალურ დროში ინფორმაციის ერთდროულ ანალიზს. გამოყენების მრავალი შემთხვევადან ერთ-ერთი არის თაღლითობის ანალიზი, სადაც თქვენ მუდმივად უნდა შეადაროთ უახლესი, ნაკადი ინფორმაცია ისტორიული ნიმუშებით, რათა აღმოაჩინოს არანორმალური აქტივობა და უარყოს შესაძლო თაღლითური ტრანზაქციები რეალურად დრო.

Spark უკვე მიმართა სწრაფი პარტიული ანალიტიკას, მაგრამ სტრიმინგის მხარდაჭერა ადრე შემოიფარგლებოდა მიკრო-სერიით (იგულისხმება შეყოვნების წამამდე) გასული თებერვლის Spark 2.0 გამოშვებამდე. ზაჰარიამ თქვა, რომ კიდევ უფრო მეტი პროგრესი იქნა მიღწეული დეკემბრის Spark 2.1 გამოშვებით, სტრუქტურირებული სტრიმინგის მიღწევებით, ახალი, მაღალი დონის API, რომელიც მიმართავს როგორც სერიულ, ასევე ნაკადის შეკითხვებს. Viacom, ადრეული ბეტა მომხმარებელი, იყენებს სტრუქტურირებულ სტრიმინგს საკაბელო არხების მაყურებლობის გასაანალიზებლად, მათ შორის MTV და Comedy Central რეალურ დროში, ხოლო iPass იყენებს მას WiFi ქსელის მუშაობის მუდმივი მონიტორინგისთვის და უსაფრთხოება.

ალექსის რუსიSalesforce-ის უფროსმა ინჟინერიის მენეჯერმა დეტალურად აღწერა Spark-ის როლი აპარატის მომარაგებაში სწავლა, ბუნებრივი ენის დამუშავება და ღრმა სწავლა განვითარებადი Salesforce Einstein-ის უკან შესაძლებლობები. მიმართეთ ხელოვნური ინტელექტის მომავალს Spark-ზე, ზია მაIntel-ის დიდი მონაცემთა ტექნოლოგიების ვიცე-პრემიერმა, შესთავაზა კონფერენცია თემაზე „მანქანური სწავლების დაჩქარება და ღრმა სწავლა მასშტაბით Apache Spark-ით“. ჯეიმს კობიელუსი IBM-ი კარგად ასრულებს ღრმა სწავლის პროგრესს Spark-ზე ამ ბლოგში.

იონ სტოიკაDatabricks-ის აღმასრულებელი თავმჯდომარემ, გააგრძელა იქ, სადაც ზაჰარიამ შეწყვიტა სტრიმინგში, სადაც დეტალურად აღწერს UC Berkeley-ის ძალისხმევას. RISElabAMPLab-ის მემკვიდრე, რეალურ დროში ანალიტიკის გასაუმჯობესებლად. Stoica-მ გააზიარა საორიენტაციო მონაცემები, რომლებიც აჩვენებს Apache Drizzle-ის მიერ დაპირებულ მიღწევებს, ახალი სტრიმინგს Spark-ის შესრულების ძრავა, შედარებით Spark Without Drizzle-თან და სტრიმინგზე ორიენტირებულ კონკურენტ Apache-სთან შედარებით ფლინკი.

Stoica-მ ხაზი გაუსვა დროისა და ხარჯების დაზოგვის უპირატესობებს ერთი API-ს, იგივე შესრულების ძრავისა და იგივე შეკითხვის ოპტიმიზაციის გამოყენებისას, როგორც ნაკადის, ისე სერიული დატვირთვის მოსაგვარებლად. მისი მთავარი ნოტის შემდეგ საუბარში სტოიკამ მითხრა, რომ Drizzle სავარაუდოდ დებიუტი იქნება Databricks-ის ღრუბელზე დაფუძნებულ Spark გარემოში. რამდენიმე კვირაში და მან იწინასწარმეტყველა, რომ ის გამოჩნდება Apache Spark პროგრამულ უზრუნველყოფაში მესამე კვარტალში. წელიწადი.

Apache Drizzle-ის შესრულების ძრავა, რომელიც შემუშავებულია RISElabs-ის მიერ, გვპირდება სტრიმინგის შეკითხვის უკეთეს შესრულებას დღევანდელ Spark-თან ან Apache Flink-თან შედარებით.


Spark Progress-ის MyPOV

Databricks კვლავ ზომავს Spark-ის წარმატებას კონტრიბუტორების რაოდენობისა და Spark Meetup-ის მონაწილეთა რაოდენობის მიხედვით (ეს უკანასკნელი ზაჰარიას თქმით, რაოდენობა არის 300,000-ზე მეტი), მაგრამ ჩემი აზრით, დროა დავიწყოთ წარმატების გაზომვა ძირითადი საწარმოებით შვილად აყვანა. ამიტომაც ცოტა იმედგაცრუებული ვიყავი, რომ სამიტის წამყვანების სია CapitalOne-ში, Comcast-ში, Verizon-ში და Walmart Labs-ის ფორმა გაცილებით მოკლე იყო, ვიდრე მომწოდებლებისა და ინტერნეტ გიგანტების სია, როგორიცაა Facebook და Netflix წარდგენა.

Databricks ამბობს, რომ მას ახლა ჰყავს 500 ორგანიზაციის ჩრდილოეთით, რომლებიც იყენებენ მის მასპინძელ Spark Service-ს, მაგრამ მე ეჭვი მაქვს, რომ Spark-ის მიღების ძირითადი ნაწილია. ახლა მართავს ისეთები, როგორიცაა Amazon (პირველ რიგში), ისევე როგორც IBM, Google, Microsoft და სხვები, რომლებიც ახლა გვთავაზობენ ღრუბელზე დაფუძნებულ Spark-ს. მომსახურება. Spark-ის ამ წყაროების მთავარი მიმზიდველობა არის ინფრასტრუქტურისა და დეველოპერის სერვისების ხელმისაწვდომობა, ისევე როგორც უფრო ფართო ანალიტიკური შესაძლებლობები Spark-ის მიღმა. იმავდროულად, გასულ ზაფხულს გავიგე Cloudera-ს აღმასრულებლები, რომლებიც ამტკიცებდნენ, რომ კომპანიის პროგრამული უზრუნველყოფის დისტრიბუცია დგას უფრო მეტი Spark-ის მიღების უკან, ვიდრე ნებისმიერი სხვა გამყიდველის.

"ვირტუალიზებული ანალიტიკის" საკითხზე, თუმცა პროვოცირებულ კონფერენციაზე, არსალან თავაკოლი, Databricks-ის მომხმარებელთა ჩართულობის ვიცე-პრეზიდენტი, თანამდებობიდან გაათავისუფლეს. Hadoop-ზე დაფუძნებული მონაცემთა ტბები, როგორც "მეორე თაობის" გადაწყვეტა, რომელიც გამოწვევას იწვევს განსხვავებული და რთული ინსტრუმენტებით და წვდომა შეზღუდულია დიდი მონაცემებით დეველოპერის ტიპები. მაგრამ თავაკოლმა ასევე აღიარა, რომ Spark არის მხოლოდ "პასუხის ნაწილი" "ახალი პარადიგმის" მიწოდებაზე, რომელიც გამოთვლებს წყვეტს. და შენახვა, უზრუნველყოფს მონაცემთა ერთგვაროვან მენეჯმენტსა და უსაფრთხოებას, აერთიანებს ანალიტიკას და მხარს უჭერს მრავალს შორის ფართო თანამშრომლობას მომხმარებლები.

მართლაც, მეტყველი იყო, როდესაც ზაჰარიამ აღნიშნა, რომ Spark-ის მომხმარებელთა 95% იყენებს SQL-ს, გარდა იმისა, რასაც აკეთებენ პროექტთან დაკავშირებით. ეს მეუბნება, რომ Spark SQL მნიშვნელოვანია, მაგრამ ასევე მეუბნება, რომ ისეთივე მიმზიდველი, როგორც Spark-ის ფართო შეიძლება იყოს ანალიტიკური შესაძლებლობები და მეხსიერების შესრულება, ეს მაინც მთლიანი ანალიტიკის ნაწილია სურათი. დეველოპერები, მონაცემთა მეცნიერები და მონაცემთა ინჟინრები, რომლებიც იყენებენ Spark-ს, ასევე იყენებენ არა Spark ვარიანტებს, დაწყებული პროზაულიდან, მაგალითად, მონაცემთა ბაზები და მონაცემთა ბაზის სერვისები და Hive, უმაღლეს დონეზე, როგორიცაა განვითარებადი GPU და მაღალი ხარისხის გამოთვლებზე დაფუძნებული პარამეტრები.

როგორც გავლენიანი, ფართოდ მიღებული, ფართოდ მხარდაჭერილი და ფართოდ ხელმისაწვდომი, როგორც ახლა შეიძლება იყოს Spark, ორგანიზაციებს აქვთ ფართო სპექტრი ღირებულების, დაყოვნების, განვითარების სიმარტივის, გამოყენების სიმარტივის და ტექნოლოგიის სიმწიფის მოსაზრებები, რომლებიც ყოველთვის არ მიუთითებს Spark-ზე. Spark Summit-ზე მინიმუმ ერთმა პრეზენტაციამ გააფრთხილა დამსწრეები, არ ეფიქრათ Spark Streaming-ზე, როგორც პანაცეას შემდეგი თაობის უწყვეტი აპლიკაციებისთვის.

Spark არის დღეს, სადაც Hadoop იყო 2010 წელს, ასაკის მიხედვით, მაგრამ მე ვიტყოდი, რომ ის უფრო პროგრესირებს სწრაფად და გვპირდება უფრო ფართო პრაქტიკულ გამოყენებას დეველოპერებისა და მონაცემთა მეცნიერების მიერ, ვიდრე ადრე დამრღვევი პლატფორმა.

თქვენი POV

მიიღეთ Constellation-ის 2017 ციფრული ტრანსფორმაციის კვლევა. Constellation გამოგიგზავნით შედეგების შეჯამებას.