Databricks-ის თანადამფუძნებლის შემდეგი აქტი: Shining a Ray სერვერის გარეშე ავტოსკალირებაზე

  • Oct 19, 2023

მას შემდეგ, რაც მწყემს სპარკს დაეხმარა მონაცემთა ბარიერის გადალახვაში, UC ბერკლის იონ სტოიკა ეხმარება რეის გათავისუფლებაში. გაჩენილი ღია კოდის პროექტი, რათა გადალახოს გამოთვლითი ბარიერი მანქანათმცოდნეობის მოდელების სკალირების მიზნით წარმოება. ეს საშუალებას მისცემს ნებისმიერ დეველოპერს გაუშვას საკუთარი სერვერის გარეშე კლასტერი უნივერსალური API-ის საშუალებით, რომელიც მუშაობს ყველგან.

მზის სხივები.jpg
Shutterstock

ათი წლის წინ, იონ სტოიკა და მისი კოლეგები UC Berkeley's-ში გამოთვლითი სკოლა დაადგინა გზის დაბრკოლება გაფართოებული ანალიტიკის შესასრულებლად. იმ დროს გამოწვევა იყო ის, რასაც ჩვენ მაშინ ვუწოდებდით დიდ მონაცემებს. იაფი შენახვისა და გამოთვლების გამოყენება შესაძლებელია Hadoop პროექტის წყალობით, მაგრამ სამუშაოებს საათები ან დღეები სჭირდებოდა. Stoica და კოლეგები მუშაობდნენ გამოსავალზე, რომელიც გამოიყენებდა მეხსიერებას და შედეგი იყო აპაჩის ნაპერწკალი პროექტი. შექმნილია UC Berkeley's-ში AMPLab, ის გახდა დე ფაქტო სტანდარტი ფართომასშტაბიანი პარტიული მონაცემთა დამუშავებისთვის, რომ აღარაფერი ვთქვათ ტექნოლოგიაზე, რომელმაც შექმნა კომპანია ამჟამად 28 მილიარდ დოლარად არის შეფასებული.

აწმყომდე სწრაფად და სტოიკამ და მისმა კოლეგებმა გამოთვალეს გამოთვლები, როგორც ახალი შეფერხება, რადგან მანქანათმცოდნეობის მოპოვებამ სამუშაო დატვირთვის დამუშავება უფრო რთული გახადა. ისინი მაინც მოიხმარენ უამრავ მონაცემს, რა თქმა უნდა.

ბედის ირონიით, გათიშვა არ არის რესურსების ნაკლებობის გამო. ხელოვნური ინტელექტის მოდელების წარმოებაში მუშაობის ყველა ინგრედიენტი ახლა უკვე ადგილზეა და თუ სწორად მუშაობს, ეს შეიძლება საკმაოდ ეფექტური იყოს. მაგალითად, ღრუბელში სერვერის გარეშე სერვისები პოპულარული გახდა, მაგრამ ისინი, როგორც წესი, შემოიფარგლება მხოლოდ ფუნქციებით აგებული მარტივი აპების მომსახურებით, სადაც დიდი მოთხოვნა იყო ავტოსკალირება. შენახვა საკმაოდ იაფი გახდა და დეველოპერები განიცდიან პროცესორის სიმდიდრის მაგალითებს შეიძლება შეესაბამებოდეს პრობლემას, GPU–დან სპეციალიზებულ ASIC–მდე. არსებობს უამრავი ჩარჩო, როგორიცაა TensorFlow, რომელიც ეხმარება დეველოპერებს გამოთვლების ორკესტრირების სტრუქტურირებაში. და არის კუბერნეტები, რომლებსაც შეუძლიათ ორკესტრირების ავტომატიზაცია.

მაგრამ სრული გაჩერება. დღეს ის მოითხოვს ბოლომდე სერვისებს, რომლებიც ავტომატიზირებს ML მოდელების დანერგვას, Kubernetes-ის სამუშაო ცოდნას და/ან კომპლექსურ ინსტრუმენტთა ჯაჭვს ავტოსკალირების დასამუშავებლად. და შედარებით მარტივი აპლიკაციებისგან განსხვავებით, რომლებიც აგებულია ფუნქციებზე, მანქანური სწავლება და ღრმა სწავლება ჩვეულებრივ მოიცავს რთული, მრავალსაფეხურიანი, განმეორებადი პროგრამები, რომლებიც, გამოთვლის თვალსაზრისით, მოიხმარენ რესურსებს, როგორიცაა კლასიკური HPC (მაღალი შესრულება გამოთვლა).

შემუშავებულია AMPLab-ის მემკვიდრეზე RISElab, გამოსავალი არის რეი, ან ღია კოდის პროექტი მასპინძლობს GitHub-ზე. სტოიკა, თანამემამულე ლაბორატორიის წევრთან ერთად რობერტ ნიშჰარაბერკლის თანამემამულე პროფესორი მაიკლ I. ჟორდანიადა ბერკლის ბოლო კურსდამთავრებული ფილიპ მორიცი შექმნეს პროექტი და მათ დააარსეს კომპანია, ნებისმიერი მასშტაბის, კომერციალიზაციისთვის. თან 60 მილიონი დოლარის დაფინანსება, მას მხარს უჭერს ზოგიერთი იგივე საწარმო პარტნიორი, რომლებიც Databricks-ის უკან დგანან. რამდენიმე სიტყვით, Ray საშუალებას მისცემს დეველოპერებს და მონაცემთა მეცნიერებს, დაუშვან სერვერის გარეშე გამოთვლა საკუთარი ML მოდელებისა და აპლიკაციებისთვის, სანტექნიკის ცოდნის საჭიროების გარეშე. დღეს Ray საზოგადოება იწყებს მეორეს რეის სამიტი გამოსახულია ჩვეულებრივი ადრეული მიმღებების ეჭვმიტანილი, რომელიც აჩვენებს, თუ როგორ მიაღწიეს ამას მონაცემთა მეცნიერებმა და ლეპტოპების დეველოპერებმა.

მარტივად რომ ვთქვათ, Ray უზრუნველყოფს API-ს განაწილებული აპლიკაციების შესაქმნელად. ეს საშუალებას აძლევს ნებისმიერ დეველოპერს, რომელიც მუშაობს ლეპტოპზე, განათავსოს მოდელი სერვერის გარეშე, სადაც განლაგება და ავტოსკალირება ავტომატიზირებულია საფარების ქვეშ. ის უზრუნველყოფს სერვერის გარეშე გამოცდილებას, დეველოპერისგან დარეგისტრირებას კონკრეტულ ღრუბლოვან სერვერულ სერვისზე ან რაიმეს ცოდნას ასეთი ინფრასტრუქტურის დაყენებისა და გაშვების შესახებ.

ა სხივების მტევანი შედგება სათავე კვანძისა და მუშათა კვანძებისგან, რომლებსაც შეუძლიათ მუშაობა ნებისმიერ ინფრასტრუქტურაზე, შენობაში ან საჯარო ღრუბელში. მის შესაძლებლობებში შედის ავტოსკალერი, რომელიც იკვლევს მომლოდინე ამოცანებს და შემდეგ ააქტიურებს კვანძების მინიმალურ რაოდენობას მათ გასაშვებად და აკონტროლებს შესრულებას მეტი კვანძის გაზრდის ან მათი დახურვის მიზნით. თუმცა, საჭიროა გარკვეული შეკრება, რადგან დეველოპერს სჭირდება დარეგისტრირება მაგალითების ტიპების გამოსათვლელად.

Ray-ს შეუძლია VM-ების გაშვება და შეჩერება არჩევანის ღრუბელში; სხივური დოკუმენტები მიაწოდეთ ინფორმაცია იმის შესახებ, თუ როგორ უნდა გავაკეთოთ ეს თითოეულ მთავარ ღრუბელში და კუბერნეტში.

ადამიანს ეპატიება იმის შეგრძნება, რომ რეი ისევ დეჟა ვუა. სტოიკა, რომელმაც მნიშვნელოვანი როლი ითამაშა სპარკის გაჩენის ხელშეწყობაში, მსგავს როლს ასრულებს რეისთან ერთად. ორივე წარმოიშვა UC Berkeley-დან და როგორც ღია კოდის პროექტები, ორივე მიდის საზოგადოების მარშრუტზე. ისევე, როგორც სპარკმა დაიკვეხნა ათობით ღია კოდის ბიბლიოთეკის პორტფელი, რომელიც შეტანილი იყო საზოგადოების მიერ, იგივე იქნება რეისთან ერთად. მთავარი განსხვავება არის სამიზნე აუდიტორიაში: მაშინ როცა Spark და Databricks მიმართული იყო მონაცემთა მეცნიერებისა და მონაცემებისთვის. ინჟინრები, Ray ძირითადად მიმართული იქნება დეველოპერებზე, რომლებიც ეძებენ მალსახმობებს რთული მანქანათმცოდნეობის მოდელების მისაღებად. წარმოება.

Ray ლოგო

რეი

კაფკას ლოგო

აპაჩე კაფკა

და რაც შეეხება ლოგოს. დიახ, საშინლად ჰგავს კაფკას, არა? მაგრამ არ მოგატყუოთ. შემავალი ან გამომავალი მოდელის გაშვებიდან Ray კლასტერზე შეიძლება მოიცავდეს კაფკას ნაკადს, მაგრამ ეს ისეთივე მჭიდროა, როგორც კავშირი ორს შორის ხდება.

ისევე, როგორც Spark შეიქმნა Scala-ში და თავდაპირველად ოპტიმიზირებული იყო მისთვის, Ray შეიქმნა პითონისთვის და მისი ბიბლიოთეკების ეკოსისტემა, როგორც პირველი კლასის მოქალაქე, მაგრამ გააჩნდა API, რომელიც საკმარისად ღიაა სხვათაგან გამოსაძახებლად ენები. მაგრამ თავდაპირველად, ზოგიერთი ენა და მოდელი სხვებთან შედარებით უფრო თანაბარი იქნება. ნებისმიერ ბიბლიოთეკას ნებისმიერი ენიდან შეუძლია გამოძახება Ray's API-ით. მიუხედავად ამისა, ბიბლიოთეკების ოპტიმიზაცია შესაძლებელია შესრულების სპეციალიზებული რუტინებით, რათა გამოიყენონ რეის სერვერის გარეშე ორკესტრირება უფრო ეფექტურად. ჰოროვოდი პლაკატის ბავშვი ყოფნა.

ისევე, როგორც Databricks ჩამოყალიბდა კომერციული პლატფორმის როგორც სერვისის მიწოდებისთვის ოპტიმიზებული Spark-ისთვის, Anyscale მიჰყვება იმავე კვალს. Stoica, რომელიც კვლავაც Databricks-ის აღმასრულებელი თავმჯდომარეა, იმეორებს თავის როლს ახალ სტარტაპთან ერთად და როგორც უკვე აღვნიშნეთ, იწყებს მუშაობას იმავე საწარმოს მხარდამჭერებთან ერთად. Anyscale-ის სერვისი ამჟამად ბეტა რეჟიმშია.

ჩვენ წარმოვიდგენდით, რომ Anyscale დაამატებდა რამდენიმე ზარს და სასტვენს, როგორიცაა პოპულარული კვანძების ტიპების წინასწარ დასახლების მახასიათებლები (მაგ. Amazon EC2 C6g) და უფრო მდიდარი მართვის კონსოლი ძირითადი საინფორმაციო დაფის მიღმა ღია კოდის საზოგადოების გამოცემით. და მიუხედავად იმისა, რომ Anyscale ასახელებს თავის API-ს, როგორც „უნივერსალურს“, რაც იმას ნიშნავს, რომ მასზე წვდომა შესაძლებელია დაწერილი პროგრამებიდან ნებისმიერ ენაზე, არ გაგიკვირდეთ, თუ კომპანია (როგორც ადრე Databricks) განვითარდება ოპტიმიზაცია.

Დიდი მონაცემები

როგორ გავარკვიოთ, ხართ თუ არა ჩართული მონაცემების დარღვევაში (და რა უნდა გააკეთოთ შემდეგ)
AI-ში მიკერძოების წინააღმდეგ ბრძოლა იწყება მონაცემებით
სამართლიანი პროგნოზი? როგორ აწვდიან 180 მეტეოროლოგი ამინდის „საკმარისად კარგ“ მონაცემებს
კიბოს თერაპია დამოკიდებულია თავბრუდამხვევ მონაცემებზე. აი, როგორ არის დალაგებული ღრუბელში
  • როგორ გავარკვიოთ, ხართ თუ არა ჩართული მონაცემების დარღვევაში (და რა უნდა გააკეთოთ შემდეგ)
  • AI-ში მიკერძოების წინააღმდეგ ბრძოლა იწყება მონაცემებით
  • სამართლიანი პროგნოზი? როგორ აწვდიან 180 მეტეოროლოგი ამინდის „საკმარისად კარგ“ მონაცემებს
  • კიბოს თერაპია დამოკიდებულია თავბრუდამხვევ მონაცემებზე. აი, როგორ არის დალაგებული ღრუბელში