სად მიდის კლუდერა აქედან?

  • Oct 23, 2023

კლუდერამ მოათვინიერა ზოოპარკის ცხოველები და დიახ, ჩვეულებრივი სიბრძნე ის არის, რომ მას ახლა უნდა შეეძლოს აღსრულება. მაგრამ არის კიდევ ერთი ნაწილი, რომელიც უნდა დადგეს: საქმიანი გზავნილის ჩარჩო.

doug-cutting.jpg

დაგ კუტინგი საუბრობს სტრატაში

კრედიტი: ო'რეილი

კლუდერა რბილად რომ ვთქვათ, დატვირთული, შეიძლება ითქვას, მშფოთვარე წელიწადი გამოიარა. მიუხედავად იმისა, რომ კლუდერამ თავი Hadoop-ის სახელით დაასახელა, გარკვეული დრო გავიდა, მისი ქონება მაინც მიბმული იყო ღია კოდის პლატფორმაზე, რომელიც პირველად კოდირებულ იქნა Doug Cutting და მაიკ კაფარელა ათ წელზე მეტი ხნის წინ. In ჩვენი ბოლო პოსტი Strata-ს შესახებ, ჩვენ ვახსენეთ შუახნის კრიზისი და ეს არის მეტაფორა, რომელიც ასევე შეიძლება ეხებოდეს Cloudera-ს, ღონისძიების მთავარ სპონსორს. Medium-ში ბოლო პოსტში Cloudera-ს პროდუქტის მთავარი ოფიცერი არუნ მერთი საუკეთესოდ შეაჯამა მთელი 2019 წლის საგა ერთ ელეგანტურ სათაურში, Hadoop მკვდარია. გაუმარჯოს ჰადოპს. მერთის თქმით, ამ პოსტმა აშკარად დაარტყა აკორდი და 10-ჯერ აღემატება Cloudera-ს ბლოგების უმეტესობას.

გასულ კვირას, Big on Data ძმამ ენდრიუ ბრასტმა მოგვაწოდა

ამომწურავი ანგარიში Cloudera-ს ახალი თაობის პროდუქტის ცვლილების შესახებ, Cloudera Data Platform (CDP). მისი დამსახურებაა, Cloudera-მ უბრალოდ არ გააკეთა სამუშაოს დაჭრა და ჩასმა ახალი შეთავაზებით, რომელიც იყო დიდი ხნის ნანატრი კონვერგირებული პლატფორმა, რომელიც გამოვიდა მისი შერწყმა Hortonworks-თან. ეს იყო სრული გადახედვა თავიდანვე, დაწყებული შენახვისა და გამოთვლების რეფაქტორირებით, რამაც გაწყვიტა რკინის კავშირი Cloudera-ს პლატფორმასა და HDFS-ს შორის.

იმ ეპოქაში, როდესაც ღრუბელი Cloudera-ში საბოლოოდ ჩნდება Hadoop-ის სამომავლო გზად, კომპანიამ გონივრული არჩევანი გააკეთა და მთლიანად ჩაერთო ღრუბლოვანი არქიტექტურისთვის. შენახვის მხრივ, ის ხდის S3-ის სტილის ღრუბლოვანი ობიექტების შენახვას პირველი კლასის მოქალაქედ HDFS-ის ანალოგიურად და გამოთვლის მხრივ, ის უხსნის გზას Kubernetes-ისთვის, რომ ჩაანაცვლოს YARN რესურსების მართვისთვის. ღრუბელი.

Ეს რას ნიშნავს? ელასტიურობის მიღმა, ეს ნიშნავს ფრენის განლაგებას. თუ გადავხედავთ Cloudera-ს პირველ მცდელობას ღრუბლის შეთავაზებაზე, ალტუსი, ის დაფუძნებული იყო ვირტუალური მანქანების (VMs) მეშვეობით განლაგებაზე, პროცესი, რომელსაც, როგორც წესი, დაახლოებით 8 წუთი სჭირდებოდა კლასტერების დატრიალება. Docker-ით და Kubernetes-ით CDP-ზე, ეს მცირდება 30 წამამდე. - თქვა ნუფმა?

თავის ნაშრომში ენდრიუმ ასევე გაიხსენა კომპანიის მიმდინარე წლის ტრაექტორია. კატასტროფული Q1-ის შემდეგ და MapR-ზე თოკებზე, ჩვეულებრივი სიბრძნე იყო, რომ Hadoop მოკვდა და მასთან ერთად Cloudera და MapR ხდებიან საგზაო მკვლელები. შედი კარლ აიკანი.

ახლა მოდით ეს საგა პერსპექტივაში გადავხედოთ. ჯერ სტრატაზე ვნახეთ ტედ დანინგი, რომელიც ჯერ კიდევ ჩამოთვლის თავს MapR-ის ტექნოლოგიის მთავარი ოფიცერი, სადაც მან დაგვარწმუნა, რომ პროდუქტის ინჟინერიის გუნდი გადავიდა HPE-ზე და ჯერ კიდევ დიდწილად ხელუხლებელია. MapR-ის Hadoop-ის არომატი შესაძლოა არც ისე მკვდარია.

დაუბრუნდით ჩვენს თავდაპირველ დაგეგმილ პროგრამას, კლუდერა გადიოდა კომპანიის ნაცნობ ისტორიას პლატფორმის ცვლილების ზღვარზე (როგორც ენდრიუმ უწოდებდა, ოსბორნის ეფექტი); რა თქმა უნდა, მომხმარებლები აპირებენ თავი შეიკავონ მანამ, სანამ არ გაიგებენ, რა იქნება. როგორც აღინიშნა, კლუდერამ სათანადოდ არ გააფრთხილა უოლ სტრიტი. კარგი ამბავი ის არის, რომ მას ჰქონდა მოსალოდნელზე უკეთესი Q2, რაც საკმარისი იყო იკანის ძალების გასაჩერებლად, ჯერჯერობით.

პროდუქტის მხრივ, Cloudera-მ არა მხოლოდ ხელახლა დააპროექტა CDH და HDP კომბინირებული აქტივები, მან საბოლოოდ დაამშვიდა ზოოპარკის ცხოველები. მაგალითად, კლუდერას მონაცემთა გაზიარებული გამოცდილება (SDX), რომელიც იყო vaporware, როდესაც ის პირველად შემოვიდა 18 თვის წინ, ახლა რეალურია. და რაც მთავარია, ეს უფრო მეტია, ვიდრე მისი ზოოპარკის ცხოველების ჯამი: ეს არის თანმიმდევრული შეთავაზება, რომელიც აერთიანებს პოლიტიკის მართვის ფუნქციას. აპაჩი რეინჯერი; მეტამონაცემების მონიშვნა საწყისიდან აპაჩის ატლასი; და ერთი შესვლის შესაძლებლობა დან აპაჩი ნოქსი. ეს არის ერთჯერადი შეფუთვა ერთჯერადი ინსტალაციით; თქვენ ვერ ნახავთ ცალკეულ რეინჯერის, ატლასის ან ნოქსის მოდულებს კაპოტის ქვეშ. შემადგენელი ნაწილები შეიძლება იყოს ღია წყარო, მაგრამ ინტეგრაცია და შეფუთვა არის Cloudera-ს უნიკალური (და საკუთრების) IP.

ფაქტია, რომ ღრუბელში, Cloudera იწყება როგორც ღრუბლოვანი პროვაიდერის Hadoop შეთავაზებების გამომწვევი, მათ შორის AWS EMR; Azure HDInsight (მიუხედავად იმისა, რომ დაფუძნებულია Hortonworks-ში, ის ახლა Microsoft-ის პროდუქტია); და Google Cloud Dataproc. ისინი ყველა გვთავაზობენ ღია კოდის კომპონენტებს, რომლებსაც CDP აკეთებს. მაგრამ, გარდა პერიმეტრის უსაფრთხოებისა და იდენტურობისა და წვდომის მენეჯმენტისა, მათ არ გააჩნიათ SDX-ის უფრო დეტალური მონაცემების მართვა, წვდომის კონტროლი და თვალთვალის/აუდიტირების შესაძლებლობები. სხვათა შორის, იგივე ეხება წერტილოვან სერვისებს, როგორიცაა Databricks ან მანქანური სწავლების ან AutoML სერვისებიდან, რომლებიც შემოთავაზებულია ღრუბელში; არ არსებობს მათი რეალური მმართველობა, გარდა იმისა, რასაც გვთავაზობს ღრუბლოვანი პროვაიდერი.

ჩვენ არ ველით, რომ ეს მდგომარეობა დიდხანს გაგრძელდება; მაგალითად, AWS-ის წებო ETL შეთავაზება შეიძლება გახდეს მონაცემთა გაფართოებული მართვის შესაძლებლობის საფუძველი მისი მეტამონაცემების გამოყენებით. ჩვენ ველით, რომ არც Azure და GCP ჩამორჩებიან. მაგრამ ახლა, მესამე მხარის მონაცემთა მართვის შეთავაზებების გარდა, რომლებიც თავს ესხმიან პრობლემის ნაწილებს, Cloudera არის ერთადერთი ჰეტეროგენული მონაცემთა პლატფორმა, რომელსაც აქვს ეს შესაძლებლობა.

მაგრამ ეს ყველაფერი არ არის. იმის გამო, რომ SDX დაკავშირებულია სხვა ღია კოდის პროექტებთან, რომლებიც გამოიყენება Hadoop-თან, Cloudera-ს შეუძლია შეფუთოს ეს ცალ-ცალკე და გქონდეთ გასაყიდი EMR, HDInsight ან Cloud Dataproc კლიენტებისთვის, რაც სხვაგვარად შეიძლება იყოს მის ფარგლებს გარეთ მიღწევა. დააკავშირეთ ეს Cloudera-ს პოზიციონირებასთან, როგორც ღრუბელ-აგნოსტიკურად და ჩვენ გვჯერა, რომ SDX არის Cloudera Data Platform-ის გვირგვინი.

ასე რომ, კარგი ამბავი ტექნოლოგიების ფრონტზე არის ის, რომ Cloudera სწორ გზაზეა. სამუშაო არ დასრულებულა, მაგრამ საბოლოოდ მოგვარებულია ზოოპარკის ცხოველების ყურადღების გაფანტვა. ჩვეულებრივი სიბრძნე ის არის, რომ კლაუდერას გამოწვევა ახლა არის შესრულება. ჩვეულებრივი სიბრძნე მართალია; თუ თქვენ გაქვთ პროდუქტი, საჭიროა ეფექტურად დაუკავშირდეთ მომხმარებელს და გაყიდოთ იგი. გლობალურ 2000-ზე ფოკუსირებული, Cloudera-ს უკვე აქვს მდიდარი ბაზა, რათა ფოკუსირდეს თავისი მიწის გაფართოებაზე და გააფართოოს სტრატეგია. დაყენებული ბაზა მოიცავს თითქმის ათას მომხმარებელს, რომელთა ჩართულობა აღემატება ექვს ციფრს და რჩება უამრავი ადგილი არსებული მომხმარებლებთან მისი კვალი გაზრდისთვის. Cloudera გეგმავს საველე გაყიდვებისა და საინჟინრო ძალების მხარდაჭერას ახალ პლატფორმაზე მომდევნო ან ორი კვარტლის განმავლობაში.

მაგრამ საკითხავია, რას ყიდის Cloudera? აქამდე ისინი მიადგნენ პლატფორმის რაციონალიზაციას და გარკვეულ გამარტივებას. მაგრამ თავისი ბუნებით, Cloudera Data პლატფორმა არის ჰეტეროგენულობა: დატვირთვის ჰეტეროგენული ნაზავი შენახვის, გამოთვლის, მონაცემთა და მონაცემთა ტიპების ჰეტეროგენული ნაზავის წინააღმდეგ. ეს არის არა მხოლოდ ყველაზე მკაცრი თხილის გასატეხი, არამედ ყველაზე რთული განსაზღვრა. სხვათა შორის, Cloudera არ არის ერთადერთი, ვინც ებრძვის ჰეტეროგენულობას, რადგან ჩვენ ვხედავთ ბევრ საოჯახო სახელს მონაცემთა საწყობის ხედებში, რომლებიც იყენებენ ნაცნობ SQL-ს, როგორც ამოსავალ წერტილს. მათ აქვთ ძლიერი ღირებულების წინადადება იმის გათვალისწინებით, რომ არსებობს დიდი SQL უნარები.

მიუხედავად იმისა, რომ Cloudera შესთავაზებს თავისი პლატფორმის შესაფერის შეფუთვას მონაცემთა შენახვის, მონაცემთა ინჟინერიისა და მანქანებისთვის სწავლის დროს, მას ჯერ კიდევ აქვს ამოჭრილი საქმე, რათა აჩვენოს, თუ რატომ გჭირდებათ შვეიცარიული არმიის დანის პლატფორმა დიდი ლაშქრების გასაანალიზებლად მონაცემების.

ეს არის ის, სადაც ლიფტის მოედანი აუდიტორიისთვის კლუდერას ტრადიციული ოლქის CIO-ების და არქიტექტორების გარეთ ხდება აუცილებელი. ამის მთავარი საყრდენი, რა თქმა უნდა, არის მრავალ ღრუბლოვანი და ჰიბრიდული ღრუბელი – მაგრამ ეს არის მოედანი ყველა მოქმედი მმართველისთვის, რომელიც არ არის AWS, Azure ან GCP. Cloudera-მ უნდა განსაზღვროს მესიჯი, რომელიც სცილდება „ჩვენ დავამარცხეთ Hadoop-ის სირთულე“ იმ ისტორიებზე, რომელთა მოყოლაც შეიძლება, რადგან პლატფორმა არის მრავალ ღრუბლიანი, მართული და მრავალ დატვირთვით. ამ დროისთვის, Cloudera-ს აქვს მესიჯი, რომელიც მიმართავს იმ ადამიანებს, რომლებსაც ჩვეულებრივ მიმართავენ მისი გაყიდვების გუნდები. მაგრამ საბოლოო ჯამში, CIO-ები და არქიტექტორები არ არიან დაინტერესებული ტექნიკურად სრულყოფილი გადაწყვეტილებებით, არამედ გადაწყვეტილებები, რომლებიც პასუხობენ ბიზნესის სფეროების ბიზნეს საჭიროებებს, რომლებიც, პირდაპირ ან ირიბად, აფინანსებს მათ.

Cloudera-ს აქვს და ახლაც აკეთებს საშინაო დავალებას შემდეგი თაობის პროდუქტის ერთად შედგენისთვის. დიახ, ახლა, როდესაც მას აქვს ახალი პროდუქტი, Cloudera უნდა შეასრულოს. მაგრამ ამის გარდა, Cloudera-ს ესაჭიროება უფრო დამაჯერებელი უმაღლესი დონის შეტყობინება, რომელიც მოგვითხრობს იმ ტიპის ბიზნეს პრობლემების შესახებ, რომელთა გადასაჭრელადაც მისი პლატფორმა საუკეთესოდ არის განლაგებული.