Data 2022 Outlook, ნაწილი მეორე: რეალობის ბაიტი მონაცემთა ბადე

  • Sep 03, 2023

მონაცემთა ბადეები უკვე იპყრობს გამყიდველის ყურადღებას, რაც იწვევს მონაცემთა ქსოვილებისადმი ინტერესის განახლებას.

ჩვენი აღქმა მონაცემთა ბადის შესახებ გასულ წელს ისეთი გამოხმაურება მოჰყვა, რომ ვიცოდით, რომ ეს თემა 2022 წელს საკუთარ შეხედულებას იმსახურებდა.

Google Trends-ის მიხედვით, „მონაცემთა ბადე“ იყო ერთ-ერთი თემა, რომელიც დაარღვია ინტერნეტი 2021 წელს - უფრო მეტიც, ვიდრე "data lakehouse". თუმცა, ეს არის თემა, რომელიც ეხება ტკივილს: ჩვენ ყველაფერს ვტოვებთ ერთგვარი მონაცემები მონაცემთა ტბებში ან სხვა სილოებში, შემდეგ ჩვენ ვკარგავთ მათ კვალს, ან არ ვიყენებთ ადეკვატურად და არ ვმართავთ მათ.

Დიდი მონაცემები

  • როგორ გავარკვიოთ, ხართ თუ არა ჩართული მონაცემების დარღვევაში (და რა უნდა გააკეთოთ შემდეგ)
  • AI-ში მიკერძოების წინააღმდეგ ბრძოლა იწყება მონაცემებით
  • სამართლიანი პროგნოზი? როგორ აწვდიან 180 მეტეოროლოგი ამინდის „საკმარისად კარგ“ მონაცემებს
  • კიბოს თერაპია დამოკიდებულია თავბრუდამხვევ მონაცემებზე. აი, როგორ არის დალაგებული ღრუბელში

რამდენიმე წლის ინკუბაციის შემდეგ, ახლა ჩვენ ველით, რომ მონაცემთა ბადეები პირველ სერიოზულ შემოწმებას მოახდენენ.

მონაცემთა ბადე არის იდეა, რომელიც, იმისდა მიხედვით, თუ ვისთან საუბრობთ, წარმოიშვა მარკ ბეიერი Gartner-ში ან ჟამაქ დეჰღანი Thoughtworks-ში. ცნობისთვის, ორივემ გამოიყენა ერთი და იგივე ტერმინი და ორივე მიმართავს იმ გათიშვას, რომელიც ხდება მაშინ, როდესაც თქვენ დააგროვეთ მონაცემთა უზარმაზარი მარაგი -- და შემდეგ შეეცადეთ გაარკვიოთ ვის ეკუთვნის და როგორ უნდა იყოს წვდომა და მართავდნენ. მაგრამ ეს ყველაფერია მათ აქვთ საერთო.

Gartner-ის კონცეფცია უფრო მეტად ეხება მეტამონაცემების ორგანიზების პრინციპებს, რომლებიც ჰგავს ფიზიკურ ქსელურ ქსელებს. შთაგონების სესხება მეტკალფის კანონიროდესაც მონაცემთა ბადეში მეტამონაცემების „კვანძების“ რაოდენობა მრავლდება, მით უფრო სრულყოფილად ყალიბდება მეტამონაცემები (შეიძლება იყოს AI თვითსწავლის გარკვეული ფორმა). იმის გამო, რომ Gartner-ის კვლევა ჩარჩენილია ანაზღაურების ბალანსის მიღმა, გასაკვირი არ უნდა იყოს, რომ Thoughtworks-ში შემუშავებულმა კონცეფციამ აიღო საუბარი. იგი დაფუძნებულია თვითორგანიზებულ დომენებზე, რომლებიც ასახავს ცხოვრების ციკლის მიდგომებს მონაცემების პროდუქტად განხილვაყველაფერზე საკუთრების უფლებით დაწყებული მონაცემთა მილსადენებიდან მმართველობამდე და უსაფრთხოებამდე. ამით, გუნდები უფრო ფართოდ ფიქრობენ თავიანთ მონაცემებზე, უბრალოდ მილსადენების აშენების ან მონაცემთა ნაკრების ორგანიზების გარდა.

მონაცემთა ბადეები აგვარებს უამრავ მართებულ შეშფოთებას ზემოდან ქვევით მენეჯმენტის ან მონაცემთა ფლობის შეზღუდვებთან დაკავშირებით. მაგრამ ამჟამად, როგორც კონცეფცია, მონაცემთა ბადეები ჯერ კიდევ არ არის სრულად ჩამოყალიბებული, განსაკუთრებით მაშინ, როდესაც საქმე ეხება თვითმომსახურებას ან ფედერაციულ მმართველობას. მონაცემთა ბადეების მუდმივი ცნება არის ის, რომ დომენები, რომლებსაც აქვთ შესაბამისი საგნის ექსპერტიზა, უნდა იყვნენ ისინი, ვინც ფლობენ მონაცემებს და მართავენ მას აკვანიდან საფლავამდე. ეს არის ქვემოდან ზევით მიდგომა მონაცემთა მენეჯმენტისა და მართვის მიმართ, რომელმაც თეორიულად უნდა გააუმჯობესოს ანგარიშვალდებულება. მინუსი არის ის, რომ სათანადოდ არ მართული, მონაცემთა ბადეებმა შეიძლება გააძლიერონ ან გაამრავლონ მონაცემთა სილოები, რაც გამოიწვევს ნარჩენებს, დუბლირებას და არათანმიმდევრულ მენეჯმენტსა და მართვას.


ასევე: მონაცემთა ბადე: უნდა სცადოთ ეს სახლში?


ჩვენ არ გვჯერა, რომ მონაცემთა ბადე საკმარისად არის განსაზღვრული საწარმოთაშორისი მუშაობისთვის, მაგრამ ვფიქრობთ, რომ მონაცემთა ბადეები შეიძლება ეფექტური აღმოჩნდეს, როდესაც განხორციელდება უფრო მოკრძალებული მასშტაბით. კონკრეტულად, როდესაც ისინი განხორციელდება გუნდებში, რომლებიც უკვე იზიარებენ საერთო კონტექსტს, რომელიც შეიძლება წარმოიშვას თანამშრომლობის ისტორიიდან და/ან საზიარო, მიმდებარე ან გადახურული თემის არსებობიდან ექსპერტიზა. საწარმოში, ჩვენ შეგვიძლია განვსაზღვროთ მონაცემთა ბადეების ჯგუფები, რომლებიც წარმოიქმნება ფოკუსირებული დისციპლინების გარშემო, როგორიცაა მომხმარებელთა გამოცდილება, მიწოდების ჯაჭვის მენეჯმენტი, პროდუქტის განვითარება და ა.შ.

ამ დრომდე, მონაცემთა ბადეებზე გამოქვეყნებული სამუშაოები ზოგადად პოზიტიური იყო და ჩვენ ველით, რომ 2022 წელს ვიხილოთ გამყიდველები მონაცემთა სივრცის მასშტაბით, "დააბანონ" თავიანთ პროდუქტებს 2022 წელს. ჩვენ ვსაუბრობთ მონაცემთა ბაზებზე, BI-ზე, მმართველობაზე, ELT/მონაცემთა ტრანსფორმაციაზე, მონაცემთა კატალოგირებაზე, შეკითხვის ფედერაციაზე და ინფორმაციის სასიცოცხლო ციკლის მართვაზე. გამყიდველები გამოაქვეყნებენ მარკეტინგულ შეტყობინებებს, რათა აჩვენონ, თუ როგორ შეუძლია მათ შეთავაზებებს მხარი დაუჭიროს გუნდებს, რომლებიც აშენებენ მონაცემთა ბადეებს. დიახ, იქნება კიდეც ვირტუალური კონფერენცია ხდება იმაზე ადრე, ვიდრე ფიქრობთ.

მაგრამ გახსოვდეთ, რომ მონაცემთა ბადე არის პროცესი და არქიტექტურული მიდგომა, რომელიც გადასცემს პასუხისმგებლობას მონაცემთა სპეციფიკურ კომპლექტებზე "დომენებზე", რომლებსაც აქვთ საჭირო საგნის ექსპერტიზა. მონაცემთა ბადე არ არის ტექნოლოგია. იმედია, მოვაჭრეები არ გადახტებიან ზვიგენს და თავიანთ შეთავაზებებს არ დააყენებენ მონაცემთა ბადეპროდუქტები.

გამორჩეული

  • არის თუ არა Windows 10 ძალიან პოპულარული საკუთარი სიკეთისთვის?
  • 5 გზა, რომ იპოვოთ საუკეთესო ადგილი თქვენი კარიერის დასაწყებად
  • აი, როგორ შეცვლის გენერაციული AI უკეთესობისკენ გიგის ეკონომიკას
  • 3 მიზეზი, თუ რატომ მირჩევნია ეს 300 დოლარიანი Android ვიდრე Google-ის Pixel 6a

ჩვენი განცდა მოსალოდნელი საპასუხო რეაქცია მომდინარეობს მრავალი პირადი შეტყობინებისგან, რომელიც მივიღეთo ჩვენი LinkedIn პოსტი რაც აქ გამოქვეყნებულ ტიზერს იძლევა. ამ შეტყობინებების მთავარი იყო ის, რომ მონაცემთა ბადეებმა შეიძლება გააძლიეროს მონაცემთა სილოს საკითხები, რომლებიც უკვე არსებობს საწარმოების უმეტესობაში. ჩვენ გვჯერა, რომ ეს ძალიან საფუძვლიანი შეშფოთებაა.

მაშინაც კი, თუ მონაცემთა ბადეები, როგორც კონცეფცია იყო სრულად გააზრებული და ტყვიაგაუმტარი, ნიშანი იმისა, რომ იდეა სერიოზულად მიიღება არის საზოგადოების დაკვირვების ხარისხი. ასე რომ, ის ფაქტი, რომ უკუშეტევა ხდება, რეალურად ასახავს იმ ხარისხს, რომ მონაცემთა ბადეებმა ტკივილის რეალურ წერტილში მოხვდა.

მაგრამ არის კიდევ ერთი დამრტყმელი: მონაცემთა ბადეები ხშირად იყო კონტრასტი მონაცემთა ქსოვილებისგან. მონაცემთა ქსოვილები შექმნილია იმისთვის, რომ ხელი შეუწყოს მონაცემებზე წვდომას ლოგიკურ და ფიზიკურ მაღაზიებში, ამიტომ ჩვენ გვჯერა, რომ მონაცემთა ბადეების კონტრასტი მონაცემთა ქსოვილებთან არის ცრუ დიქოტომია.

დაიჭირე ეგ აზრი.

გამოწვევა ის არის, რომ მონაცემთა ქსოვილის განმარტება საკმაოდ ბუნდოვანია. სცადეთ ეს NetApp-დან: "მონაცემთა ქსოვილი თავის გულში არის მონაცემთა ინტეგრირებული არქიტექტურა, რომელიც ადაპტირებადი, მოქნილი და უსაფრთხოა. მრავალი თვალსაზრისით, მონაცემთა ქსოვილი არის ახალი სტრატეგიული მიდგომა თქვენი საწარმოს შენახვის ოპერაციებისთვის, რომელიც ხსნის ღრუბელს, ბირთვს და ზღვარს.“ არის ეს თქვენთვის საკმარისად ბუნდოვანი? ჩვენი მიზნებისთვის, ჩვენ უბრალოდ განვაცხადებთ, რომ მონაცემთა ქსოვილი იწყება საერთო მეტამონაცემების უკანა პლანით, ასე რომ, როდესაც სხვადასხვა გუნდი აღწერს მათ მონაცემთა პროდუქტებს, ისინი ყველა საუბრობენ საერთო მუსიკის ფურცლიდან.

აქ არის კიდევ ერთი პროგნოზი, რომელიც ხაზს უსვამს, რომ მონაცემთა ბადეებსა და მონაცემთა ქსოვილებს რეალურად აქვთ სინერგია: ჩვენ ველით, რომ საერთო მეტამონაცემები უკანა თვითმფრინავები გახდება საძილე პრობლემა წელს, რაც პასუხობს ყველა მონაცემის გაგების აუცილებლობას - განსაკუთრებით მაშინ, როდესაც ის გროვდება ღრუბელი.

შეიძლება არ დაგჭირდეთ მონაცემთა ბადე მონაცემთა ქსოვილის შესაქმნელად. მაგრამ თუ თქვენ განიხილავთ მონაცემთა ბადის ინიციატივის დაწყებას, არც კი იფიქროთ წასვლაზე რაიმე სახის მონაცემთა ქსოვილის გარეშე.

ეს არის ჩვენი Data Outlook 2022 წლის მეორე ნაწილი. დააწკაპუნეთ აქ პირველი ნაწილისთვის, სადაც ჩვენ გთავაზობთ რეალურ დროში სტრიმინგის კონვერგენციას, მანქანურ სწავლებას და მონაცემთა მართვას.

ZDNET გირჩევთ

5 საუკეთესო VPN სერვისი (და რჩევები, რომ აირჩიოთ სწორი თქვენთვის)
AI ხელოვნების საუკეთესო გენერატორები: DALL-E 2 და სხვა სახალისო ალტერნატივები
საუკეთესო Android ტელეფონები, რომელთა შეძენაც შეგიძლიათ (მათ შორის მოულოდნელი არჩევანი)
საუკეთესო რობოტის მტვერსასრუტი და მოფურცელი კომბინაციები (და თუ ღირს ფული)
  • 5 საუკეთესო VPN სერვისი (და რჩევები, რომ აირჩიოთ სწორი თქვენთვის)
  • AI ხელოვნების საუკეთესო გენერატორები: DALL-E 2 და სხვა სახალისო ალტერნატივები
  • საუკეთესო Android ტელეფონები, რომელთა შეძენაც შეგიძლიათ (მათ შორის მოულოდნელი არჩევანი)
  • საუკეთესო რობოტის მტვერსასრუტი და მოფურცელი კომბინაციები (და თუ ღირს ფული)