Amazon Redshift აქცევს AQUA-ს

  • Nov 01, 2023

Redshift-ისთვის გასულ კვირაში გამოცხადებული უახლესი ფუნქციები: Invent იძლევა კარგ მაგალითს იმის შესახებ, თუ როგორ ახდენს ღრუბელი ხელახლა განსაზღვრავს მონაცემთა საწყობს.

aqua.jpg

ღრუბლის მთავარი მიმზიდველობა მონაცემთა მართვისთვის არის ის, რომ უხვი, მასშტაბური საცავი იძლევა მონაცემთა კონსოლიდაციისა და მონაცემთა სილოსების დაშლის დიდ შესაძლებლობას. რაც შეეხება ანალიტიკას, ის ასევე იძლევა შესაძლებლობას დაშალოს აპლიკაციის ან ფუნქციური სილოსები განცალკევებულია მონაცემთა საწყობები, რომლებიც ინახავს და ამუშავებს მონაცემებს, ინსტრუმენტებისგან, რომლებიც გამოიყენება გადაყლაპვის, ტრანსფორმაციისა და ვიზუალიზაციისთვის. მათ.

ბოლო რამდენიმე თვის განმავლობაში ჩვენ ვნახეთ მაგალითები Microsoft-ისა და SAP-ისგან, რომლებიც აერთიანებდნენ სერვისებს, როგორიცაა მონაცემთა მიწოდება, ტრანსფორმაცია, ინტეგრაცია ღრუბლოვანი ობიექტების საცავთან და თვითმომსახურების ანალიტიკა, მათი ღრუბლოვანი მონაცემების უახლეს გამოცემებში სასაწყობო მომსახურება. გასულ კვირას re: Invent-ზე, ეს იყო Amazon-ის ჯერი, რომ აეწია თეფშზე.

ამაზონმა გამოაცხადა ამაზონის გაუმჯობესებებისა და განახლებების სერია

Redshift, რაც ერთი შეხედვით შეიძლება გადაფარვით და დამაბნეველი ჩანდეს – და Amazon-ის ზოგიერთი განმარტება სულაც არ მატებს სიცხადეს. მაგრამ უფრო მჭიდრო შესწავლის შემდეგ, ეს ახალი ფუნქციები იძლევა სხვადასხვა გზას მონაცემთა საწყობისა და მონაცემთა ტბის გაერთიანებისთვის. ისინი მოიცავს ახალ ინსტანციას, რომელიც ამუშავებს დიდი მოცულობის მონაცემებს უფრო ეკონომიურად; ახალი ვარიანტები ფედერირებული შეკითხვისთვის; და ახალი აჩქარება, რომელიც აჩქარებს შეკითხვის შესრულებას.

წარმოგიდგენთ Redshift გამოთვლის ახალ მაგალითს

დავიწყოთ ახალი ინსტანციით, RA3. ის ჰყოფს გამაგრილებელ მონაცემებს და გადააქვს მას აქტიური გამოთვლითი კვანძებიდან ფენოვან საცავში, რომელიც მოიცავს S3-ს, AWS-ის გამოყენებით ნიტრო ჰიპერვიზორი ამ მოძრაობის დასაჩქარებლად. ახალი კვანძები, რომლებიც ახლა ზოგადად ხელმისაწვდომია, მხარს უჭერენ 8 PBytes-მდე შეკუმშულ მონაცემებს Redshift "მართულ საცავში". ამას ცოტა ხანში აგიხსნით. ახალი RA3 ინსტანციები გამიზნულია ოპერაციული ანალიტიკის დატვირთვაზე, რომელიც, როგორც წესი, ხშირად იყენებს მონაცემთა ქვეჯგუფს (სხვაგვარად ცნობილია როგორც "ცხელი" მონაცემები), მაგრამ ასევე საჭიროებს წვდომას მონაცემთა სრულ ნაკრებზე.

აი, როგორ მუშაობს RA3. AWS ახასიათებს RA3-ს, როგორც გამოთვლას მეხსიერებისგან. მიუხედავად იმისა, რომ ეს ტოპოლოგია ხშირად ასოცირდება ელასტიურ გამოთვლებთან (სადაც გამოთვლითი ინსტანციები შეიძლება მთლიანად გამორთოთ, როდესაც არ გამოიყენება), ის აქ სხვაგვარად გამოიყენება. RA3 კვანძი აქტიური რჩება, მაგრამ უფრო მაგარი მონაცემები შეიძლება გადაიტანოს Redshift გამოთვლითი კლასტერიდან S3 შენახვის მართულ მაგალითზე. ჩვენ ვფიქრობთ, რომ ტერმინი „მართული საცავი“ დამაბნეველია, რადგან ის გულისხმობს შენახვის ახალ დონეს, მაგრამ სინამდვილეში, ის უბრალოდ ეხება S3-ისა და ქეშირებული მეხსიერების კომბინაციას (რომელიც ისევ კლასტერზეა), რომელიც RA3 ავტომატურად მართავს. ჩათვალეთ, რომ ეს არის ცხელი და ცივი მონაცემთა დაყოფის ფორმა. მომხმარებლისთვის, RA3-ის სარგებელი არის უპირველეს ყოვლისა, თქვენ არ გჭირდებათ გადაიხადოთ დიდი ზომის მაგალითზე, რომელიც იტევს ყველა იმ პეტაბაიტს მონაცემს; და მეორეც, ის უზრუნველყოფს კიდევ ერთ გზას Redshift მონაცემთა საწყობის მონაცემთა ტბამდე გადასაყვანად.

ახალი AQUA შეფერილობა

AWS წარმოგიდგენთ ახალ განაწილებულ პერსონალურ ტექნიკის დაჩქარებულ ქეშირებას და გამოთვლის ფენას, რომელიც ხელმისაწვდომი გახდება, რამაც შეიძლება დააჩქაროს იგი. მას შეუძლია შეავსოს ახალი RA3 ინსტანცია, რომელიც შექმნილია მონაცემთა დიდი მოცულობის დასამუშავებლად, ან იმუშაოს ნებისმიერ სხვა Redshift გამოთვლით ინსტანციასთან.

ახალი აპარატურა, ე.წ Advanced Query Accelerator (AQUA) Amazon Redshift-ისთვის, ახლა არის პირად გადახედვაში. AQUA ებრძვის "სისტემის ბალანსის" პრობლემას, რომელიც წარმოიქმნება განაწილებული მონაცემების დამუშავებისას. გამოწვევა, როგორც ამას Amazon აღწერს, არის ის, რომ სანამ SSD გამტარუნარიანობა გაიზარდა 12-ჯერ 2012 წლიდან, სტრიმინგის CPU გამტარუნარიანობა მხოლოდ გაორმაგდა მეხსიერების დამაკავშირებელი შიდა ავტობუსის შეფერხებების გამო და ᲞᲠᲝᲪᲔᲡᲝᲠᲘ.

AQUA ზის Redshift-ის შენახვის ფენის შიგნით, იტვირთება ჩვეულებრივი ოპერაციები, როგორიცაა დაშიფვრა, შეკუმშვა და ფილტრაციისა და აგრეგაციის ფუნქციები, რომლებიც სხვაგვარად მოითხოვდნენ ქსელის მაღალ გამტარობას და გააფუჭებენ გამოთვლას კასეტური. ის აფართოებს Amazon-ის Nitro ჰიპერვიზორის ჩიპს, რომელიც სხვათა შორის იყენებს ამოცანების გადმოტვირთვის იგივე პრინციპს, როგორიცაა ქსელი, შენახვა (NVMe-დან EBS-მდე), უსაფრთხოების, მართვის და მონიტორინგის ფუნქციები, რომლებიც სხვაგვარად დააკავშირებს ᲞᲠᲝᲪᲔᲡᲝᲠᲘ. დასკვნა ის არის, რომ როდესაც Redshift განხორციელდება ახალი RA3 ინსტანციით, AQUA და Nitro, AWS აცხადებს, რომ შესრულება აჩქარდება 10x-მდე.

შესრულებასთან დაკავშირებული კიდევ ერთი ახალი ფუნქცია არის მატერიალიზებული ხედების ახალი მხარდაჭერის გადახედვა, სადაც ინახავთ წინასწარ გამოთვლილ შედეგებს ხშირად გამოყენებული მოთხოვნებისთვის, რომლებიც თანდათან განახლდება. საერთო ფუნქცია სხვა მონაცემთა საწყობებთან, Redshift-ში, მატერიალიზებული ხედები შეიძლება შეიქმნას ერთი ან მეტის საფუძველზე წყაროს ცხრილები ფილტრების, პროგნოზების, შიდა შეერთების, აგრეგაციების, დაჯგუფების, ფუნქციების და სხვა SQL გამოყენებით კონსტრუქციები.

ჩვენ ვახსენეთ მონაცემთა ტბები?

Amazon წარმოგიდგენთ რამდენიმე ახალი ფუნქცია Redshift-ისთვის. პირველი ფართოვდება Amazon Redshift Spectrum ახალი ფედერაციული შეკითხვის შესაძლებლობით, რომელიც აქამდე Redshift მხარს უჭერდა მხოლოდ S3-ში მონაცემებზე შეკითხვებს, სხვა Amazon RDS მონაცემთა ბაზაში მოთავსებულ მონაცემებს: კონკრეტულად, Amazon RDS PostgreSQL-სთვის და Aurora-ს PostgreSQL-თან თავსებადი გამოცემა. (მომავალში ჩვენ ველით, რომ სხვა RDS მონაცემთა ბაზები იქნება მხარდაჭერილი და გვაინტერესებს, არის თუ არა სხვა სამიზნეები, როგორიცაა DynamoDB ან ახალი MCS შეთავაზება შეიძლება ასევე დაემატოს.) მეორეც, არის Data Lake Export-ის ახალი შესაძლებლობა, რომელსაც შეუძლია მონაცემების გადატანა Redshift კლასტერიდან პარკეტის ფორმატში. S3. და მონაცემთა ტიპები უფრო ფართოვდება გეოსივრცული მონაცემების მხარდაჭერის დამატებით. ეს არის მონაცემთა ტიპი, რომელიც უკვე პირდაპირ არის მხარდაჭერილი ზოგიერთ რელაციურ მონაცემთა ბაზის პლატფორმებში, როგორიცაა Oracle, ტერადატა, და Google BigQuery; დაკავშირებულია სხვებთან (მაგ. SAP HANA და ESRI); მაგრამ ჯერ არა Microsoft Azure Synapse Analytics-ში.

ღრუბლოვანი მონაცემთა საწყობის გაფართოება

მონაცემთა შესანახად, ღრუბლოვანი პლატფორმები იძლევა მონაცემთა და აპლიკაციების სილოების შეჯახების შესაძლებლობებს. და ეს ტერიტორია დადასტურდა აქტიურობის კერად.

უახლესი გაუმჯობესებებით, AWS-მა უზრუნველყო რამდენიმე ბილიკი Redshift მონაცემთა ტბაზე გადასაყვანად: RA3 კვანძების მეშვეობით, რომლებიც იყენებენ შიდა დამუშავების ოპტიმიზაცია S3-ში შენახულ მონაცემებზე წვდომისთვის, კლასიკურ ფედერაციულ მოთხოვნასთან ერთად (ა.კ. Redshift Spectrum), რომელიც აპროექტებდა გარე ცხრილებს S3-ზე. თავის მხრივ, მონაცემთა ტბის ექსპორტის ახალი ფუნქცია საშუალებას გაძლევთ შეინარჩუნოთ ძველი მონაცემები აქტიური და ხელმისაწვდომი მონაცემთა საწყობისთვის.

როგორც ადრე აღვნიშნეთ, Microsoft და SAP ასევე აფართოებენ ღრუბლოვან მონაცემთა სასაწყობო პლატფორმებს ტრადიციული ანალიტიკური მონაცემთა ბაზის მიღმა. Microsoft-ისთვის, Azure Synapse Analytics ფოკუსირებულია Azure Data Factory-ის მონაცემთა მიწოდებისა და ტრანსფორმაციის შესაძლებლობების ინტეგრირებაზე, აქცევს ნაპერწკალს SQL-თან თანაბარ ძრავად და აფართოებს წვდომას Azure Data Lake Storage თაობა 2 (ADLS Gen2). Redshift-ის მსგავსად, ვიზუალიზაციის ინსტრუმენტები არ არის ჩაშენებული, მაგრამ ადვილად აქტიურდება რამდენიმე დაწკაპუნებით. მასშტაბის მეორე ბოლოში, SAP-მა მეტი ყურადღება გაამახვილა თვითმომსახურების ანალიტიკის შერწყმაზე მის ღრუბლოვან მონაცემთა საწყობში. SAP მონაცემთა საწყობი Cloud, შესაძლებლობების შეჯამებით SAP Analytics Cloud.

ღრუბლოვანი მონაცემთა საწყობების გაფართოების მიდგომების მრავალფეროვნება გვიჩვენებს, რომ ეს ჯერ კიდევ ადრეა იმის განსაზღვრაში, თუ რა არის სინამდვილეში ღრუბლოვანი მონაცემთა შენახვის სერვისი.