MySQL Cluster 7.4 je zdaj na voljo: je hitrejši, bolj obvladljiv, pravi Oracle

Skupaj s podrobnostmi o tem, kako se podatki porazdelijo po strojih, se najnovejša različica baze podatkov MySQL Cluster zaračunava kot boljšo zmogljivost in lažje sistemske nadgradnje.

Tomas Ulin: Izboljšanje trenutnih zmogljivosti na vseh področjih.
Slika: Oracle

Približno 20 mesecev po različici 7.3 je zdaj splošno na voljo najnovejša različica odprtokodne baze podatkov MySQL Cluster z obljubo novih funkcij upravljanja in izboljšane zmogljivosti.

Glede na Oracle, ki je kupil MySQL, ko je leta 2010 kupil Sun Microsystems za 7,4 milijarde dolarjev, ima MySQL Cluster 7.4 hitrejšo obdelavo v pomnilniku in lahko učinkoviteje izvaja analitične delovne obremenitve.

Kot tudi izboljšane funkcije geografske redundance za hitrejše vzdrževanje, najnovejša različica transakcijskega sistema, skladnega z ACID baza podatkov zagotavlja tudi boljše poročanje o uporabi porazdeljenega pomnilnika in operacijah baze podatkov ter možnostih prilagajanja zmogljivosti, Oracle rekel.

»Glede funkcij ne bi rekel, da je res kaj novega. Gre le za izboljšanje trenutnih zmogljivosti na vseh področjih,« je dejal Tomas Ulin, podpredsednik Oracle, inženir MySQL.

»Hitreje je, če imate v sistemu več jeder, tako da lahko deluje na večjih strojih s približno 50-odstotnim izboljšanjem. Je tudi bolj razširljiv in lahko delujete z boljšo zmogljivostjo na več podatkovnih vozliščih. Nismo povečali števila vozlišč, ki jih lahko uporabljate. Toda pri večjem številu vozlišč z več jedri deluje bolje."

Ulin je dejal, da je različica 7.4 tehnologije, ki omogoča združevanje v gruče brez skupne rabe in samodejno razčlenjevanje za bazo podatkov MySQL, pokazala sadove dela pri izboljšanju hitrosti skeniranja tabel.

"Cluster je bil vedno odlična zbirka podatkov za dokaj poenostavljene poizvedbe z ekstremnimi zahtevami glede zmogljivosti in zakasnitve - torej preproste operacije tipa NoSQL, operacije tipa ključ-vrednost," je dejal.

Preberi to

MySQL: Zakaj je odprtokodna baza podatkov boljša pod Oracle

Preberi zdaj

"Vedno smo bili sposobni izvajati zapletena združevanja. V zadnji izdaji imamo možnost izvajati tudi vzporedne poizvedbe, tako da lahko dejansko porazdelite breme bolj zapletenih poizvedb na več vozlišč in nato na koncu združite rezultat. To nam omogoča boljše prilagajanje zapletenih poizvedb.

"Kar smo naredili s to izdajo, ko se lotite tovrstnih poizvedb, postane skeniranje tabel zelo pomembno. Zato smo naredili nekaj odličnih izboljšav pri skeniranju tabel, da bi izboljšali splošno učinkovitost bolj zapletenih poizvedb, kar nekoliko razširi primer uporabe za nas – tako da bomo videli, kam nas bo to pripeljalo.«

Na strani upravljanja je Olin dejal, da prinaša možnost sprotnega dodajanja vozlišč, dodana v prejšnji izdaji s tem potrebo po prerazporeditvi podatkov, da se enakomerno izvajajo po sistemu in na vseh dodatnih stroji.

»Kar smo dodali s to izdajo, ki je največja zahteva strank, je, da lahko vidimo distribucijo – da vidite, kako so podatki porazdeljeni po različnih strojih – in koliko podatkov je vloženih rabljeno. Poleg tega, ko začnete vstopati in brisati podatke, dobite vrzeli. [Morate videti], kaj to lahko pomeni in kdaj lahko začnete povrniti spomin," je dejal.

"To postane zelo pomembno - tudi v tovrstnih bazah podatkov v pomnilniku - ker je pomnilnik drag in ga je treba uporabiti na najboljši način. Dodali smo veliko dodatnih informacij, do katerih lahko dostopate, ne le o sami distribuciji podatkov, ampak tudi o vzorcu uporabe."

Pomembna je tudi možnost, da vidite, ali se določeni podatki v sistemu močno uporabljajo in povzročajo slabo delovanje celotnega sistema.

Preberi to

Poglejte, kaj Google in Amazon počneta z bazami podatkov: to je vaša prihodnost

Preberi zdaj

»Imate zelo tipične primere. To ni primer uporabe za Cluster sam po sebi, vendar ponazarja, v čem je težava – lahko imate učinek Justina Bieberja, kjer dobite zelo vroči podatki iz nekega razloga, ker je preprosto presežek ljudi, ki gledajo kar koli piše ali daje selfie oz. karkoli. Podobne težave pri uporabi lahko dobite bodisi zaradi vročih podatkov bodisi zaradi okvarjenega dela sistema,« je dejal Ulin.

"Ni nujno, da je to dejanska zbirka podatkov, lahko pa je iz nekega razloga drugi sistem, ki dostopa do baza podatkov gre tja in izvaja veliko pinganja nekaterih vročih podatkov ali napačno oblikovanih, tako da ustvarite nekaj vročih točk v podatke. V tej izdaji lahko zdaj dobite veliko več informacij, če so v podatkih določeni fragmenti, do katerih se močno dostopa in je zato obremenitev neenakomerno porazdeljena."

Drugi pomembni vidiki Cluster 7.4 so izboljšave zmožnosti geografske redundance in spletnega vzdrževanja, ki je po besedah Olina zdaj petkrat hitrejše.

»Pri mobilnih operaterjih se na primer vzdrževalna okna krčijo. Veliko teh baz podatkov služi veliko večjemu geografskemu razponu. Če bi samo vodili Francijo, bi lahko svoje vzdrževalno obdobje postavili na nedeljo ob 1. uri zjutraj in imeli štiri ali pet ur za izvedbo vzdrževanja. Zdaj pa teh daljših oken ne najdete več,« je dejal.

"Pomembno je torej, da lahko to vzdrževanje opravimo v veliko krajšem časovnem obdobju. Istočasno sistemi postajajo vse večji, zato traja dlje, da znova zaženete vozlišče, ki ima 256 GB, v primerjavi s tistim, ki ima 32 GB. Zato morate te stvari zmanjšati. To je ena stvar, v katero smo vložili veliko truda, da bi bila hitrejša."

Več o bazah podatkov

Generalni direktor Databricks: Zakaj je toliko podjetij navdušenih nad Apache Spark
MySQL: Percona vključi mehanizem za shranjevanje TokuDB za velike nabore podatkov
Cloudera se povezuje z razvijalcem Hadoop Cask
Mesosphere in MapR se povežeta prek Myriada, da ustvarita eno veliko podatkovno platformo, ki bo vladala vsem
Teradata uvaja velike podatkovne aplikacije, posodablja Loom
Izvršni direktor MapR govori o Hadoopu, možnostih IPO za leto 2015
Teradata prevzame proizvajalca arhivskih aplikacij RainStor
Hortonworks širi certifikacijski program, želi pospešiti sprejetje Hadoop v podjetjih
Actian svojemu arzenalu doda mehanizem za analizo grafov SPARQL City
Splice Machine's SQL on Hadoop Database bo v splošni izdaji