Aktualizácia platformy MapR prináša hlavné inovácie AI a Analytics...prostredníctvom systému súborov

  • Oct 22, 2023

MapR sa vracia ku svojim koreňom inováciami v súborovom systéme, čo vedie k výraznému posilneniu AI a analytiky. Ak to znie ako non sequitur, prečítajte si, prečo to funguje.

Od samého začiatku svojho vstupu na trh, MapR zameraná na súborový systém ako os inovácií. Uznávajúc, že ​​domorodec Distribuovaný súborový systém Hadoop (HDFS) neschopnosť prispôsobiť sa aktualizáciám súborov bola hlavným blokátorom pre mnoho podnikových zákazníkov, MapR dal rozhranie HDFS nad štandard Sieťový súborový systém (NFS) aby toto obmedzenie zmizlo.

Aj keď je to zdanlivo jednoduché, schopnosť pre Hadoop vidieť štandardný súborový systém ako svoj vlastný znamenalo, že množstvo údajov, ktoré už existujú v Enterprise, môže spracovať Hadoop. Znamenalo to tiež, že systémy iné ako Hadoop mohli zdieľať tieto údaje a spolupracovať s Hadoopom. Vďaka tomu bol Hadoop ekonomickejší, akčnejší a relevantnejší. Pre mnohých zákazníkov to zmenilo Hadoop z okrajovej technológie na kritickú.
Späť k súborovému systému
Zatiaľ čo MapR následne inovoval databázu, streaming a vrstvy edge computingu a prijal ich kontajnerová technológia, dnes oznamuje veľkú aktualizáciu platformy, ktorá sa vracia k súborovému systému inovácie. Tentoraz to však nie je len o možnosti aktualizácie súborov; ide o integráciu viacerých technológií súborových systémov, lokálnych a v cloude, a o to, aby spolupracovali.

Prečítajte si tiež: Kafka 0.9 a MapR Streams stavajú do centra pozornosti streamované dáta
Prečítajte si tiež: MapR získava kontajnerové náboženstvo s Platformou pre Docker

Jadrom inovácie je integrácia medzi Súborový systém MapR (MapR-FS) a Služba Amazon Simple Storage Service (S3) protokoly súborového systému. Táto integrácia sa prejavuje vo viacerých formách a je tu istá jemnosť, takže so mnou majte pokoj.

S3, pre dvoch
Prvým integračným bodom je podpora rozhrania S3 cez MapR-FS prostredníctvom novej služby MapR Object Data Service. To umožňuje aplikáciám, ktoré sú kompatibilné s S3, čítať a zapisovať údaje uložené v MapR-FS. Keďže protokol S3 je podporovaný nielen samotným S3, ale aj lokálnymi súborovými systémami, podpora ekosystému pre protokol je robustná. Teraz je MapR-FS súčasťou tohto ekosystému.

Objektové dátové služby MapR

Kredit: MapR

Tým sa však integrácia nekončí; funguje to aj v opačnom smere. To znamená, že objemy úložiska kompatibilné s S3, vrátane skutočných segmentov S3 v cloude Amazon Web Services (AWS), možno federované do MapR-FS, čo poskytuje ekonomickejšiu možnosť ukladania na uloženie údajov, ktoré aplikácie potrebujú len zriedkavo prístup.

Prémiové úrovne
MapR-FS teraz obsahuje aj kódovanie vymazania pre rýchle prijímanie, ideálne na médiách SSD (solid state disk). Spolu so štandardným úložiskom kompatibilným s S3 a natívnym MapR-FS to umožňuje úplné vrstvenie úložiska, čo umožňuje to, čo MapR nazýva „multi-teplotná“ dátová platforma. Zákazníci môžu ukladať horúce (často prístupné) dáta na výkonovo optimalizované SSD disky; teplé (zriedka prístupné) dáta na konvenčných rotujúcich diskoch a studené (zriedkavo prístupné) dáta na úložisku kompatibilnom s S3, vrátane samotného Amazonu S3.

Viacúrovňové úložisko umožňuje uchovávať všetky údaje dostupné ekonomicky efektívnym spôsobom. To zase umožňuje, aby analytika a AI boli oveľa efektívnejšie a výkonnejšie. Nikdy neviete, kedy budú tieto staré údaje dôležité v konkrétnom analytickom cvičení. A niekedy sú najlepšie modely strojového učenia tie, ktoré boli postavené na hlbokých historických údajoch, ako aj na nedávno zozbieranej rozmanitosti.

Neumožnite to len tak; uľahčite to
Viacúrovňové úložisko však toto všetko neumožňuje, ak ide len o stratégiu manuálneho ukladania. Našťastie vďaka tejto novej verzii platformy MapR je umiestňovanie rôznych údajov na rôzne médiá automatizované deklaratívnu politiku a všetky dátové vrstvy sú združené v jednom mennom priestore, takže vyzerajú ako jeden súbor systém.

Je toho oveľa viac:

  • Dôležité optimalizácie výkonu, vrátane umiestnenia metadát a útržkov súborov v natívnej vrstve MapR-FS pre údaje S3
  • Funkcie zabezpečenia, ako je predvolené automatické šifrovanie všetkých údajov a služby založené na zabezpečených súboroch s NFSv4
  • Jednoduché operácie GET a PUT na fyzický presun údajov medzi vrstvami
  • Silné funkcie, ako je plánované alebo automatické vyvolávanie súborov na presun údajov z vrstiev s vyššou latenciou do vrstiev s nižšou latenciou, keď sa stanú novým relevantným
  • Podpora funkcií odolnosti voči chybám, ako sú klastre obnovy po havárii v cloude prostredníctvom zrkadlenia z klastra MapR do MapR-XD cloudové úložisko v AWS, Google Cloud Platform a Microsoft Azure

Prečítajte si tiež: MapR diverzifikuje trh s cloudovými úložiskami
Prečítajte si tiež: Systém súborov MapR vybraný spoločnosťou SAP pre vrstvu cloudového úložiska

Okrem vyššie uvedeného, ​​integrácia MapR Apache Spark 2.3 a Vŕtačka 1.14; podpora pre Kafka KSQL; a MapR-DB jazykové väzby pre Python a Uzol. JS sprístupniť analytiku a AI rôznym vývojárom a podnikovým používateľom. Táto dostupnosť je vynikajúcim doplnkom k dodatočnej možnosti, ktorú poskytuje viacúrovňový úložný priestor.

Rozdelenie myšlienok
Srdcom analýzy veľkých dát a skutočne umelej inteligencie sú veľké objemy nespracovaných údajov uložených ako ploché (oddelené, JSON, XML atď.) súbory. To robí samotný súborový systém kritickým pri prevádzkovaní a optimalizácii analytiky a AI. Pridanie vrstiev abstrakcie do mnohých rôznych úložných technológií a umiestnení, ktoré sú dnes k dispozícii, on-prem aj cloud-based, je kľúčom k prelomeniu dátových síl a jednoduchému vytváraniu potrebných dát prístupný. A to je to, čo umožňuje špičkovú analytiku a strojové učenie.

Toto najnovšie vydanie platformy MapR bude dostupné v treťom štvrťroku tohto roka, t. j. v priebehu nasledujúcich troch kalendárnych mesiacov.