Podaci u više oblaka katalogiziraju se na jednostavan način, koristeći metapodatke i strojno učenje Waterline Data

  • Oct 28, 2023

Upravljanje podacima je mukotrpno, ali u svijetu nakon GDPR-a to je više nego temeljno. Bitno je. Waterline Data želi pomoći da se to učini na jednostavan način, automatizirajući što je više moguće.

Vidi al

  • Internet stvari: napredak, rizici i prilike (besplatan PDF)

Praćenje svih vaših podataka -- gdje su bili, kamo idu, tko im pristupa i što rade s njima -- nije ni zabavno ni uzbudljivo. Ali to je nužan supstrat za holističko upravljanje podacima i u doba GDPR-a i CCPA, to je također zakonska obveza. O tome se radi u upravljanju podacima.


Katalozi podataka neopjevani su heroji upravljanja podacima. A katalog podataka je labavo definiran kao alat za upravljanje metapodacima dizajniran za pomoć organizacijama u pronalaženju velikih količina podataka i upravljanju njima. Danas, jedan od ključnih igrača u prostoru kataloga podataka, Podaci o vodenoj liniji, je najavljujući ažuriranja u svom proizvodu, i ZDNet iskoristio priliku za razgovor s osnivačem i tehničkim direktorom Alexom Gorelikom.

Katalog Waterline Data dobiva ažuriranje: DataOps nadzorna ploča i hibridni multi-cloud

Waterline Data tvrtka je koja proizvodi samo jedan proizvod. Njegov katalog podataka ono je na čemu se temelji svako rješenje koje nudi, od upravljanja metapodacima i podrijetla podataka do otkrivanja osjetljivih podataka i racionalizacije podataka. Današnje izdanje usredotočeno je na novu nadzornu ploču DataOps, za koju Waterline kaže da može poslužiti kao regulatorno središte gdje tvrtke mogu razumjeti makro rizik svojih podataka.

Katalog Waterline Data koristi metapodatke i strojno učenje za pomoć pri upravljanju podacima u nizu izvora podataka.

Nadzorna ploča DataOps omogućuje korisnicima jednostavno lociranje i pregled određenih datoteka koje sadrže regulirano osjetljive datoteke podatke i pomoći u ubrzavanju procesa identifikacije, sanacije i dokumentacije u skladu s GDPR-om i CCPA-om zahtjevi. Gorelik je, međutim, istaknuo da postoji još jedno veliko poboljšanje: nova agentska arhitektura koja omogućuje hibridnu multi-cloud podršku.

„Waterline sada može katalogizirati i automatski označavati podatke u više oblaka kao što su AWS, Azure i Google Cloud Platform; on-premise big data sustavi kao što su Cloudera i MapR; baze podataka u oblaku kao što su Snowflake i RedShift; i on-premise relacijske baze podataka. Agenti se mogu izvoditi nativno na Apache Sparku ili u spremniku za okruženja koja nemaju Spark klaster," kaže Gorelik.

Još jedna nova značajka je podrška za zakone o prebivalištu podataka koji ograničavaju slanje podataka izvan zemlje. Agent se može konfigurirati da obavlja svu obradu i otkrivanje lokalno, i šalje samo neosjetljive metapodatke u središnji katalog. Konačno, postoje poboljšanja oko upotrebljivosti, personalizacije i suradnje.

Najbolji pružatelji usluga u oblaku

Najbolji pružatelji usluga u oblaku: AWS, Microsoft Azure i Google Cloud, hibridni, SaaS igrači

Evo pogleda na to kako se slažu lideri u oblaku, hibridno tržište i SaaS igrače koji vode vašu tvrtku, kao i njihove najnovije strateške poteze.

Čitaj SAD

Integracije i otvoreni kod

Metapodaci su ovdje doista ključni, a Waterline ih nadopunjuje strojnim učenjem kako bi automatizirao što je više moguće napornog rada. Ovo je bila središnja točka naše rasprave s Gorelikom, počevši od točne prirode metapodataka kojima se upravlja, kao i integracije s drugim sustavima na koje Waterline upućuje.

Gorelik kaže da za relacijske baze podataka Waterline obično koristi standardni JDBC. Ponekad, međutim, moraju raditi stvari specifične za platformu. Waterline automatski prepoznaje format datoteke i analizira datoteke (AVRO, parquet, JSON, XML, ORC, CSV, itd.) u datotečnim sustavima i spremištima objekata. Pretraživanje se vrši automatski i postupno: usmjerite Waterline na mapu ili bazu podataka i ona otkriva sve promjene i obrađuje nove podatke.

Integracija se vrši putem REST API-ji, koji podržavaju dvosmjernu integraciju. Gorelik je spomenuo da Waterline nudi unaprijed izgrađene adaptere koji uvoze porijeklo iz Atlasa i Cloudera Navigatora i izvoze oznake i oznake povezivanja s Atlasom i Cloudera Navigatorom, gdje se te oznake koriste za upravljanje kontrolom pristupa temeljenom na oznakama Ranger i Cloudera Sentry politike.

Ovi REST API-ji imaju vlastite JSON definicije podataka, ali ono čemu smo se stvarno nadali da postoji neka vrsta podrške za Egerija. Egeria je ODPi projekt otvorenog koda koji implementira skup otvorenih API-ja, tipova i protokola za razmjenu kako bi svim repozitorijima metapodataka omogućili dijeljenje i razmjenu metapodataka.

Hortonworks je bio član ODPi, Egeria je predstavljena na Hortonworksovom DataWorks događaju 2018. i činilo se da je to put naprijed za upravljanje metapodacima u Hadoop svijetu što se Hortonworksa tiče. Očigledno je Spajanje Cloudera - Hortonworks ima komplicirane stvari, jer se danas sve vrti oko Cloudera Navigatora za upravljanje metapodacima. Međutim, Egeria je predstavljena u novom događaju Cloudera DataWorks 2019, tako da možda još ima nade. Iskoristiti Egeriju bila bi dobra ideja.

Egeria gleda na integraciju rječnika metapodataka i standarda. Napor otvorenog koda osigurao bi interoperabilnost i bio bi koristan za korisnike i dobavljače. Nova Cloudera posvetila se strategiji 100% otvorenog koda, i postoji partnerstvo Cloudere i IBM-a, ključni član ODPi-ja i suradnik Egerije. Kao što je John Mertic, direktor upravljanja programima za The Linux Foundation rekao u svojoj prezentaciji za Egeria, "Pitajte svog dobavljača za upravljanje podacima za podršku za Egeria - ING to radi."

To dodatno podupire činjenica da Gorelik napominje da Waterline obično ide uz najbolje projekte otvorenog koda. Trenutno se metapodaci pohranjuju u SOLR za brzi pristup pretraživanju i u Postgres za nadzorne ploče i analitiku: "Od SOLR se isporučuje s većinom Hadoop distribucija i pruža brojna poboljšanja u odnosu na Lucene, bio je dobar izbor za nas. Postgres je besplatan i vrlo čest."

Što je GDPR?

Sve što trebate znati o novim općim propisima o zaštiti podataka

Stiže Opća uredba o zaštiti podataka ili GDPR. Evo što to znači, kako će utjecati na pojedince i tvrtke.

Čitaj SAD

GDPR, CCPA? Postoji i strojno učenje za to

Metapodaci su super i sve to, ali problem je što ih nemaju svi podaci. Pružanje kvalitetnih metapodataka zahtijeva vrijeme i resurse, a iskreno, nije nimalo uzbudljivo. Ali kako kaže Gorelik, GDPR je bio poziv na uzbunu za mnoge tvrtke:

„Mnogi naši korisnici imaju milijarde (s B) polja podataka. Ljudi su uvijek znali koliko je malo dokumentirano i poznato o njihovim podacima. GDPR je iznudio neugodnu raspravu na razini C o činjenici da, 'Ne, stvarno ne znamo gdje su svi podaci o našim klijentima.'

To je zauzvrat dovelo do toga da tvrtke ulažu u katalogiziranje podataka bilo ručno putem anketa i potvrda ili na automatiziran način pomoću alata kao što je Waterline Data. U jednom su trenutku tvrtke mislile da mogu uhvatiti podatke na izlaznoj točki -- tj. provjeriti crnu listu prije slanja marketinške e-pošte.

Tvrtke su ubrzo shvatile da, ako skup podataka ugroze hakeri, još uvijek moraju obavijestiti potrošače da su njihovi podaci prekršeni čak i nakon što su tražili da budu zaboravljeni, pa su se počeli više fokusirati na pronalaženje i upravljanje podacima u svim podacima imanje."

Slično tome, primjećuje Gorelik, Brexit je uzrokovao da mnoge britanske i multinacionalne tvrtke izrade planove za nepredviđene situacije, uključujući osnivanje novih podružnica kako bi održale prisutnost u EU. Mnogi su u tom procesu shvatili da nemaju jasnu predstavu o podacima na temelju kojih su trebali crtati planove, te o podacima koje bi u tom slučaju trebalo razdvojiti.

Baš kao i s GDPR-om, Gorelik je dodao, CCPA pokriva sve podatke o kupcima, a ne samo podatke koji otkrivaju identitet (PII). I, kao što je bio slučaj s GDPR-om, uzrokuje neugodne rasprave pogođenih tvrtki o tome da ne znaju gdje se svi njihovi podaci nalaze.

GDPR je bio poziv na uzbunu za mnoge tvrtke. GDPR je iznudio neugodnu raspravu na razini C o činjenici da: "Ne, stvarno ne znamo gdje su svi podaci o našim klijentima."

NicoElNino, Getty Images/iStockphoto

Waterline pokušava olakšati teret upravljanja metapodacima koristeći Aristotel, svoj sustav strojnog učenja za popunjavanje metapodataka koji nedostaju. Aristotel koristi patentiranu tehnologiju otiska prsta kako bi automatizirao otkrivanje, klasifikaciju, upravljanje i upravljanje ovom ogromnom količinom sada reguliranih osjetljivih podataka razasutih diljem poduzeće.

Kao što je Gorelik objasnio:

"Otisak prsta djeluje u tri dimenzije: 1. sadržaj (stvarne vrijednosti i njihove karakteristike) 2. metapodaci (imena, komentari itd.) i 3. kontekstu (na primjer, polje koje sadrži brojeve između jedne i šest znamenki i nema NULL u zapisu s imenima ulica, imenima gradova i poštanskim brojevima vrlo je vjerojatno kućni broj; vrlo je mala vjerojatnost da će zapis bez bilo koje druge komponente adrese biti kućni broj).

Ili, drugim riječima, sustav ne traži dodatne metapodatke toliko koliko automatski popunjava dodatne detalje svakog 'otiska prsta' koristeći metapodatke, podatke i kontekst zajedno. Svi prethodni ishodi -- netko označava polje oznakom, prihvaća predloženu oznaku i odbijanje predložene oznake -- koriste se za izračunavanje razine pouzdanosti koju određeno polje dobiva a određena oznaka."

Waterline nudi ono što se čini kao pragmatičan i napredan pristup katalozima podataka i upravljanju metapodacima. Međutim, budući da postoji mnogo pristupa i rješenja u ovom prostoru, interoperabilnost je ključna pa se nadamo da ćemo u budućnosti vidjeti bolju podršku za to među različitim izvorima podataka i rješenjima.

Usluge u oblaku: 24 manje poznate web usluge koje vaša tvrtka mora isprobati

Veliki podaci

Kako saznati jeste li uključeni u povredu podataka (i što dalje učiniti)
Borba protiv pristranosti u umjetnoj inteligenciji počinje s podacima
Poštena prognoza? Kako 180 meteorologa dostavlja 'dovoljno dobre' vremenske podatke
Terapije protiv raka ovise o vrtoglavim količinama podataka. Evo kako se to sortira u oblaku
  • Kako saznati jeste li uključeni u povredu podataka (i što dalje učiniti)
  • Borba protiv pristranosti u umjetnoj inteligenciji počinje s podacima
  • Poštena prognoza? Kako 180 meteorologa dostavlja 'dovoljno dobre' vremenske podatke
  • Terapije protiv raka ovise o vrtoglavim količinama podataka. Evo kako se to sortira u oblaku