Waterline Data의 메타데이터와 기계 학습을 사용하여 멀티 클라우드 데이터 카탈로그를 쉽게 작성합니다.

  • Oct 28, 2023

데이터 거버넌스는 힘들지만 GDPR 이후 세계에서는 기초적인 수준을 넘어서는 수준입니다. 그것은 필수적입니다. Waterline Data는 가능한 한 많은 부분을 자동화하여 쉬운 방법으로 이를 수행할 수 있도록 돕고 싶습니다.

다음도 참조

  • 사물 인터넷: 진행 상황, 위험 및 기회(무료 PDF)

모든 데이터(데이터가 어디에 있었는지, 어디로 가는지, 누가 액세스했는지, 그 데이터로 무엇을 하는지)를 추적하는 것은 재미도 없고 흥미롭지도 않습니다. 그러나 이는 전체적인 데이터 관리에 필요한 기반이며, GDPR 시대에 CCPA도 법적 요구 사항입니다. 이것이 바로 데이터 거버넌스에 관한 것입니다.


데이터 카탈로그는 데이터 거버넌스의 알려지지 않은 영웅입니다. ㅏ 데이터 카탈로그가 느슨하게 정의됨 조직이 대량의 데이터를 찾고 관리할 수 있도록 설계된 메타데이터 관리 도구입니다. 오늘날 데이터 카탈로그 공간의 주요 플레이어 중 하나인 워터라인 데이터, 이다 제품 업데이트 발표, 그리고 ZDNet 창립자이자 CTO인 Alex Gorelik과 논의할 기회를 가졌습니다.

Waterline Data 카탈로그 업데이트: DataOps 대시보드 및 하이브리드 멀티 클라우드

Waterline Data는 단일 제품 회사입니다. 데이터 카탈로그는 메타데이터 관리 및 데이터 계보부터 민감한 데이터 검색 및 데이터 합리화에 이르기까지 제공하는 모든 솔루션의 기반입니다. 오늘 릴리스는 기업이 데이터 자산의 거시적 위험을 이해할 수 있는 규제 허브 역할을 할 수 있는 새로운 DataOps 대시보드를 중심으로 이루어졌습니다.

Waterline Data 카탈로그는 메타데이터와 기계 학습을 사용하여 다양한 데이터 소스에 대한 데이터 거버넌스를 지원합니다.

DataOps 대시보드를 통해 사용자는 규제된 민감한 정보가 포함된 특정 파일을 쉽게 찾고 볼 수 있습니다. GDPR 및 CCPA를 충족하기 위해 식별, 수정 및 문서화 프로세스를 신속하게 처리하는 데 도움이 됩니다. 요구 사항. 그러나 Gorelik은 또 ​​다른 큰 개선 사항이 있다고 지적했습니다. 바로 하이브리드 멀티 클라우드 지원을 가능하게 하는 새로운 에이전트 아키텍처입니다.

"Waterline은 이제 AWS, Azure, Google Cloud Platform과 같은 여러 클라우드에서 데이터를 분류하고 자동으로 태그를 지정할 수 있습니다. Cloudera 및 MapR과 같은 온프레미스 빅 데이터 시스템; Snowflake 및 RedShift와 같은 클라우드 데이터베이스; 온프레미스 관계형 데이터베이스. 에이전트는 기본적으로 Apache Spark에서 실행되거나 Spark 클러스터가 없는 환경의 컨테이너에서 실행될 수 있습니다."라고 Gorelik은 말합니다.

또 다른 새로운 기능은 국가 외부로 데이터 전송을 제한하는 데이터 상주법을 지원하는 것입니다. 모든 처리 및 검색을 로컬에서 수행하고 중요하지 않은 메타데이터만 중앙 카탈로그로 보내도록 에이전트를 구성할 수 있습니다. 마지막으로 유용성, 개인화 및 공동 작업이 개선되었습니다.

최고의 클라우드 제공업체

최고의 클라우드 제공업체: AWS, Microsoft Azure, Google Cloud, 하이브리드, SaaS 플레이어

다음은 클라우드 리더의 위상, 하이브리드 시장, 회사를 운영하는 SaaS 플레이어 및 이들의 최신 전략적 움직임을 살펴보겠습니다.

지금 읽어라

통합 및 오픈 소스

여기에서는 메타데이터가 핵심이며 Waterline은 기계 학습으로 이를 보완하여 가능한 한 많은 단조로운 작업을 자동화합니다. 이는 관리되는 메타데이터의 정확한 특성과 Waterline이 언급하는 다른 시스템과의 통합부터 시작하여 Gorelik과의 논의의 초점이었습니다.

Gorelik은 관계형 데이터베이스의 경우 Waterline이 일반적으로 표준 JDBC를 사용한다고 말합니다. 그러나 때로는 플랫폼별 작업을 수행해야 하는 경우도 있습니다. Waterline은 파일 형식을 자동으로 인식하고 파일 시스템 및 개체 저장소에 있는 파일(AVRO, parquet, JSON, XML, ORC, CSV 등)을 구문 분석합니다. 크롤링은 자동으로 점진적으로 수행됩니다. Waterline이 폴더나 데이터베이스를 가리키면 변경 사항을 감지하고 새 데이터를 처리합니다.

통합은 다음을 통해 수행됩니다. REST API, 양방향 통합을 지원합니다. Gorelik은 Waterline이 Atlas 및 Cloudera Navigator에서 계보를 가져오고 태그와 태그를 내보내는 사전 구축된 어댑터를 제공한다고 언급했습니다. Atlas 및 Cloudera Navigator에 대한 연결(이러한 태그는 Ranger 및 Cloudera Sentry 태그 기반 액세스 제어를 구동하는 데 사용됨) 정책.

이러한 REST API에는 자체 JSON 데이터 정의가 있지만 우리가 정말로 듣고 싶었던 것은 에게리아. 에게리아는 ODPi 모든 메타데이터 저장소가 메타데이터를 공유하고 교환할 수 있도록 일련의 개방형 API, 유형 및 교환 프로토콜을 구현하는 오픈 소스 프로젝트입니다.

호튼웍스는 ODPi 회원, Egeria는 2018년 Hortonworks의 DataWorks 이벤트에 소개되었으며, 이것이 Hortonworks에 관한 한 Hadoop 세계에서 메타데이터 관리를 위한 앞으로 나아갈 길처럼 보였습니다. 분명히 Cloudera-Hortonworks 합병 요즘에는 메타데이터 관리를 위한 Cloudera Navigator가 전부이므로 복잡한 문제가 있습니다. 하지만, Egeria는 2019년 새로운 Cloudera DataWorks 이벤트에 소개되었습니다., 그래서 아직 희망이 있을 수 있습니다. Egeria를 활용하는 것이 좋습니다.

Egeria는 메타데이터 어휘와 표준을 통합하는 방법을 모색하고 있습니다. 오픈 소스 노력은 상호 운용성을 보장하고 사용자와 공급업체에 유익할 것입니다. 새로운 Cloudera는 100% 오픈 소스 전략을 약속합니다., 그리고 IBM과 Cloudera 파트너십을 맺고 있습니다., 주요 ODPi 회원이자 Egeria 기여자입니다. Linux Foundation의 프로그램 관리 이사인 John Mertic은 Egeria 프레젠테이션에서 "Egeria 지원은 데이터 관리 공급업체에 문의하세요. ING는 지원합니다."라고 말했습니다.

이는 Gorelik이 Waterline이 일반적으로 동종 최고의 오픈 소스 프로젝트와 함께 사용된다는 사실을 통해 더욱 뒷받침됩니다. 현재 메타데이터는 빠른 검색 액세스를 위해 SOLR에 저장되고 대시보드 및 분석을 위해 Postgres에 저장됩니다. SOLR은 대부분의 Hadoop 배포판과 함께 제공되며 Lucene에 비해 여러 가지 개선 사항을 제공합니다. 우리를. Postgres는 무료이며 매우 일반적입니다."

GDPR이란 무엇입니까?

새로운 일반 데이터 보호 규정에 대해 알아야 할 모든 것

일반 데이터 보호 규정(GDPR)이 다가오고 있습니다. 이것이 무엇을 의미하는지, 개인과 기업에 어떤 영향을 미치는지는 다음과 같습니다.

지금 읽어라

GDPR, CCPA? 이를 위한 머신러닝도 있습니다

메타데이터는 훌륭하지만 문제는 모든 데이터에 메타데이터가 없다는 것입니다. 고품질 메타데이터를 제공하려면 시간과 리소스가 필요하며 솔직히 그다지 흥미롭지는 않습니다. 하지만 Gorelik이 말했듯이, GDPR은 많은 기업에 경종을 울렸습니다.:

"많은 고객이 수십억 개의(B 포함) 데이터 필드를 보유하고 있습니다. 사람들은 항상 자신의 데이터에 대해 문서화되고 알려진 것이 얼마나 적은지 알고 있었습니다. GDPR은 최고 경영진에게 '아니요, 우리는 고객 데이터가 모두 어디에 있는지 전혀 모릅니다'라는 불편한 논의를 강요했습니다.

이로 인해 기업은 설문 조사 및 증명을 통해 수동으로 또는 Waterline Data와 같은 도구를 사용하여 자동화된 방식으로 데이터를 카탈로그화하는 데 투자하게 되었습니다. 어느 시점에서 기업은 종료 시점에서 데이터를 포착할 수 있다고 생각했습니다. 즉, 마케팅 이메일을 보내기 전에 블랙리스트를 확인하는 것입니다.

기업은 데이터 세트가 해커에 의해 손상되더라도 여전히 소비자에게 데이터가 손상되었음을 알려야 한다는 사실을 깨달았습니다. 잊어달라고 요청한 후에도 위반이 발생하여 데이터 전반에 걸쳐 데이터를 찾고 관리하는 데 더 집중하기 시작했습니다. 사유지."

마찬가지로 Gorelik은 Brexit으로 인해 많은 영국 및 다국적 기업이 EU 입지를 유지하기 위해 새로운 자회사를 설립하는 것을 포함하여 비상 계획을 세우게 되었다고 지적합니다. 이 과정에서 많은 사람들은 계획을 수립하는 데 필요한 데이터와 만일의 경우 분리해야 하는 데이터를 명확하게 처리하지 못한다는 사실을 깨달았습니다.

GDPR과 마찬가지로 Gorelik은 계속해서 다음과 같이 덧붙였습니다. CCPA는 고객에 대한 모든 데이터를 다루고 있습니다., 개인 식별 정보(PII)만이 아닙니다. 그리고 GDPR의 경우와 마찬가지로 영향을 받는 기업은 모든 데이터가 어디에 있는지 알지 못하는 것에 대해 불편한 토론을 벌이게 됩니다.

GDPR은 많은 기업에 경종을 울렸습니다. GDPR은 C레벨에서 "아니요, 우리는 고객 데이터가 모두 어디에 있는지 전혀 모릅니다"라는 불편한 논의를 강요했습니다.

NicoElNino, 게티 이미지/iStockphoto

Waterline은 누락된 메타데이터를 채우는 기계 학습 시스템인 Aristotle을 활용하여 메타데이터 관리 부담을 완화하려고 노력하고 있습니다. Aristotle은 특허받은 지문 채취 기술을 활용하여 발견, 분류, 전 세계에 흩어져 있는 현재 규제 대상인 이 엄청난 양의 민감한 데이터에 대한 관리 및 거버넌스 기업.

Gorelik은 다음과 같이 설명했습니다.

"지문은 세 가지 차원에서 작동합니다. 1. 내용(실제값과 그 특성) 2. 메타데이터(이름, 설명 등) 및 3. 컨텍스트(예를 들어 거리 이름, 도시 이름 및 우편번호가 포함된 레코드에 1~6자리 숫자가 포함되어 있고 NULL이 없는 필드는 집 번호일 가능성이 높습니다. 다른 주소 구성 요소가 없는 기록은 집 번호가 될 가능성이 거의 없습니다.)

또는 다르게 말하면 시스템은 메타데이터, 데이터 및 컨텍스트를 함께 사용하여 각 '지문'의 추가 세부 정보를 자동으로 채우는 만큼 추가 메타데이터를 찾지 않습니다. 모든 이전 결과 - 누군가 태그로 필드에 태그를 지정하고, 제안된 태그를 수락하고, 제안된 태그 거부 - 특정 필드가 얻는 신뢰 수준을 계산하는 데 사용됩니다. 특정 태그."

Waterline은 데이터 카탈로그 및 메타데이터 관리에 대한 실용적이고 고급 접근 방식을 제공합니다. 그러나 이 분야에는 많은 접근 방식과 솔루션이 있으므로 상호 운용성이 핵심이므로 향후 다양한 데이터 소스와 솔루션에서 이에 대한 더 나은 지원을 볼 수 있기를 바랍니다.

클라우드 서비스: 기업이 시도해야 할 잘 알려지지 않은 24가지 웹 서비스

빅 데이터

귀하가 데이터 침해에 연루되었는지 확인하는 방법(그리고 다음에 해야 할 일)
AI의 편견과의 싸움은 데이터에서 시작됩니다
공정한 예측? 180명의 기상학자가 '충분히 좋은' 날씨 데이터를 제공하는 방법
암 치료법은 어지러울 정도로 많은 양의 데이터에 의존합니다. 클라우드에서 정렬되는 방법은 다음과 같습니다.
  • 귀하가 데이터 침해에 연루되었는지 확인하는 방법(그리고 다음에 해야 할 일)
  • AI의 편견과의 싸움은 데이터에서 시작됩니다
  • 공정한 예측? 180명의 기상학자가 '충분히 좋은' 날씨 데이터를 제공하는 방법
  • 암 치료법은 어지러울 정도로 많은 양의 데이터에 의존합니다. 클라우드에서 정렬되는 방법은 다음과 같습니다.