Catalogues de données multi-cloud en toute simplicité, en utilisant les métadonnées et l'apprentissage automatique de Waterline Data

  • Oct 28, 2023

La gouvernance des données est une corvée, mais dans le monde post-RGPD, elle va au-delà des fondements. Il est essentiel. Waterline Data souhaite vous aider à le faire de manière simple, en automatisant autant que possible.

Voir aussi

  • Internet des objets: progrès, risques et opportunités (PDF gratuit)

Garder une trace de toutes vos données - où elles se trouvent, où elles vont, qui y accède et ce qu'ils en font - n'est ni amusant ni excitant. Mais il s’agit d’un substrat nécessaire à une gestion globale des données. à l’ère du RGPD et CCPA, c'est aussi une exigence légale. C’est à cela que sert la gouvernance des données.


Les catalogues de données sont les héros méconnus de la gouvernance des données. UN le catalogue de données est vaguement défini en tant qu'outil de gestion des métadonnées conçu pour aider les organisations à trouver et à gérer de grandes quantités de données. Aujourd'hui, l'un des acteurs clés dans le domaine des catalogues de données, Données sur la ligne de flottaison

, est annonçant des mises à jour de son produit, et ZDNet en a profité pour discuter avec le fondateur et CTO Alex Gorelik.

Le catalogue Waterline Data fait l'objet d'une mise à jour: tableau de bord DataOps et multi-cloud hybride

Waterline Data est une société mono-produit. Son catalogue de données est sur lequel repose chaque solution qu'elle propose, de la gestion des métadonnées et du lignage des données à la découverte et à la rationalisation des données sensibles. La version d'aujourd'hui est centrée sur un nouveau tableau de bord DataOps, qui, selon Waterline, peut servir de centre de réglementation où les entreprises peuvent comprendre le risque macro de leur patrimoine de données.

Le catalogue Waterline Data utilise les métadonnées et l'apprentissage automatique pour faciliter la gouvernance des données sur un éventail de sources de données.

Le tableau de bord DataOps permet aux utilisateurs de localiser et d'afficher facilement des fichiers spécifiques contenant des informations sensibles réglementées. données et aider à accélérer les processus d’identification, de correction et de documentation pour respecter le RGPD et le CCPA exigences. Gorelik, cependant, a souligné qu'il y avait une autre grande amélioration: une nouvelle architecture d'agent qui permet une prise en charge multi-cloud hybride.

« Waterline peut désormais cataloguer et baliser automatiquement les données dans plusieurs cloud comme AWS, Azure et Google Cloud Platform; des systèmes Big Data sur site comme Cloudera et MapR; des bases de données cloud comme Snowflake et RedShift; et bases de données relationnelles sur site. Les agents peuvent s'exécuter de manière native sur Apache Spark ou dans un conteneur pour les environnements ne disposant pas de cluster Spark", explique Gorelik.

Une autre nouvelle fonctionnalité est la prise en charge des lois sur la résidence des données qui restreignent l'envoi de données hors du pays. Un agent peut être configuré pour effectuer tous les traitements et découvertes localement et envoyer uniquement des métadonnées non sensibles au catalogue central. Enfin, des améliorations ont été apportées en termes de convivialité, de personnalisation et de collaboration.

Principaux fournisseurs de cloud

Principaux fournisseurs de cloud: AWS, Microsoft Azure et Google Cloud, acteurs hybrides et SaaS

Voici un aperçu de la situation des leaders du cloud, du marché hybride et des acteurs SaaS qui dirigent votre entreprise, ainsi que de leurs dernières évolutions stratégiques.

Lisez maintenant

Intégrations et open source

Les métadonnées sont vraiment la clé ici, et Waterline les complète avec l'apprentissage automatique pour automatiser autant de corvées que possible. Ce fut le point central de notre discussion avec Gorelik, à commencer par la nature exacte des métadonnées gérées, ainsi que l'intégration avec d'autres systèmes auxquels Waterline fait référence.

Gorelik indique que pour les bases de données relationnelles, Waterline utilise normalement le JDBC standard. Parfois, cependant, ils doivent effectuer des tâches spécifiques à la plate-forme. Waterline reconnaît automatiquement le format de fichier et analyse les fichiers (AVRO, parquet, JSON, XML, ORC, CSV, etc.) dans les systèmes de fichiers et les magasins d'objets. L'exploration se fait automatiquement et de manière incrémentielle: pointez Waterline vers un dossier ou une base de données et il détecte tout changement et traite les nouvelles données.

L'intégration se fait via API REST, qui prennent en charge l'intégration bidirectionnelle. Gorelik a mentionné que Waterline propose des adaptateurs prédéfinis qui importent la lignée d'Atlas et Cloudera Navigator et exportent des balises et des balises. associations à Atlas et Cloudera Navigator, où ces balises sont utilisées pour piloter le contrôle d'accès basé sur les balises Ranger et Cloudera Sentry Stratégies.

Ces API REST ont leurs propres définitions de données JSON, mais ce que nous espérions vraiment entendre, c'était une sorte de support pour Égérie. Egérie est une ODPi projet open source qui implémente un ensemble d'API, de types et de protocoles d'échange ouverts pour permettre à tous les référentiels de métadonnées de partager et d'échanger des métadonnées.

Hortonworks était un Membre de l'ODPi, Egeria a été présentée à l'événement DataWorks de Hortonworks en 2018, et il semblait que c'était la voie à suivre pour la gestion des métadonnées dans le monde Hadoop en ce qui concerne Hortonworks. Apparemment le Fusion Cloudera-Hortonworks a compliqué les choses, car de nos jours, tout tourne autour de Cloudera Navigator pour la gestion des métadonnées. Cependant, Egeria a été présentée au nouvel événement Cloudera DataWorks en 2019, aussi, donc il peut encore y avoir de l’espoir. Tirer parti d’Egeria serait une bonne idée.

Egeria envisage d'intégrer des vocabulaires et des normes de métadonnées. Un effort open source garantirait l’interopérabilité et serait bénéfique pour les utilisateurs et les fournisseurs. Le nouveau Cloudera s'engage dans une stratégie 100% open source, et il existe un partenariat entre Cloudera et IBM, membre clé de l'ODPi et contributeur d'Egeria. Comme l'a déclaré John Mertic, directeur de la gestion des programmes de la Linux Foundation, dans sa présentation sur Egeria: "Demandez à votre fournisseur de gestion de données le support d'Egeria - ING le fait."

Ceci est également corroboré par le fait que Gorelik note que Waterline s'associe généralement aux meilleurs projets open source. Actuellement, les métadonnées sont stockées dans SOLR pour un accès rapide à la recherche et dans Postgres pour les tableaux de bord et les analyses: "Depuis SOLR est livré avec la plupart des distributions Hadoop et apporte un certain nombre d'améliorations par rapport à Lucene. C'était un bon choix pour nous. Postgres est gratuit et très courant."

Qu’est-ce que le RGPD ?

Tout ce qu'il faut savoir sur le nouveau règlement général sur la protection des données

Le Règlement Général sur la Protection des Données, ou RGPD, arrive. Voici ce que cela signifie et quel impact cela aura sur les particuliers et les entreprises.

Lisez maintenant

RGPD, CCPA? Il y a aussi l'apprentissage automatique pour ça

Les métadonnées sont formidables, mais le problème est que toutes les données ne les contiennent pas. Fournir des métadonnées de qualité demande du temps et des ressources, et franchement, ce n’est pas si excitant. Mais comme le dit Gorelik, Le RGPD a été un signal d'alarme pour de nombreuses entreprises:

"Beaucoup de nos clients possèdent des milliards (avec un B) de champs de données. Les gens ont toujours su à quel point leurs données étaient peu documentées et connues. Le RGPD a provoqué une discussion inconfortable au niveau C sur le fait que « Non, nous ne savons vraiment pas où se trouvent toutes nos données clients ».

Cela a conduit les entreprises à investir dans le catalogage des données, soit manuellement au moyen d'enquêtes et d'attestations, soit de manière automatisée à l'aide d'outils tels que Waterline Data. À un moment donné, les entreprises pensaient pouvoir récupérer les données au point de sortie, c'est-à-dire vérifier la liste noire avant d'envoyer un e-mail marketing.

Les entreprises se sont vite rendu compte que si un ensemble de données était compromis par des pirates informatiques, elles devaient néanmoins informer les consommateurs que leurs données étaient compromises. ont été violés même après avoir demandé à être oubliés, ils ont donc commencé à se concentrer davantage sur la recherche et la gestion des données à travers les données. domaine."

De même, note Gorelik, le Brexit a amené de nombreuses entreprises britanniques et multinationales à élaborer des plans d’urgence, notamment en créant de nouvelles filiales pour maintenir leur présence dans l’UE. Au cours de ce processus, beaucoup ont réalisé qu’ils n’avaient pas une idée claire des données sur lesquelles ils devaient dessiner les plans, ni des données qui devraient être séparées dans cette éventualité.

Tout comme pour le RGPD, Gorelik a ajouté: CCPA couvre toutes les données sur les clients, pas seulement les informations personnellement identifiables (PII). Et, comme ce fut le cas avec le RGPD, les entreprises concernées ont des discussions inconfortables sur le fait de ne pas savoir où résident toutes leurs données.

Le RGPD a été un signal d’alarme pour de nombreuses entreprises. Le RGPD a provoqué une discussion inconfortable au niveau C sur le fait que « Non, nous ne savons vraiment pas où se trouvent toutes nos données clients ».

NicoElNino, Getty Images/iStockphoto

Waterline tente d'alléger le fardeau de la gestion des métadonnées en tirant parti d'Aristote, son système d'apprentissage automatique pour remplir les métadonnées manquantes. Aristote exploite une technologie brevetée de prise d'empreintes digitales pour automatiser la découverte, la classification, la gestion et la gouvernance de cette énorme quantité de données sensibles désormais réglementées dispersées à travers le monde. entreprise.

Comme l'explique Gorelik:

"L'empreinte digitale fonctionne dans trois dimensions: 1. le contenu (les valeurs réelles et leurs caractéristiques) 2. métadonnées (noms, commentaires, etc.) et 3. contexte (par exemple, un champ contenant des nombres entre un et six chiffres et aucun NULL dans un enregistrement avec des noms de rues, des noms de villes et des codes postaux est très probablement un numéro de maison; il est très peu probable qu'un enregistrement sans aucun autre élément d'adresse soit un numéro de maison).

Ou, pour le dire autrement, le système ne recherche pas autant de métadonnées supplémentaires qu'il remplit automatiquement des détails supplémentaires sur chaque « empreinte digitale » en utilisant ensemble les métadonnées, les données et le contexte. Tous les résultats précédents: quelqu'un marquant un champ avec une balise, acceptant une balise suggérée et rejeter une balise suggérée -- sont utilisés pour calculer un niveau de confiance selon lequel un certain champ obtient une certaine étiquette."

Waterline propose ce qui semble être une approche pragmatique et avancée des catalogues de données et de la gestion des métadonnées. Cependant, comme il existe de nombreuses approches et solutions dans ce domaine, l'interopérabilité est essentielle. Nous espérons donc pouvoir bénéficier d'un meilleur soutien à cet égard parmi les diverses sources de données et solutions à l'avenir.

Services cloud: 24 services Web moins connus que votre entreprise doit essayer

Big Data

Comment savoir si vous êtes impliqué dans une violation de données (et que faire ensuite)
La lutte contre les préjugés dans l’IA commence par les données
Des prévisions justes? Comment 180 météorologues fournissent des données météorologiques « suffisamment bonnes »
Les thérapies contre le cancer dépendent d’une quantité vertigineuse de données. Voici comment c'est trié dans le cloud
  • Comment savoir si vous êtes impliqué dans une violation de données (et que faire ensuite)
  • La lutte contre les préjugés dans l’IA commence par les données
  • Des prévisions justes? Comment 180 météorologues fournissent des données météorologiques « suffisamment bonnes »
  • Les thérapies contre le cancer dépendent d’une quantité vertigineuse de données. Voici comment c'est trié dans le cloud