Perspectives des données 2022, deuxième partie: la réalité contourne le maillage de données

Les maillages de données attirent déjà l’attention des fournisseurs, entraînant un regain d’intérêt pour les structures de données.

Notre vision du maillage de données a suscité une telle réponse l’année dernière que nous savions que le sujet méritait sa propre perspective en 2022.

Selon Google Trends, le « maillage de données » était l'un des sujets qui a cassé Internet en 2021 -- encore plus que "Data Lakehouse". Cependant, c'est un sujet qui aborde un point douloureux: nous jetons tout sortes de données dans des lacs de données ou d'autres silos, nous en perdons alors la trace ou ne les utilisons pas et ne les gouvernons pas de manière adéquate eux.

Big Data

Comment savoir si vous êtes impliqué dans une violation de données (et que faire ensuite)
La lutte contre les préjugés dans l’IA commence par les données
Des prévisions justes? Comment 180 météorologues fournissent des données météorologiques « suffisamment bonnes »
Les thérapies contre le cancer dépendent d’une quantité vertigineuse de données. Voici comment c'est trié dans le cloud

Après quelques années d’incubation, nous nous attendons désormais à ce que les maillages de données fassent l’objet d’un premier examen sérieux.

Le maillage de données est une idée qui, selon votre interlocuteur, a été lancée par Marc Beyer chez Gartner ou Zhamak Dehghani chez Thoughtworks. Pour mémoire, ils ont tous deux utilisé le même terme, et ils abordent tous deux la déconnexion qui se produit lorsque vous accumuler d'énormes quantités de données - puis essayer de déterminer à qui elles appartiennent et comment y accéder et gouverné. Mais c'est à peu près tout ils ont en commun.

Le concept de Gartner consiste davantage à modeler l'organisation des métadonnées sur des principes qui s'apparentent aux réseaux maillés physiques. S'inspirer de Loi de Metcalfe, à mesure que le nombre de « nœuds » de métadonnées dans un maillage de données prolifère, plus les métadonnées deviennent complètes (une certaine forme d’auto-apprentissage de l’IA pourrait être impliquée). Les recherches de Gartner étant bloquées derrière un mur payant, il ne devrait pas être surprenant que le concept développé chez Thoughtworks ait pris le dessus sur la conversation. Il repose sur des domaines auto-organisés jalonnant des approches de cycle de vie pour traiter les données comme des produits, s'appropriant tout, des pipelines de données à la gouvernance et à la sécurité. Ce faisant, les équipes réfléchissent plus largement à leurs données, au-delà de la simple création de pipelines ou de l’organisation d’ensembles de données.

Les maillages de données répondent à un certain nombre de préoccupations valables concernant les limites de la gestion descendante ou de la propriété des données. Mais à l’heure actuelle, le maillage de données n’est pas encore pleinement développé en tant que concept, notamment lorsqu’il s’agit de libre-service ou de gouvernance fédérée. L’idée courante des maillages de données est que les domaines disposant de l’expertise appropriée devraient être ceux qui possèdent les données et les gèrent du berceau à la tombe. Il s'agit d'une approche ascendante de la gestion et de la gouvernance des données qui devrait théoriquement améliorer la responsabilité. L’inconvénient est que, s’ils ne sont pas correctement gérés, les maillages de données pourraient amplifier ou faire proliférer les silos de données, entraînant gaspillage, duplication et gestion et gouvernance incohérentes.

Aussi: Data mesh: devriez-vous essayer cela à la maison ?

Nous ne pensons pas que le maillage de données soit suffisamment défini pour fonctionner dans plusieurs entreprises, mais nous pensons qu'il pourrait s'avérer efficace s'il était mis en œuvre à une échelle plus modeste. Plus précisément, lorsqu’ils sont mis en œuvre au sein d’équipes partageant déjà un contexte commun pouvant découler à partir d’histoires de collaboration et/ou d’avoir partagé, adjacent ou chevauché des sujets compétence. Dans une entreprise, nous pourrions prévoir l’émergence de groupes de maillages de données autour de disciplines ciblées, telles que l’expérience client, la gestion de la chaîne d’approvisionnement, le développement de produits, etc.

Jusqu'à présent, l'ensemble des travaux publiés sur les maillages de données a été globalement positif, et nous nous attendons à voir les fournisseurs de l'espace de données "laver le maillage de données" de leurs produits en 2022. Nous parlons de bases de données, de BI, de gouvernance, d'ELT/transformation de données, de catalogage de données, de fédération de requêtes et de gestion du cycle de vie des informations. Les fournisseurs diffuseront des messages marketing pour montrer comment leurs offres peuvent soutenir les équipes qui créent des maillages de données. Oui, il y en aura même une conférence virtuelle se produit plus tôt que vous ne le pensez.

Mais gardez à l’esprit que le maillage de données est un processus et une approche architecturale qui délègue la responsabilité d’ensembles de données spécifiques aux « domaines » qui possèdent l’expertise requise en la matière. Le maillage de données n’est pas une technologie. Espérons que les vendeurs ne sauteront pas sur le requin et positionneront leurs offres comme maillage de donnéesdes produits.

En vedette

Windows 10 est-il trop populaire pour son propre bien?
5 façons de trouver le meilleur endroit pour démarrer votre carrière
C’est ainsi que l’IA générative va améliorer l’économie des petits boulots
3 raisons pour lesquelles je préfère cet Android à 300 $ au Pixel 6a de Google

Notre sentiment de réaction imminente vient des nombreux messages privés que nous avons reçus.o notre publication LinkedIn qui fournissent un teaser à ce qui a été publié ici. L’essentiel de ces messages était que les maillages de données pourraient exacerber les problèmes de silos de données qui existent déjà dans la plupart des entreprises. Nous pensons qu’il s’agit d’une préoccupation tout à fait légitime.

Même si le concept du maillage de données était pleinement étoffé et à toute épreuve, le degré d’examen minutieux du public indique que l’idée est prise au sérieux. Ainsi, le fait qu’un contrecoup se produise est en fait le reflet de la mesure dans laquelle les maillages de données ont atteint un véritable point douloureux.

Mais il y a aussi un autre truc: les maillages de données ont souvent été comparés aux structures de données. Les Data Fabrics sont conçus pour promouvoir l’accès aux données dans les magasins logiques et physiques. Nous pensons donc que le fait de contraster les maillages de données avec les Data Fabrics est une fausse dichotomie.

Maintenez cette pensée.

Le problème réside dans le fait que la définition de la structure de données est assez floue. Essayez celui-ci de NetApp: "Une Data Fabric est, en son cœur, une architecture de données intégrée qui est adaptative, flexible et sécurisée. À bien des égards, une structure de données constitue une nouvelle approche stratégique des opérations de stockage de votre entreprise, une approche qui libère le meilleur du cloud, du cœur et de la périphérie. » Est-ce assez flou pour vous? Pour nos besoins, nous dirons simplement qu'une structure de données commence par un fond de panier de métadonnées commun. Ainsi, lorsque différentes équipes décrivent leurs produits de données, elles parlent toutes à partir d'une partition de musique commune.

Voici une autre prédiction soulignant que les maillages de données et les structures de données ont réellement une synergie: nous nous attendons à ce que les métadonnées communes les fonds de panier deviendront un problème dormant cette année, répondant au besoin de donner un sens à toutes les données - d'autant plus qu'elles s'accumulent dans le nuage.

Vous n’aurez peut-être pas besoin d’un maillage de données pour commencer à créer une structure de données. Mais si vous envisagez de lancer une initiative de maillage de données, n’envisagez même pas de vous lancer sans une certaine forme de structure de données.

Il s’agit de la deuxième partie de nos perspectives de données pour 2022. Cliquez ici pour la première partie, où nous présentons notre point de vue sur la convergence du streaming en temps réel, l'apprentissage automatique et la gestion des données.

ZDNET Recommande

Les 5 meilleurs services VPN (et conseils pour choisir celui qui vous convient)

Les meilleurs générateurs d'art IA: DALL-E 2 et d'autres alternatives amusantes à essayer

Les meilleurs téléphones Android que vous pouvez acheter (y compris une sélection surprise)

Les meilleurs combos robot aspirateur et vadrouille (et s'ils en valent la peine)

Les 5 meilleurs services VPN (et conseils pour choisir celui qui vous convient)
Les meilleurs générateurs d'art IA: DALL-E 2 et d'autres alternatives amusantes à essayer
Les meilleurs téléphones Android que vous pouvez acheter (y compris une sélection surprise)
Les meilleurs combos robot aspirateur et vadrouille (et s'ils en valent la peine)