AWS commence à combler les écarts entre ses bases de données

  • Sep 03, 2023

Cette année, chez re: Invent, AWS n'a ajouté aucune nouvelle base de données au portefeuille. Mais il a fallu franchir une étape importante pour rassembler les pièces du puzzle.

super-glue.jpg

Pour Amazon Web Services (AWS), la clé de leur stratégie de gestion des données était que vous aviez besoin du bon outil pour le travail. Ainsi, AWS a accumulé un portefeuille de 15 bases de données, et au cours des dernières années, il est rare qu'un re: Invent se déroule sans annonce d'une nouvelle base de données. Alors peut-être qu'il est temps de reprendre son souffle.

La semaine dernière, Larry Dignan et Asha Barbaschow, collègues de ZDnet, ont mis en lumière un nouveau thème émergent lors du congrès de cette année: Inventer sur AWS. placer ses paris sur mouvement des données entre les workflows de stockage, de base de données et d'analyse, positionnant la stratégie comme la sauce secrète pour obtenir davantage de charges de travail de la part des anciens acteurs. Et oui, dans un geste audacieux, AWS cherche à récupérer vos charges de travail SQL Server grâce à

Babelfish pour Aurora PostgreSQL. Mais pour nous, le point culminant a été l'annonce de Vues élastiques AWS Glue qui entre en aperçu.

Il s'agit d'une réponse à des concurrents comme Oracle qui mettent l'accent sur les « bases de données convergées », arguant que la répartition des charges de travail dans des magasins de données distincts crée de nouveaux silos et ajoute de la complexité. Bien qu'à ce stade, nous n'allons pas prédire qu'AWS fermera de manière figurée le bureau des brevets et cessera d'inventer de nouvelles bases de données, il est nécessaire de tout lier ensemble. Il s'agit de la dernière étape du parcours d'intégration d'AWS, offrant une alternative beaucoup plus simple à ce qui précède.

Le parcours d'intégration de données d'AWS

Tout d’abord, voyons d’où vient AWS. AWS n'est pas nouveau dans le jeu de l'intégration de données et de bases de données. Mais jusqu’à présent, ces capacités présentaient certaines limites. Et de nombreux chemins d'intégration de bases de données AWS présentaient des complexités opérationnelles, telles que la nécessité de configurer des configurations pour faire circuler les données ou les réponses, sans parler de la nécessité de déclencher manuellement les mises à jour ou de les coder pour les conserver écoulement.

Il a commencé modestement avec Colle AWS, initialement conçu comme un service ETL. Au fil des années, Glue a ajouté un catalogue de données, un registre de schémas et maintenant, Elastic Views, sur lesquels nous nous concentrerons ci-dessous. Au-delà de Glue, AWS disposait d'autres voies d'intégration entre ses bases de données. Par exemple, il y a plusieurs années, AWS a étendu l'entrepôt de données Amazon Redshift avec Spectre Amazon Redshift, une capacité qui interroge le stockage cloud S3 de manière massivement parallèle, pour agréger les données puis les renvoyer au cluster Redshift local pour générer le résultat final. Avec Spectrum, les données dans S3 sont traitées comme une table externe qui peut être jointe aux tables Redshift locales. Vous n'étendez pas une table Redshift à S3, mais pouvez y adhérer.

Si Redshift Spectrum ressemble à une requête fédérée, Requête fédérée Amazon Redshift est la vraie chose. Au départ, il fonctionnait uniquement avec PostgreSQL – soit RDS pour PostgreSQL, soit Aurora PostgreSQL. Mais une nouvelle prise en charge de RDS et Aurora MySQL est annoncée aujourd'hui. Ici, le traitement des requêtes de Redshift est transféré vers l'instance RDS ou Aurora, qui renvoie uniquement les résultats au cluster Redshift local. Étant donné que Redshift lui-même descend également de PostgreSQL, les types de données couramment utilisés sont identiques, mais par exemple, les types de données tels que JSON, JSONB (JSON binaire), les tableaux, les types monétaires, les nombres non entiers, XML et autres types de données doivent être convertis en caractères variables génériques. des champs. Il y aura quelques transformations supplémentaires avec le nouveau support de MySQL.

Il y a eu des interactions entre certains des autres services de données, notamment un service bidirectionnel connecteur open source entre Amazon EMR et DynamoDB. Vous pouvez utiliser une version personnalisée de Hive pour exécuter des opérations depuis EMR sur des données dans DynamoDB ou charger des données depuis DynamoDB dans EMR. À votre tour, vous pouvez également diffuser des mises à jour de DynamoDB vers Amazon Recherche élastique Service via un plugin pour Cache-journaux.

Et si vous souhaitez simplement interroger les données de votre lac de données sans configurer de base de données, il existe Amazone Athéna. Il utilise Presto pour exécuter des requêtes massivement parallèles dans S3. L'Athena sans serveur était destiné aux requêtes ad hoc car, quelles que soient les optimisations de performances appliquées, l'interrogation du stockage cloud ne sera jamais possible. aussi efficace que d'avoir une base de données indexée ou présentée sous forme de magasin de colonnes qui utilise la compression et des filtres pour optimiser performance. Considérez Athena comme capacité de requête exploratoire. Ainsi, lorsque vous décidez d'opérationnaliser une requête, vous migrerez et transformerez probablement les données pour les exécuter dans Redshift.

Glue Elastic Views coupe la chasse

Les vues AWS Glue Elastic promettent une méthode plus simple en s'appuyant sur un modèle d'entreposage de données populaire de longue date: la création de vues matérialisées qui sont automatiquement mises à jour. Les entrepôts de données utilisent régulièrement des vues matérialisées pour éviter d'exécuter constamment des requêtes utilisant les mêmes jointures.

AWS Glue Elastic Views est configuré pour créer des ponts entre les bases de données relationnelles, les bases de données non relationnelles, le stockage d'objets et les magasins d'analyse à travers le portefeuille AWS. Initialement, il prend en charge Amazon DynamoDB (en tant que source à ce stade), Amazon S3, Amazon Redshift et Amazon Elasticsearch. Service, avec prise en charge d'Amazon RDS, Amazon Aurora et d'autres que nous prévoyons (y compris les bases de données AWS et non-AWS) suivre.

Le processus commence par la création d'une requête SQL à l'aide de PartiQL (prononcé « particule »), un langage open source compatible SQL développé par AWS et conçu à l'origine pour interroger des données non relationnelles telles que les journaux. AWS utilise PartiQL depuis qu'il est prêt pour la production l'année dernière et est apparu dans Redshift Spectrum et DynamoDB, par exemple. Tandis que PartiQL aplatit les types de données imbriqués tels que JSON, il préserve les métadonnées, de sorte que la richesse de la hiérarchie est conservée. Étonnamment, bien qu'il s'agisse d'un produit Glue, Elastic Views n'utilise pas Glue pour la partie ETL. Au lieu de cela, il utilise la requête PartiQL pour former les données, en publiant un flux de capture de données modifiées (CDC) à partir de la source et en le déposant sous forme de vue matérialisée dans la cible.

Avec Glue Elastic Views, vous pouvez diffuser en temps réel les modifications apportées aux catalogues de produits gérés dans DynamoDB. dans Elasticsearch, qui présente un environnement plus intuitif permettant aux clients de trouver des listes de produits. Alors que vous pouviez auparavant effectuer cette tâche avec le connecteur DynamoDB-Elasticsearch dédié, l'avantage de Elastic Views est que les processus sont beaucoup plus simples et que, dans le cadre du service, les modifications sont automatiquement répliqué. Avec le connecteur d'origine, cela aurait été une tâche qui aurait nécessité un codage manuel important (et potentiellement sujet aux erreurs).

Pour AWS, la variété a été le piment de la vie, qui s'étend de ses centaines de services et permutations de calcul EC2 et infrastructure de stockage à la variété de services d'analyse, d'apprentissage automatique, de développement de conteneurs et de bases de données, entre autres autres. Nous sommes tentés d'utiliser la métaphore selon laquelle, en exécutant suffisamment de services de base de données, AWS espère que certains d'entre eux resteront (ensemble). Mais au lieu de cela, nous partirons avec ceci: le défi d'AWS est de s'appuyer sur les synergies qui pourraient lier ses divers services entre eux. Glue Elastic Views est un bon début.

Big Data

Comment savoir si vous êtes impliqué dans une violation de données (et que faire ensuite)
La lutte contre les préjugés dans l’IA commence par les données
Des prévisions justes? Comment 180 météorologues fournissent des données météorologiques « suffisamment bonnes »
Les thérapies contre le cancer dépendent d’une quantité vertigineuse de données. Voici comment c'est trié dans le cloud
  • Comment savoir si vous êtes impliqué dans une violation de données (et que faire ensuite)
  • La lutte contre les préjugés dans l’IA commence par les données
  • Des prévisions justes? Comment 180 météorologues fournissent des données météorologiques « suffisamment bonnes »
  • Les thérapies contre le cancer dépendent d’une quantité vertigineuse de données. Voici comment c'est trié dans le cloud