AtScale 6.0 et Kinetica 6.1 annoncés; SAP adopte la religion GPU NVIDIA

  • Oct 23, 2023

AtScale, Kinetica, SAP et NVIDIA vantent leurs avancées en matière de BI, Big Data, IA et GPU.

Il n’y a tout simplement pas de repos pour ceux qui sont fatigués. Moins de 2 semaines après le Conférence sur les données sur les strates terminé à New York, Conférence Tableau 2017 démarre aujourd'hui à Las Vegas. La conférence Tableau apporte avec elle un autre panier d'actualités sur l'industrie des données, dont l'activité contribuera, espérons-le, d'une manière ou d'une autre, à aider Las Vegas à guérir.

AtScale fête sa version 6.0 et obtient Google BigQuery
La première nouvelle vient de À l'échelle, qui se situe à l'intersection de la Business Intelligence (BI) et du Big Data, peut-être encore plus maintenant avec sa version 6.0 récemment annoncée. AtScale crée des cubes OLAP (traitement analytique en ligne) virtuels (non matérialisés) sur des données dans Hadoop, une approche qui s'intègre parfaitement aux outils de BI front-end comme Tableau, conçus pour de tels modèles et référentiels. Et maintenant, avec la version 6.0, AtScale diversifie les données Hadoop antérieures, pour offrir une connectivité à

Google BigQuery aussi.

A lire aussi: BigQuery de Google devient public

J'ai écrit sur BigQuery lors de sa première sortie. À cette époque, Google en faisait la promotion en tant que serveur OLAP. Mais BigQuery fonctionne bien plus comme un entrepôt de données, et la rhétorique de Google a changé pour correspondre à cette réalité. AtScale, quant à lui, permet aux utilisateurs de créer une couche sémantique (un schéma OLAP, en d'autres termes) sur les données dans BigQuery. Lorsqu'il est combiné avec la technologie Active Cache de l'entreprise (très bien expliquée dans ce billet de blog environ 6.0), AtScale prend en charge les connexions en direct au service BigQuery basé sur le cloud à partir d'outils tels qu'Excel et fournit des temps de réponse aux requêtes de la ligue OLAP dans le processus.

La technologie Adaptive Cache est principalement définie par une combinaison d'agrégations pré-calculées, de certains membres de dimension pouvant être utilisés pour remplir les valeurs de filtre sélectionnables (une nouvelle fonctionnalité) et un optimiseur de requêtes qui utilise ces deux éléments pour éviter les requêtes superflues à l'arrière-plan fin. Dans le contexte Hadoop, cela accélère énormément les choses car cela évite la surexposition aux tendances des tâches par lots de cette plate-forme (qui existent toujours, même avec des optimisations modernes comme Étincelle et FIL).

Dans le contexte BigQuery, les optimisations deviennent encore plus intéressantes. Car si le cache adaptatif peut éviter les requêtes répétitives inutiles sur la base de données, cela évite la latence liée à l'appel d'un service cloud. Et des opérations telles que les analyses approfondies de tableaux croisés dynamiques Excel et le remplissage des filtres peuvent générer un parcelle de requêtes discrètes MDX vers le back-end.

En supprimer un certain nombre (ce qui, selon AtScale, est possible étant donné l'alignement des requêtes qui ont tendance à être émises par un groupe d'utilisateurs examinant les mêmes données) peut permettre de gagner beaucoup de temps. et réduire les coûts. AtScale affirme que ses premiers tests sur BigQuery indiquent que « les coûts des requêtes ont été réduits jusqu'à 1 000 fois par requête ». je n'ai pas et je ne peux pas vérifier ce résultat, mais je ne doute pas qu'un peu d'optimisation avec un service cloud comme BigQuery puisse durer longtemps chemin. Et comme BigQuery est monétisé en fonction de l'activité des requêtes, l'impact économique de la technologie d'AtScale pourrait bien être significatif.

Bien que l'ajout de BigQuery en tant que back-end pris en charge constitue un changement important par rapport à l'approche auparavant exclusive à Hadoop d'AtScale, il semble probable que davantage de sources de données seront intégrées. AtScale ne pense pas qu'Hadoop soit mort; Loin de ça, en fait. Le PDG Dave Mariani m'a dit que l'adoption de Hadoop continue de croître. Mais ce faisant, les gens comprennent de plus en plus que fédérer ces données avec leurs plus les moteurs de bases de données conventionnels, y compris les entrepôts de données MPP (traitement massivement parallèle), sont impératif. Et AtScale souhaite que sa couche sémantique universelle (un concept introduit avec sa version 5.5) soit le lieu où se produit cette fédération.

Le parallélisme pense globalement, peut agir localement
Ce qui est intéressant à propos des entrepôts de données MPP, c'est la manière dont ils parviennent à leur parallélisme: en combinant un ensemble de instances de base de données, chacune sur un serveur distinct, puis disposant d'un nœud maître qui délègue des sous-requêtes à chacune un. Les serveurs individuels exécutent leurs sous-requêtes en parallèle, renvoient les ensembles de résultats au nœud maître, qui les combine et en renvoie un seul au client. Cette approche « diviser pour régner » est également ce qui motive Hadoop et Spark. En fait, l’idée même de rendre le traitement du Big Data réalisable repose sur l’idée de diviser le travail en suffisamment de morceaux (plus petits) où le traitement parallèle peut prendre des volumes toujours croissants.

Mais pourquoi tout ce travail de division pour régner ne pourrait-il pas également se dérouler au sein des serveurs individuels? Il s’avère que les GPU (unités de traitement graphique) peuvent s’adapter exactement à ce scénario. Ils prennent la notion de traitement vectoriel sur un processeur (où plusieurs éléments de données sont traités simultanément, plutôt qu'un à la fois) et les projettent à une échelle beaucoup plus grande. C'est pourquoi, outre le traitement graphique lui-même, les GPU fonctionnent si bien pour l'IA et le Deep Learning. Les modèles de ce dernier type comportent des couches de réseaux neuronaux, et cette superposition signifie que la formation des modèles bénéficie grandement de la parallélisation offerte par les GPU.

Kinetica fait passer MPP à GPU
Pourquoi ne pouvons-nous pas ramener cette idée dans la base de données? Il s'avère que nous pouvons, et c'est ce que pensent les gens de Cinétique ai fait. Ils ont créé le même type de base de données columnstore en mémoire que les gars de MPP, mais au lieu de paralléliser uniquement sur plusieurs serveurs, ils le font au sein de chaque nœud, sur des architectures GPU. La société a fait des annonces lors de Strata, dont j'ai parlé, notamment sur un moyen d'utiliser son produit comme cache d'amélioration massive des performances pour Tableau.

A lire aussi: Strata NYC 2017 vers Hadoop: sautez dans un lac de données

Il n'est donc pas surprenant que la société fasse des annonces lors de la Tableau Conference en plus de Strata. Plus précisément, la société annonce sa nouvelle version 6.1. La version 6.1 apporte quelques améliorations clés :

  • Le rendu back-end des visualisations géospatiales (données sur cartes), déjà unique pour une base de données, est désormais amélioré grâce à l'adoption de OpenGL: et l'exploitation du GPU pour son cas d'utilisation d'origine: le graphisme.
  • En parlant de géospatial, Kinetica met à jour son produit afin qu'un large éventail de fonctions géospatiales soient disponibles à partir de son dialecte SQL, et pas seulement via des appels d'API obscurs. Fonctions telles que le calcul du voisin le plus proche et le calcul des points dans une région - plus de 80 fonctions géospatiales opérations en tout - peuvent désormais être exécutées à partir de la couche SQL, en utilisant la syntaxe déjà définie pour ces charges de travail dans PostreSQLc'est PostGIS extenseur.
  • Un certain nombre de nouvelles fonctionnalités d'entreprise ont été ajoutées au produit. Ceux-ci incluent la compression et le codage par dictionnaire; surveillance renforcée; administration simplifiée et provisionnement dynamique des ressources; et de nouvelles fonctionnalités de sécurité, notamment la cartographie des rôles et une fonction de journal d'audit, de sorte qu'il est toujours possible de regarder en arrière et de déterminer qui a mené une opération et quand.
capture d'écran cinétique.png

Une visualisation géospatiale rendue par le serveur Kinetica et accélérée par GPU.

Crédit: Kinetica

Kinetica a également considérablement rationalisé le déploiement du cloud. Il a un nouveau déploiement simplifié sur Services Web Amazon et Microsoft Azure... assez simple, apparemment, pour que la société l'appelle "One-Click Cloud". L'octroi de licences devient également plus simple, car les utilisateurs ont la possibilité possibilité d'apporter leur propre licence, ou simplement de payer en fonction de l'utilisation/mesurée pour le travail qu'ils effectuent sur des instances hébergées dans le cloud de Cinétique.

Combinez tout cela avec le fait qu'une nouvelle édition d'essai de 90 jours du produit sera disponible d'ici le 31 octobre, avec Azure et AWS 6.1. se lance, et la curiosité pour ce produit intéressant peut être satisfaite à un coût très raisonnable (il peut fonctionner sur des processeurs conventionnels aussi).

Leonardo aime aussi les GPU
Dans mon récapitulatif d'actualités de Strata, j'ai mentionné que Kinetica fonctionnait sur Nvidia GPU. Eh bien, l'actualité d'aujourd'hui comprend un élément non lié à Tableau: les GPU NVIDIA trouvent désormais leur place dans les centres de données SAP et, par extension, dans ses services cloud également. L'impact immédiat de cette situation est que SAP déclare que son Portefeuille d'apprentissage automatique Leonardo est la première offre Entreprise à utiliser la technologie NVIDIA Plateforme Volta IA.

Services de la Leonardo Machine Learning Foundation, notamment Impact de la marque SAP, qui analyse automatiquement de gros volumes de vidéos pour détecter les logos de marques dans les images animées (et, par extension, le ROI sur les placements de produits), et Intelligence des tickets de service SAP, qui catégorise les tickets de service et fournit des recommandations de résolution à l'agent du centre de service, présentera des modèles formés par NVIDIA Volta dans les coulisses. Si l'on considère les racines de SAP dans la planification des ressources de l'entreprise (ERP) et son application métier orientation, son partenariat avec NVIDIA devrait contribuer grandement à l'intégration de l'IA dans le secteur d'activité charges de travail.

Ce n'est pas tout, les amis
J'aimerais pouvoir dire que le cycle de l'actualité des données et de l'analyse est sur le point de se stabiliser, mais je sais que ce n'est pas le cas. Cette semaine et au-delà, il y a plus de choses en préparation. Nous vivons actuellement dans un monde assez turbulent, tant en termes de politique que de protection des données. Malgré la relative instabilité que cela laisse penser, le monde des données est de toute façon en plein essor. Parce que le seul moyen de surmonter l'entropie est de maîtriser les données, les informations et les tendances, ainsi que les capacités de contrôle et de prévision qui les accompagnent.