Big data: quels sont les enjeux qui font trébucher les entreprises ?

Un data scientist chevronné propose son point de vue sur les défis auxquels les organisations sont confrontées lorsqu'elles font leurs premiers pas dans le monde du Big Data.

OllyDowns158x183 — Olly Downs, data scientist: Tirer de véritables connaissances à partir des données n’est pas vraiment une capacité informatique.

Olly Downs est un data scientist avec un parcours académique long comme le bras et de nombreux diplômes de Princeton aux États-Unis et de Cambridge au Royaume-Uni. Son bilan en affaires n’est pas mauvais non plus.

En plus de ses expériences en tant que data scientist chez Barnes & Noble, la société de diffusion SiriusXM et MSN, il a travaillé chez Microsoft Research. spin-off Inrix, récoltant les données d'une flotte de véhicules équipés de dispositifs de localisation GPS pour fournir un trafic en temps réel information.

Son rôle actuel est celui de vice-président senior de la science des données chez société d'applications d'analyse Globys, qui utilise le big data pour proposer aux opérateurs mobiles un marketing ciblé. L'entreprise utilise l'exploration de données à grande échelle, la modélisation prédictive et l'apprentissage automatique pour repérer le bon moment pour interagir avec les clients.

Voici les défis qu’il a identifiés pour les entreprises mettant en œuvre des projets Big Data :

Enjeu 1 du Big data: Compétences

Il y a certainement un problème de compétences. C'est probablement en partie pourquoi le première vague d'initiatives big data n'a pas eu un grand succès. Essentiellement, il existe les mêmes défis fondamentaux que pour les initiatives de petites données, dans le sens où extraire de véritables connaissances à partir des données n'est pas vraiment une capacité informatique.

Il s'agit d'une capacité d'analyse et de science des données, mais cet ensemble de compétences n'existe pas. La situation est aggravée lorsque vous y ajoutez du Big Data, car les technologies Big Data en jeu nécessitent beaucoup plus de développement de logiciels que de compétences en gestion de systèmes informatiques.

J'ai participé dans la région de Seattle à la création de programmes de développement professionnel avec les universités, qui visent à recruter des ingénieurs logiciels et des compétences informatiques et à leur apprendre à comprendre qu'il existe un problème d'entrée et de sortie d'ordures lié à la gestion des données à grande échelle et donner une certaine appréciation du contenu du système et de la manière dont vous les configurez ensuite avec succès en haut.

Problème 2 du Big Data: Structures de données

Le défi est que tout remonte au début et à la façon dont vous structurez les données pour les rendre accessibles pour une analyse ad hoc et les rendre suffisamment flexibles pour que vous puissiez en extraire certaines choses.

Ce que les entreprises aiment Logiciel Tableau et QlikTech ont montré au monde entier — et aux utilisateurs avancés de Microsoft Excel également — qu'il n'est pas nécessaire d'être un expert en bases de données pour commencer à manipuler des données. de manière ad hoc et en proposant des vues et des informations intéressantes – à condition que lorsque vous avez commencé, l'entrepôt de données soit structuré de manière appropriée. C'est très difficile à réparer après coup.

Le défi aujourd’hui est que la plupart des entrepôts de données d’entreprise considèrent un client ou une entité avec laquelle l’entreprise travaille comme une ligne de données plutôt que comme une colonne. Cette ligne est remplie et mise à jour peut-être quotidiennement avec des vues instantanées ou globales de l'état actuel du client.

Mais vous avez supprimé toutes les données qui vous renseignent sur ce que l'entité individuelle a réellement fait et sur les choses qui se sont accumulées à son sujet au cours de leur relation.

Il est donc beaucoup plus difficile de revenir en arrière en tant que Informations BI et analytiques équipe, récupérez et commencez à créer des modèles prédictifs ou exploitables pour façonner le comportement ou changer la relation que vous entretenez en tant qu'entreprise avec vos clients.

Problème 3 du Big Data: quelles données collecter

C’est un vrai problème et cela fait partie du dialogue très malsain qui a tendance à avoir lieu :
Scientifique des donnéesDonnez-moi simplement les données et je déterminerai ce dont nous aurons besoin.
RéponseEh bien, si vous pouvez me dire exactement ce dont vous avez besoin, nous le trouverons pour vous.
Scientifique des donnéesJe ne saurai pas ce dont j'ai besoin tant que je n'aurai pas tout vu.
RéponseVous voulez vraiment toutes les données ?
Scientifique des donnéesOui, idéalement, nous aurions toutes les données sous leur forme la plus élémentaire.
RéponseNous avons ça sur un lecteur de bande quelque part.

Et ainsi va l’histoire. Le problème que l’on constate souvent est que les données sont collectées et stockées de manière permanente, souvent à des fins de reprise après sinistre.

Mais ce type de stockage à long terme ou étendu perpétue le même schéma qui existe en direct, plutôt que de perpétuer le système. les données sous une forme plus native à laquelle vous pouvez revenir, puis modifier la façon dont vous les traitez par la suite et les apportez en direct. Cela brûle quelle que soit la première réflexion sur la manière dont ces données devraient être utilisées.

Ainsi, les entreprises les plus prospères que j'ai vues sont celles où elles ont un processus d'archivage qui stocke dans un stockage très froid ou lent. les données les plus élémentaires et ne considère pas cela comme un système de reprise après sinistre et dispose ensuite d'un système de reprise après sinistre pour le live actuel système.

C'est le moyen le plus flexible de conserver vos données et de leur donner une valeur future à laquelle vous ne pouviez pas vous attendre auparavant.

Une partie de la clé réside dans le fait que les projets axés sur la science des données ont tendance à nécessiter plusieurs cycles d’historique. Vous en avez besoin pour comprendre ce qui va se passer ensuite d’un point de vue saisonnier. Vous avez besoin d’exemples d’autres événements macro-économiques pour pouvoir les modéliser correctement à l’avenir.

Problème 4 du Big Data: Volumes de données

Pour recueillir des informations — et c'est quelque chose qui n'a essentiellement pas changé avec la révolution du Big Data — il vous suffit d'échantillonner les données de manière représentative. C'est ainsi que vous effectuez des analyses de prototypes et des choses comme ça, et c'est également ainsi que vous pouvez générer de bons rapports.

Mais lorsque vous souhaitez appliquer ces connaissances à l’ensemble de votre entreprise, vous devez pouvoir disposer de cette représentation pour chaque individu. Si vous aviez distillé toutes ces données, vous ne seriez tout simplement jamais capable de le faire. Vous traiteriez les gens en segments ou en groupes plus larges.

Ainsi, du point de vue des informations, échantillonner les données de manière élégante et représentative vous rendra les informations accessibles. Ensuite, si vous n’avez pas conservé les données pour chaque individu, elles ne pourront pas être exploitées de manière individualisée.

Enjeu 5 du Big Data: La technologie

Ce qui est intéressant c'est que Hadoop est idéal pour le traitement en mode batch à grande échelle, ce qui correspond à des opérations comme l'agrégation ou le comptage. Le problème est que Hadoop n’est pas du tout une technologie en temps réel ou très dynamique.

L'exécution de requêtes sur un cluster Hadoop a tendance à avoir une latence assez importante car vous devez distribuer sur chaque exécution de requête individuelle, puis vous effectuez votre étape de réduction, qui ramène toutes ces données ensemble. Il s'agit donc d'une technologie à haut débit mais à forte latence.

Le complément à une technologie comme celle-là est Storm de Twitter, qui est davantage une capacité de traitement distribué dans le flux de données. IBM disposait d'une première technologie dans ce domaine, qui est maintenant très bien produite sous le nom d'InfoSphere Streams.

Mais cela a aussi le même type d'idée, à savoir que parfois j'ai un flux de données très volumineux et je je dois être capable de prendre des décisions à ce sujet avant de mettre ces données dans un référentiel et de commencer à calculer agrégats.

Je souhaite pouvoir effectuer certaines manipulations et détections d'événements en flux afin que Storm et InfoSphere Streams et certaines de ces technologies soient le complément idéal d'un débit élevé mais d'une latence élevée.

Ces types ont un débit élevé, une latence très faible mais une complexité moindre en termes de choses que vous pouvez faire. Vous ne pouvez pas faire très facilement du machine learning sur un flux de données, par exemple.

Problème 6 du Big Data: Ressources

C'est l'expérience de beaucoup d'entreprises — il y a beaucoup d'investissement mais il est très difficile d'obtenir de véritables connaissances exploitables. L’un des moyens de résoudre ces problèmes est d’externaliser votre BI ou votre intelligence marketing et de penser que vous pouvez obtenir l’échelle que vous souhaiteriez avoir à l’intérieur.

Mais le problème est que cela cache simplement le fait que vous avez besoin de beaucoup de personnes externes, tout comme vous auriez besoin de beaucoup de personnes internes pour résoudre ces problèmes. Il ne s'agit pas nécessairement d'une évolution technologique.

Nous nous sommes donc concentrés sur la façon dont la technologie peut nous aider à faire évoluer ces informations exploitables et ces actions individualisées. Retirez-le en partie du contrôle de l'entreprise, mais fournissez un service technologique qui offre cette valeur sans avoir besoin de beaucoup de mains humaines.