Rob Bearden, PDG de Hortonworks: Attention à la fragmentation Hadoop

  • Sep 06, 2023

Le chef d'Hortonworks parle de l'utilisation des distributions Hadoop, d'une stratégie "open core" et de la maîtrise des chiffres du Big Data.

Le PDG d'Hortonworks, Rob Bearden, a une mission simple: développer les marchés Hadoop et Big Data avec une forte dose d'open source, et la santé financière de l'entreprise suivra ensuite.

Au milieu des développements actuels de Hadoop, existe-t-il une entreprise qui ne lance PAS de distribution avec des logiciels à valeur ajoutée? Hortonworks se démarque. Pourquoi? Hortonworks confie l'intégralité de sa distribution au projet open source Apache.

Hortonworks, qui a été essentiellement créé avec l'équipe de Yahoo qui a popularisé Hadoop en premier lieu, a également été un peu en difficulté cette année. L'entreprise se développe en Europe, complète son équipe de direction avec de nouvelles recrues et a créé une distribution Hadoop pour Windows en version bêta.

J'ai rencontré Bearden, ancien directeur de l'exploitation de SpringSource et de JBoss et cadre d'Oracle, pour discuter boutique la semaine dernière. Voici un aperçu des points forts de ma conversation :

tasse à barbe

Bearden d'Hortonworks.

Sur la stratégie Hortonworks, Bearden a noté que l'idée générale était de développer les fonctions de Hadoop et de les apporter à Apache. La société développe sa distribution Hadoop et la propose à 100 % en open source. "Nous construisons directement dans le tronc principal, produisons le package, effectuons le contrôle qualité et publions", a-t-il déclaré. "Ce n'est pas un modèle à noyau ouvert." Lorsque Bearden fait référence à l'open core, il fait référence à une tendance dans Hadoop distribution où il existe des composants open source mais avec des logiciels propriétaires inclus comme valeur ajoutée. Cette méthode open core est utilisée par Pivotal/EMC, Cloudera et MapR.

Pourquoi Hortonworks ne passerait-il pas au open core ? Bearden a déclaré que l'objectif de Hortonworks est d'accroître la part globale du marché pour Hadoop. En outre, le modèle de revenus de Hortonworks tourne autour du support. En rendant sa distribution 100 % open source, il sert d'essai avant d'acheter un programme de support. "Je pense qu'il est important que nous fassions en sorte que le marché fonctionne rapidement à grande échelle", a déclaré Bearden. Plus précisément, il souhaite créer une plate-forme de données d'entreprise ouverte qui permettra d'élargir le gâteau du Big Data.

Bearden s’inquiète-t-il de la fracture de Hadoop ? En un mot oui. Bearden a noté qu'IBM et EMC n'hésiteraient pas à scinder Hadoop. Pourquoi? Les acteurs informatiques des grandes entreprises doivent prendre autant de contrôle que possible sur les nouveaux ensembles de données (pensez au Big Data). En gérant davantage de données, les géants de l’entreprise peuvent vendre davantage de matériel, de logiciels et de services. "Il est important d'éviter les fractures dans cet espace", a déclaré Bearden. "La manière de mettre un terme à cette fracture est de donner aux entreprises ce qu'elles veulent sur une plateforme ouverte." Bearden a noté que le dernier Les distributions Hadoop ne visent pas directement à fracturer Hadoop, mais la fragmentation est « un effet secondaire de ce qu'elles veulent faire."

Lis ça

  • Plaider en faveur du Big Data
  • Big data: comment la révolution pourrait se dérouler

Caractériser les nouvelles distributions Hadoop revient à choisir une partie d'un mashup. Il existe un mélange de logiciels ouverts et propriétaires. En fin de compte, ces distributions Hadoop mélangées pourraient conduire à un verrouillage puisqu'elles ne sont pas ouvertes à 100 %. Dans l’ensemble, Bearden a déclaré que Hadoop serait fracturé dans une certaine mesure.

Sur les accords de support, Bearden a déclaré qu'une majorité significative de leaders technologiques souhaitent obtenir de l'aide pour leur distribution Hadoop, même si la distribution Hortonworks est sur Apache.

Ce que Hadoop peut et ne peut pas faire. Bearden a déclaré que Hadoop est solide comme plate-forme d'entreprise et couche de stockage pour les données non structurées. "C'est fiable, prévisible et stable", a-t-il déclaré. "Il existe aujourd'hui une véritable fiabilité pour le traitement du stockage à grande échelle." Il faut davantage d'outils pour la gestion des données complexes, mais Bearden s'attend à ce que cette fonctionnalité arrive au cours de l'année prochaine. Là où les visions Hadoop diffèrent, c'est dans le traitement des transactions en temps réel. Le point de vue de Bearden est que le traitement en temps réel prendra plusieurs années, voire jamais. "J'insisterais sur 'si jamais'", a-t-il déclaré. "Nous ne considérons pas Hadoop comme un stockage, un traitement de données non structurées et en temps réel." D'autres sociétés à l'origine des distributions, notamment Cloudera, considèrent le traitement en temps réel comme important. "Pourquoi recréer la roue", demande Bearden. Bien qu'il puisse être intéressant de tenter de bouleverser des sociétés comme IBM, Teradata, Oracle et d'autres acteurs de l'entreposage de données, il est peu probable qu'un petit menu puisse rivaliser. "Je préfère que ma distribution soit adoptée et intégrée de manière transparente dans son environnement", a déclaré Bearden. Par exemple, Hortonworks et Teradata entretiennent un partenariat d'intégration étroit. "Il ne s'agit pas d'un échange et de connecteurs Lego", a déclaré Bearden du partenariat entre Hortonworks et Teradata. "Nous pouvons montrer la gestion des données à tout moment."

Expansion internationale. Hortonworks s'est récemment étendu en Europe, au Moyen-Orient et en Afrique et développe son infrastructure. D’autres mouvements internationaux viendront lentement. "Nous devons d'abord bien faire les choses en Amérique du Nord", a déclaré Bearden. "Nous l'installerons tout près de chez nous, puis mettrons en place l'infrastructure pour suivre le soleil."

En rapport:

  • Lancement de l'initiative pivot d'EMC: vient maintenant la partie exécution
  • EMC lance la distribution Hadoop et vise Cloudera
  • Intel intègre Apache Hadoop dans le silicium pour le Big Data et les utilisations de sécurité
  • Pourquoi les géants du matériel sont satisfaits de la distribution Hadoop