Три теми за големи данни в Strata/Hadoop World NY

  • Oct 19, 2023

Есенният сезон на Big Data е пред нас и Strata+Hadoop World NYC е партито, което излиза. Ще има множество съобщения, но повече от вероятно набор от ключови теми с управляем размер. Ето няколко за разглеждане.

Индустрията за данни излиза от по-бавното лятно темпо и се готви да започне работа с нови продукти, версии и инициативи за есента. Strata+Hadoop World в Ню Йорк, което се провежда следващата седмица, служи като парти за стартиране на новия есенен сезон на индустрията.

Количеството новини за обработка от събитието ще бъде голямо, но голям брой от съобщенията, които ще бъдат направени, ще попаднат в няколко кофи. Мисленето за тези категории сега ще ви помогне да обработите новините следващата седмица, така че нека да разгледаме някои вероятни теми.

Искра vs. Hadoop
искра е голяма тема на много от индустриалните събития през тази и миналата година и няма много смисъл да го изтъкваме отново като тема. Тази година горещият въпрос ще бъде дали бъдещето на Spark е такова, в което той ще бъде разгърнат предимно на Hadoop, или където ще работи в по-самостоятелен режим.

Както писах наскоро, Cloudera вижда Spark и Hadoop като неразделни партньори и работи усилено, за да направи това партньорство по-силно, технологично. Databricks, компанията, чиито основатели създадоха Spark, вижда независимата идентичност на технологията като по-важна. Всъщност Databricks вчера публикува резултатите от a изследване той проведе, че според компанията показва, че броят на самостоятелните клъстери на Spark е надвишил броя на базираните на Hadoop клъстери, работещи със Spark.

Разбира се, Databricks Cloud, хостваното от компанията предложение на Spark, само по себе си работи независимо от Hadoop, така че валидирането на тази архитектура е в интерес на компанията. А за потребители, които тепърва започват със Spark, самостоятелната конфигурация вероятно е по-лесна за работа, така че не е така изненадващо е, че в ранните етапи на пазара на технологията броят на наблюдаваните самостоятелни клъстери е относително Високо.

Мейнстрийминг...стрийминг
Докато Big Data може да е преминал своя цикъл на реклама, IoT (Интернет на нещата) със сигурност не е. И освен ако не се интересувате от сложността на изграждането на сензори или писането на кода, за да ги разчетете, тогава IoT наистина е свързано с поточно обработване на големи данни. Дори ако IoT не е проблем, правенето на анализи в реално време е. Така нареченият Ламбда архитектура, който се стреми да съчетае стрийминг/в реално време и пакетна обработка на данни в една среда за заявки и анализи, набира скорост.

Всичко това е добре, но пейзажът на платформите за стрийминг на данни с отворен код (включително Буря, Spark Streaming и Флинк), както и субстрата за обработка на съобщения под него (включително Кафка, RabbitMQ и множество собствени локални и базирани на облак решения) е объркващо.

Дори когато платформата се разтърси, все още има въпрос тези решения да бъдат по-лесни за използване. Много сме далеч от това и това изглежда следващият вероятен регион от празно пространство, който индустрията може да запълни.

Управление на данните
Хълмовете са живо със звука на...управление? Вярно е. Потекло на данни, фина сигурност, управление на качеството на данните, управление на метаданни и възможност за одит на администрацията от тези функции, както и общата дейност по заявки и манипулиране на данни, се превърнаха в приоритет за доставчиците и за купувачи.

Причислете това към златната треска за продажбите и приемането на Enterprise, след това погледнете назад и осъзнайте колко нелепо е, че това не беше вече е приоритет и ще започнете да усещате спешността тук. Големите компании имат големи регулаторни задължения относно своите данни и функциите за управление трябва да са налице, за да се осигури съответствие.

Тази тема е толкова важна, че някои доставчици може да се съсредоточат върху управлението, дори и да нямат големи нови възможности за обявяване. Защо? Защото продавачите искат клиентите им да знаят, че мислят за това. Емпатията е важна.

Какво друго?
Мразя да ходя в Javits Center. Намира се чак в западния край на Мидтаун...това, което някога е било много мръсна част от Манхатън. Винаги беше трудно да се стигне и до него, особено в пиковите часове, когато такситата бяха оскъдни. Но ако се качите на автобус M34, който направи последната си спирка в Javits, можете да го накарате да работи. За щастие обаче най-накрая New York City Transit отвори нова метростанция, на линия #7, точно при Javits. Изчакайте достатъчно дълго и нещата ще се опростят.

По подобен начин светът на Големите данни бавно измества собствения си фокус от скромната цел да направи определени анализи възможни към по-дръзката цел да ги направи лесни (или поне по-лесни). Този цялостен етос е в основата на всички горни три теми. Микропакетната архитектура на Spark прави обработката на данни по-лесна от партидната архитектура на MapReduce. Внасянето на поточно предаване на данни в основния поток прави анализите в реално време по-лесни. Управлението прави съответствието по-лесно.

В крайна сметка анализът на данни прави бизнеса по-лесен, дори забавен. За съжаление, това не е дума, която някога бих приложил, за да отида в Javits.