Як компанія Apache Spark Databricks запускає хмарну автоматизацію

  • Sep 03, 2023

Фірма, заснована творцями фреймворку обробки даних Spark у пам’яті, вдосконалила свою розміщену платформу, щоб скоротити час, витрачений на розробку та керування складними робочими навантаженнями.

Дивись також

Генеральний директор Databricks: чому так багато компаній захоплені Apache Spark

Читайте зараз

Apache Spark компанії Databricks оновила свою хмарну платформу за допомогою функції, яка дозволяє компаніям керувати виробничими потоками для виконання робочих навантажень Spark без втручання людини.

Компанія, заснована в 2013 році творцями Різні компоненти Spark, каже, що нова функція Jobs підтримує створення виробничих конвеєрів за допомогою ноутбуків Databricks Cloud, а також автономних програм, які використовують структуру обробки даних Spark в пам’яті.

Завдяки цій можливості переходу від дослідницьких до виробничих робочих навантажень Databricks вважає, що функція Jobs скоротить час, витрачений на розробку, планування та керування складними робочими навантаженнями Spark.

Глава інженерного відділу Databricks Алі Годсі сказав, що компанія працювала над функцією Jobs протягом деякого часу через труднощі забезпечення належної роботи інтерактивного дослідження, співпраці та виробництва разом.

«Ви можете взяти свій блокнот і сказати: «Добре, я хочу, щоб цей блокнот, який я щойно розробив в інтерактивному режимі, переглядав усі нові дані, які надходять кожні дві години. Я хочу, щоб ви запустили для мене кластер такого конкретного розміру, отримали достатньо машин для цього кластера, налаштуйте це для мене, запускайте це завдання або блокнот кожні дві години та викидайте результати десь в іншому місці, - він сказав.

Після того, як робоче навантаження запущено в робочому стані, користувачі можуть отримувати сповіщення електронною поштою з повідомленнями про проблеми.

«Якщо ви отримаєте електронний лист, ви можете будь-коли знову повернутися до інтерфейсу користувача та переглянути результат кожного з цих запусків завдання. Ви можете натиснути на нього, щоб побачити його результат, і приємно те, що ви знову отримаєте цей блокнот назад», - сказав Годсі.

Прочитай це

Генеральний директор ClearStory: як Apache Spark допомагає надати аналітику пересічному Джо

Читайте зараз
«Якщо ви збентежені результатом якоїсь роботи або щось виглядає дивним, або ви просто хочете копнути глибше, ви можете використовувати цей блокнот так само, як ви можете виконати інтерактивне дослідження для налагодження: «Чому цей вивід тут виглядає так чи що, якщо я трохи зміню запит тут?'. Це надає вам дуже гарний спосіб поєднання інтерактивного режиму з робочим».

Spark розпочався в 2009 році як дослідницький проект Каліфорнійського університету в Берклі зі створення кластерної обчислювальної інфраструктури для вирішення цільових робочих навантажень, які погано обслуговуються Hadoop. Він став відкритим вихідним кодом у 2010 році, а його вересневий випуск 1.1 налічував понад 170 учасників.

«Spark — це двигун, який набагато швидший за Hadoop. Він має дуже простий API, який дозволяє програмістам використовувати його, пишучи дуже мало рядків коду порівняно з Hadoop, і, нарешті, це один з його головних сильних сторін — він об’єднує багато різних моделей, для яких інакше довелося б використовувати багато різних систем», — Ґодсі сказав.

«Отже, якщо ви хочете робити скринінг у реальному часі або SQL-запити, або машинне навчання, або просто базову обробку необроблених даних, ви б до Spark використовували інші системи. Але Spark дозволяє зробити це дуже природно в одній структурі».

Годсі сказав, що творці Spark створили Databricks Cloud, яка була представлена ​​в червні минулого року, тому що, щоб розпочати роботу з будь-яким із цих фреймворків, навіть із Spark, користувачам потрібно пройти через багато перешкод.

«Ви повинні створити кластери – це може зайняти півроку. Ви повинні їх налаштувати. Ви повинні працювати з операціями, щоб отримати це. Після того, як ви встановили Spark, Spark стане лише двигуном. Вам все ще потрібен спосіб інтерактивного вивчення даних. Вам потрібен якийсь інтерактивний операційний інструмент, де ви можете просто сидіти і писати ці речі", - сказав він.

Годсі сказав, що страх перед блокуванням лежить в основі відносної невдачі платформи як послуги порівняно з інфраструктурою як послугою, яка була надзвичайно успішною.

«Якщо ви дасте їм якийсь API і скажете: «Використовуйте цей API», і він є пропрієтарним, а не з відкритим кодом, вони скажуть: «Це не варіант». Навіщо мені складати всі свої яйця в цей кошик?». Це одна з ключових речей Databricks Cloud. Spark є відкритим кодом. Ось чому ми інвестуємо великі кошти в Spark з відкритим кодом. У Databricks Cloud немає блокування. Це не наш приватний API чи обчислювальний механізм. Ви можете взяти його та змусити його працювати на Spark з відкритим кодом. Ви можете взяти його і запустити на prem", - сказав Годсі

Функцію Databricks Cloud Jobs було запущено цього тижня на першому саміті Spark Summit East у Нью-Йорку.

Більше про великі дані

  • Подивіться, що Google і Amazon роблять із базами даних: це ваше майбутнє
  • Dataminr залучає 130 мільйонів доларів для розширення корпоративних вертикалей аналітики Twitter
  • Як Facebook прискорює механізм запитів Presto SQL
  • Juniper Networks розробляє стратегію Інтернету речей для центрів обробки даних
  • BI-стартап Looker вкладає 30 мільйонів доларів у розширення
  • WANdisco підтримує платформу відкритих даних, оскільки дебати щодо Hadoop розгортаються
  • Керівник Hortonworks: чому настав час прийняти жорсткі рішення Hadoop