Две новые общедоступные версии Azure Analytics, одна предварительная версия и большой шаг вперед к SQL DW.

  • Oct 30, 2023

Сегодня Azure Data Explorer и Azure Data Lake Storage Gen2 стали общедоступными. Потоки визуальных данных в фабрике данных Azure запускаются в виде общедоступной предварительной версии, и Microsoft рекламирует основные преимущества цены и производительности для хранилища данных SQL Azure.

Сегодня Microsoft делает множество анонсов данных Azure, как на фронте озера данных, так и на фронте хранилища данных.

Во-первых, Microsoft Обозреватель данных Azure (ADX) продукт выпускается в общедоступную версию (GA). ADX, о котором я писал буквально на прошлой неделе, представляет собой платформу для хранения, запросов и визуализации больших данных, обладающую особыми возможностями для анализа временных рядов.

Также читайте: Fastly, партнер Microsoft по аналитике в реальном времени с помощью Azure Data Explorer

Магазин (data Lake) открыт для бизнеса.

Следующий, Azure Data Lake Storage (ADLS) Gen2 сегодня также появится в GA. В отличие от первоначальной версии ADLS, версия Gen2 представляет собой расширенную версию ADLS.

Хранилище BLOB-объектов Azure, но поверх него накладывается настоящая иерархическая файловая система, а также возможность обрабатывать файлы произвольного размера. Иерархические файловые системы имеют первоклассную поддержку структур папок. Это важно в приложениях больших данных, где данные часто разделяются на группы файлов последовательностей, разделенных между собой. по папкам, что требует операций на уровне папок, которые могут рассматривать все файлы в папке как единую единицу данные.

Стандартные облачные системы хранения объектов хранят все файлы в контейнере корневого уровня и создают «иллюзию» папок, внедряя имена каталогов в метаданные файлов. Доступность ADLS Gen2 по сути предоставит Microsoft двухуровневое решение для хранения данных, позволяющее противостоять Amazon S3. В то время как универсальная история Amazon имеет преимущество в простоте, ADLS дает Microsoft отличный инструмент для работы с большими данными. решение, основанное на технологии хранилища объектов, а не полностью отдельное решение. продукт.

В этом первом выпуске файловые системы ADLS Gen2 не будут иметь обратной совместимости с API-интерфейсами хранилища BLOB-объектов, но это будет добавлено позже. Кроме того, существует множество прямой поддержки Gen2. Например, Апач Хадуп 3.2, выпущенная в прошлом месяце, предлагает прямая поддержка ADLS Gen2. Различные поставщики экосистемы больших данных, в том числе Клаудера, Дремио и Данные Аркадии, также присоединились к ADLS. А в мире Microsoft существуют многочисленные облачные службы данных, в том числе Блоки данных Azure, HDInsight, Power BI и Фабрика данных Azure, а также напрямую поддерживать ADLS Gen2.

Давайте посмотрим визуально

Говоря о фабрике данных Azure (ADF), эта служба теперь будет предлагать возможность визуального потока данных в общедоступной предварительной версии. Хотя ADF в течение некоторого времени предоставлял визуальный дизайнер для оркестраций, которыми он управляет, фактическую работу по обработке данных приходилось выполнять во внешних сценариях, которые мог запускать ADF. Потоки визуальных данных позволят выполнять саму работу по инжинирингу данных в визуальном дизайнере, который будет генерировать код «за кулисами».

Также читайте: Фабрика данных Azure v2: практический обзор

Потоки визуальных данных ADF не следует путать с функцией потока данных в Power BI, общедоступная предварительная версия которой была объявлено три месяца назад. Потоки данных Power BI — это облачная реализация решения компании. Мощность запроса технология, которая также позволяет выполнять работу по визуальному проектированию данных (под названием «подготовка данных»), а также генерирует код (на собственном языке Microsoft, называемом М) сделать это. Конфликт имен достоин сожаления, но, надеюсь, Microsoft исправит его.

Потоки данных Power BI незаметно используют хранилище ADLS Gen2.

Отгрузка со склада

Последний выпуск сегодняшних объявлений Microsoft об облачных данных включает в себя Хранилище данных SQL Azure (SQL DW) и, в меньшей степени, Power BI. В двух раундах эталонных тестов, проведенных ГигаОм Исследования (см. раскрытие в конце этого поста), Azure DW оказалась на 67 процентов быстрее, чем Амазонка Редшифт и до 14 раз быстрее, чем Google BigQuery. Microsoft начнет активно продвигать эту новость и будет рекламировать свое общее преимущество цены и производительности перед публичным облаком. конкурентов провайдеров хранилищ данных, подытоживая, что они превосходят конкурентов до 14 раз при доле до 94 процентов. более дешевый.

Сравнение цены и производительности SQL DW, Redshift и BigQuery на основе тестов Gigaom.

Кредит: Microsoft и Gigaom

Также читайте: Хранилище данных SQL Azure «Gen 2»: удар Microsoft по носу Amazon

Microsoft также будет предлагать сочетание экономичной службы SQL DW с Power BI и двух функций, недавно добавленных к последней: композитные модели и агрегаты. Вместе эти две функции позволяют пользователям Power BI хранить агрегированные данные локально в модели Power BI, оставляя более объемные подробные данные во внешнем хранилище. Для конкретной модели данных пользователям Power BI приходилось выбирать между локальным «импортом» и внешним «импортом».ДиректЗапрос" режимы, но теперь их можно смешивать и сочетать. Это делает Power BI способным работать с большими данными, если эти функции включены с помощью внешнего хранилища, например SQL DW.

Молодое поколение

Microsoft запустила версии Data Lake Storage и Data Warehouse «Gen2», а также версию Data Factory «v2». А поскольку Power BI обновляется каждый месяц, этот продукт, возможно, сейчас находится на уровне Gen42.

Также читайте: Cortana Analytics: исправление приза Microsoft за облачную аналитику

Microsoft полностью сосредоточена на облаке, облако полностью сосредоточено на данных, и теперь облако является зрелым. Результат? Стремясь завоевать корпоративное преимущество, основные поставщики общедоступных облаков модернизируют свои услуги передачи данных, чтобы достичь, а затем и превзойти паритет с лучшими локальными предложениями. Это касается не только базовых услуг баз данных, но и хранилищ данных, бизнес-аналитики, инженерии данных и анализа больших данных. Сегодняшний день знаменует собой начало следующей большой главы Microsoft в этой эпической истории.

Раскрытие информации: я сам занимаюсь аналитикой данных и аналитикой в ​​Gigaom, но не участвовал в тестировании SQL DW.