Более пристальный взгляд на IBM AutoSQL

  • Sep 07, 2023

IBM дополняет свою платформу гибридной аналитики Cloud Pak for Data новыми возможностями, доступными к озеру данных и закладывающими основу для управления.

x-ткань-галактика.jpg

В рамках шквала анонсов этого года IBM ДУМАЙ конференции IBM объявила о крупном обновлении Облачный пакет для данных это предоставляет больше возможностей для потребления и управления данными на разных этапах жизненного цикла. Как Ларри Дигнан накрыл это вчераAutoSQL лежит в основе новых возможностей распределенного запроса данных, расширяя Cloud Pak для Доступ данных за пределы исходного предварительно упакованного хранилища данных в облачные объектные хранилища и другие реляционные хранилища. базы данных.

AutoSQL — это одна из нескольких возможностей, представленных в Cloud Pak for Data наряду с AutoCatalog, которая автоматизирует обнаружение данных и поддерживает их в режиме реального времени. инвентаризация активов данных и AutoPrivacy, которая использует машинное обучение для автоматизации обозначения конфиденциальных данных и облегчения обеспечения защиты конфиденциальности. политики. Объединение всего этого вместе представляет собой архитектурный шаблон, который IBM называет

интеллектуальная структура данных который предоставляет API и интеграцию для автоматизации управления данными от обнаружения до запроса и управления/соответствия. Кстати, не путайте это с одноименный сервис который планирует и автоматизирует запросы к MySQL.

IBM описывает AutoSQL как универсальный механизм запросов. Самый простой способ описать его — это механизм распределенных запросов для вашего ландшафта данных, или, по сути, подход IBM к Дом у озера данных. То есть данные могут находиться в собственном хранилище данных Cloud Pak for Data или озере данных, внешних хранилищах данных или в объектном хранилище в других облаках. Запросы передаются к источнику, а не обычным методом перемещения данных в ядро ​​базы данных (которое в противном случае выполняло бы запросы). Он получает доступ к базам данных, озерам данных (например, облачным хранилищам, таким как S3, Azure ADLS, облачному хранилищу Google или другим хранилищам объектов) и потоковым данным.

Основная идея AutoSQL заключается в том, что вы размещаете запрос и не беспокоитесь о том, как его настроить для выполнения. против данных, которые находятся в разных средах, локально или в общедоступном облаке, и могут работать в петабайтах шкала. IBM работала над различными схемами кэширования и ускорения для ускорения обработки запросов. Оптимизация и настройка запросов — все это внутри черного ящика.

Механизм запросов AutoSQL объединяет возможности примерно полудюжины механизмов SQL IBM, созданных для Дб2, Нетезза, БигSQL для Hadoop и других. И он предлагает возможность запуска пакетных заданий с помощью Spark. По сути, это ответ IBM на Azure Synapse Analytics, который также обеспечивает выбор обработки SQL или Spark. IBM различает AutoSQL и Cloud Pak for Data как не зависящие от облака, а не как облачные. Azure Synapse, который работает только в облаке Microsoft.

Являясь частью архитектуры фабрики данных, AutoSQL работает с AutoCatalog. Часть обнаружения означает согласование данных с бизнес-терминами — именно здесь на помощь приходит AutoCatalog. Каталог может генерировать язык описания данных (DDL), который AutoSQL может использовать для создания хранилищ данных для сохранения результатов. Это может иметь решающее значение, особенно при работе с общедоступными облаками, в которых взимается плата за исходящие данные. где может быть целесообразнее сохранять результаты частых запросов в промежуточных данных магазин. В мультиоблачной среде, где вы хотите свести к минимуму перемещение данных из разных облаков, такие хранилища данных могут стать физическим экземпляром материализованных представлений данных.

AutoSQL — это первый шаг к расширению возможностей Cloud Pak for Data. Он расширил возможности встроенного хранилища данных Cloud Pak for Data на более широкий мир озер данных. Объединив возможности различных механизмов SQL IBM и работая в Spark, AutoSQL, IBM ставит запросы к хранилищам данных и озерам данных (облачным хранилищам) на равных условиях. Мы хотели бы видеть более тесную интеграцию с Потоки событий IBM – с возможностью запуска SQL-запроса к данным в реальном времени в движении. Учитывая, что IBM позиционирует AutoSQL как способ масштабирования запросов к нескольким источникам данных, у нас есть пара вопросов. А как насчет запроса данных на периферии — находятся ли данные в локальной базе данных внутри завода или в результате агрегирования результатов анализа, проводимого на удаленных устройствах в полевых условиях? Или, перевернув уравнение, в облачном мире, где вычисления отделены от хранилища, как насчет нескольких вычислительных механизмов, которые обращаются к одним и тем же данным? Вот ответы, которые мы ожидаем услышать от IBM в ближайшие месяцы.

Большие данные

Как узнать, причастны ли вы к утечке данных (и что делать дальше)
Борьба с предвзятостью в сфере ИИ начинается с данных
Честный прогноз? Как 180 метеорологов предоставляют «достаточно хорошие» данные о погоде
Лечение рака зависит от головокружительных объемов данных. Вот как это сортируется в облаке
  • Как узнать, причастны ли вы к утечке данных (и что делать дальше)
  • Борьба с предвзятостью в сфере ИИ начинается с данных
  • Честный прогноз? Как 180 метеорологов предоставляют «достаточно хорошие» данные о погоде
  • Лечение рака зависит от головокружительных объемов данных. Вот как это сортируется в облаке