Прогноз даних 2022, частина друга: Реальність байтів сітки даних

  • Sep 03, 2023

Меші даних вже привертають увагу постачальників, що призводить до відновлення інтересу до структур даних.

Наш погляд на мережу даних минулого року викликало такий резонанс, що ми знали, що ця тема заслуговує окремого погляду в 2022 році.

Згідно з Google Trends, «сітка даних» була однією з тем, які зламав інтернет у 2021 році - навіть більше, ніж "data lakehouse". Однак це тема, яка стосується болючої точки: ми кидаємо все сортує дані в озера даних або інші резервуари, потім ми втрачаємо їх слід або неадекватно використовуємо та керуємо їх.

Великі дані

  • Як дізнатися, чи причетні ви до витоку даних (і що робити далі)
  • Боротьба з упередженнями в ШІ починається з даних
  • Чесний прогноз? Як 180 метеорологів надають «досить хороші» дані про погоду
  • Терапія раку залежить від запаморочливої ​​кількості даних. Ось як це сортується в хмарі

Після кількох років інкубації ми очікуємо, що сітки даних піддадуться першій серйозній перевірці.

Data mesh – це ідея, яка, залежно від того, з ким ви розмовляєте, була автором

Марк Бейер в Gartner або Жамак Дехгані у Thoughtworks. До речі, обидва вони використали той самий термін і обидва звертаються до роз’єднання, яке виникає, коли ви накопичувати величезні масиви даних, а потім намагатися з’ясувати, кому вони належать і як до них можна отримати доступ керований. Але це майже все вони мають спільне.

Концепція Gartner більше стосується моделювання організації метаданих за принципами, подібними до фізичних сітчастих мереж. Запозичуючи натхнення з Закон Меткалфа, оскільки кількість «вузлів» метаданих у сітці даних зростає, тим більш повно сформованими стають метадані (можлива певна форма самонавчання ШІ). З огляду на те, що дослідження Gartner застрягли за платним екраном, не дивно, що концепція, розроблена в Thoughtworks, зайняла розмову. Він базується на підходах до життєвого циклу доменів, що самоорганізуються розглядаючи дані як продукти, беручи у власність усе, від конвеєрів даних до управління та безпеки. Роблячи це, команди розглядають свої дані ширше, аніж просто створюють конвеєри чи впорядковують набори даних.

Меші даних вирішують низку обґрунтованих проблем щодо обмежень низхідного керування або власності на дані. Але на даний момент, як концепція, сітки даних ще не повністю конкретизовані, особливо коли йдеться про самообслуговування чи федеративне управління. Загальне уявлення про сітки даних полягає в тому, що домени з відповідним предметним досвідом мають бути тими, хто володіє даними та керує ними від колиски до могили. Це висхідний підхід до управління даними та управління, який теоретично має покращити підзвітність. Негативна сторона полягає в тому, що без належного керування сітками даних можуть розширюватися або розповсюджуватися накопичені дані, що призведе до марнотратства, дублювання та неузгодженого управління та керування.


також: Сітка даних: чи варто спробувати це вдома?


Ми не вважаємо, що сітка даних достатньо визначена для роботи між підприємствами, але ми вважаємо, що сітка даних може виявитися ефективною, якщо її впровадити в більш скромному масштабі. Зокрема, коли вони реалізуються між командами, які вже мають спільний контекст, який може виникнути з історії співпраці та/або зі спільного, суміжного або дублюючого предмета експертиза. На підприємстві ми могли б передбачити групи сіток даних, що виникають навколо цілеспрямованих дисциплін, таких як взаємодія з клієнтами, управління ланцюгом поставок, розробка продукту тощо.

Дотепер опубліковані роботи щодо сіток даних були загалом позитивними, і ми очікуємо, що постачальники в просторі даних «промиватимуть» свої продукти у 2022 році. Ми говоримо про бази даних, BI, управління, ELT/перетворення даних, каталогізацію даних, об’єднання запитів і управління життєвим циклом інформації. Постачальники розміщуватимуть маркетингові повідомлення, щоб показати, як їхні пропозиції можуть підтримувати команди, які створюють мережі даних. Так, навіть буде віртуальна конференція станеться швидше, ніж ви думаєте.

Але майте на увазі, що сітка даних — це процес і архітектурний підхід, який делегує відповідальність за конкретні набори даних «доменам», які мають необхідний предметний досвід. Сітка даних не є технологією. Сподіваємось, постачальники не піддадуться акулі та позиціонуватимуть свої пропозиції як сітка данихпродуктів.

Рекомендовані

  • Чи Windows 10 надто популярна?
  • 5 способів знайти найкраще місце для початку кар’єри
  • Ось як генеративний ШІ змінить економіку концертів на краще
  • 3 причини, чому я віддаю перевагу цьому Android за 300 доларів, ніж Pixel 6a від Google

Наше відчуття неминучої негативної реакції випливає з численних приватних повідомлень, які ми отрималиo наша публікація в LinkedIn які є тизером до опублікованого тут. Суть цих повідомлень полягала в тому, що сітки даних можуть загострити проблеми, які вже існують на більшості підприємств. Ми вважаємо, що це дуже обґрунтоване занепокоєння.

Навіть якби сітки даних як концепція були повністю конкретизовані та куленепробивні, ознакою того, що ідея сприймається серйозно, є ступінь громадського контролю. І тому той факт, що виникає зворотна реакція, насправді є відображенням того, наскільки сітки даних потрапили в реальну точку болю.

Але є й інший кікер: сітки даних часто порівнюють з мережами даних. Інтерфейси даних призначені для сприяння доступу до даних у логічних і фізичних сховищах, тому ми вважаємо, що порівняння сіток даних і мереж даних є помилковою дихотомією.

Тримай цю думку.

Проблема полягає в тому, що визначення структури даних досить туманне. Спробуйте цей від NetApp: «Серцем структури даних є інтегрована архітектура даних, яка є адаптивною, гнучкою та безпечною. У багатьох відношеннях мережа даних — це новий стратегічний підхід до роботи зі сховищем у вашому підприємстві, який розблоковує найкраще з хмари, ядра та периферії». Для вас цього достатньо нечітко? Для наших цілей ми просто скажемо, що структура даних починається із загальної об’єднавчої панелі метаданих, тому, коли різні команди описують свої продукти даних, усі вони говорять зі спільного музичного листа.

Ось ще одне передбачення, яке підкреслює, що сітки даних і структури даних насправді мають синергію: ми очікуємо, що спільні метадані об’єднавчі панелі стануть сплячою проблемою цього року, відповідаючи на потребу зрозуміти всі дані, особливо коли вони накопичуються в хмара.

Вам може не знадобитися сітка даних, щоб розпочати створення структури даних. Але якщо ви плануєте започаткувати ініціативу сітки даних, навіть не думайте обійтися без певної форми структури даних.

Це друга частина нашого огляду даних на 2022 рік. Натисніть тут, щоб переглянути першу частину, де ми пропонуємо наш погляд на конвергенцію потокового передавання в реальному часі, машинне навчання та керування даними.

ZDNET Рекомендує

5 найкращих служб VPN (і поради щодо вибору того, що підходить саме вам)
Найкращі генератори штучного інтелекту: DALL-E 2 та інші цікаві альтернативи
Найкращі телефони Android, які ви можете придбати (включаючи несподіваний вибір)
Найкращі комбіновані роботи-пилосос і швабра (і чи варті вони грошей)
  • 5 найкращих служб VPN (і поради щодо вибору того, що підходить саме вам)
  • Найкращі генератори штучного інтелекту: DALL-E 2 та інші цікаві альтернативи
  • Найкращі телефони Android, які ви можете придбати (включаючи несподіваний вибір)
  • Найкращі комбіновані роботи-пилосос і швабра (і чи варті вони грошей)