Корпорація Майкрософт просувається вперед із інфраструктурою аналітики великих даних «Prajna» для хмарних служб

  • Oct 30, 2023

Microsoft Research працює над платформою розподіленої аналітики з відкритим кодом під кодовою назвою Prajna, яка схожа на Apache Spark і призначена для створення розподілених хмарних сервісів.

З часів реорганізації One Microsoft редмондці любили кодові назви та концепції, які включають слово «One».

prajnabigdataframework.jpg
приклади: OneSync, OneCore, OneStore, OneGet... і OneNet.

OneNet може бути новим для деяких, хоча, здається, він розроблявся рік або більше. Нещодавно Microsoft змінила кодову назву OneNet на "Prajna".

Prajna/OneNet — це дослідницький проект Microsoft, спрямований на створення розподіленої платформи функціонального програмування для тих, хто хоче створювати хмарні служби, які використовують аналітику великих даних. Це багато модних слів в одному реченні. Дозвольте мені спробувати це трохи розібрати.

Prajna — це головний проект, який розробляє група Cloud Computing and Storage (CCS) Microsoft Research. З опису на веб-сторінці цієї групи:

"На даний момент основним проектом CCS є Prajna, розподілена платформа з відкритим вихідним кодом для створення хмарного сервісу та інтерактивної аналітики великих даних. Prajna можна розглядати як набір SDK на основі .Net, який може допомогти розробнику швидко створювати прототип хмарної служби та писати власні мобільні програми для хмарної служби. Він також має інтерактивні аналітичні можливості розподілених великих даних у пам’яті, подібні до Spark».

Дивись також

Хадуп і Іскра: історія двох міст

Легко захопитися ідеалізмом навколо нової блискучої речі. Але давайте з’ясуємо: Spark не замінить Hadoop.

Читайте зараз

Як Hadoop, Apache Spark — це платформа великих даних із відкритим кодом які можуть працювати зі складною аналітикою. Spark можна використовувати для пакетної обробки, потокової передачі, інтерактивних запитів і робочих навантажень машинного навчання, але не надає власну систему розподіленого зберігання. Hadoop і Spark не виконують абсолютно однакові завдання, і в деяких випадках їх можна використовувати разом.

Компонент "функціонального програмування" Prajna пов'язаний з F#, функціональною мовою програмування .Net. як примітки до нещодавньої оголошення про роботу Microsoft, хоча Prajna написано на F#, його можна використовувати будь-якою мовою .Net.

«Prajna пропонує можливість аналізу даних у режимі реального часу в пам’яті, подібну до Spark (але на платформі .Net), але пропонує додаткові можливості, які дозволяють програмісту легко створювати та розгортати хмарні служби та використовувати служби в мобільних програмах і створювати розподілену програму зі станом (наприклад, розподілене сховище ключів і значень у пам’яті)", це оголошення про роботу додає.

Ан реферат, написаний керівником проекту Prajna зазначив, що Prajna/OneNet, як і Spark, є розподіленою платформою функціонального програмування. Однак команда Microsoft стверджує, що Prajna просуває модель розподіленого функціонального програмування далі, ніж Spark, шляхом «увімкнення багатокластерне розподілене програмування, запуск як керованого, так і некерованого коду, обмін даними в пам’яті між завданнями, потік даних, тощо".

Джин Лі, головний дослідник Праджни, написав: "Я вважаю, що OneNet більш гнучкий і розширюваний, ніж Sparkі революціонізує створення високопродуктивних розподілених програм у майбутньому».

Для зацікавлених, ось репозиторій Github для Prajna.

Prajna — це не перший набіг Microsoft на інфраструктуру розподілених обчислень. Серед інших дослідницьких проектів Microsoft, які стосуються програмування розподілених систем, — DryadLINQ, Наяда і Орлеан. На початку цього року Microsoft зробила код Orleans відкритим кодом.

Говорячи про SCOPE, минулого тижня під час семінару Microsoft Cortana Analytics у Редмонді була цікава згадка про Cosmos, служба Microsoft для обчислення, аналізу та зберігання великих даних. Хоча Cosmos наразі не є зовнішньою (і платною) службою, доступною за межами Microsoft, я почув зі своїх джерел, що компанія планує її зробити.

Минулого тижня на семінарі технічний співробітник Microsoft і керівник розробки великих даних сказав учасникам, що Microsoft все ще планує зробити Cosmos доступним для тих, хто не входить до компанії. (Дивіться твіт від учасника вище.)

Космос складається з кількох частин, включно з механізмом аналізу "Kona", механізмом зберігання "Cabo" та похідною від SCOPE дружньою мовою SQL, відомою як SQL-IP. Представники Microsoft відмовилися сказати, коли я запитав, коли компанія планує зробити Cosmos комерційно доступною службою Azure.