Due nuove versioni GA di analisi di Azure, un'anteprima e un grande impulso su SQL DW

  • Oct 30, 2023

Azure Data Explorer e Azure Data Lake Storage Gen2 hanno raggiunto oggi la disponibilità generale. Visual Data Flows in Azure Data Factory viene lanciato come anteprima pubblica e Microsoft pubblicizza importanti vantaggi in termini di prezzo/prestazioni per Azure SQL Data Warehouse.

Microsoft sta facendo oggi una serie di annunci sui dati di Azure, sia sul fronte del data Lake che del data warehouse.

Innanzitutto, quello di Microsoft Esplora dati di Azure (ADX) il prodotto è in fase di disponibilità generale (GA). ADX, di cui ho scritto proprio la scorsa settimana, è una piattaforma di archiviazione, query e visualizzazione di Big Data, con un talento speciale per l'analisi delle serie temporali.

Leggi anche: Microsoft collabora rapidamente all'analisi in tempo reale con Azure Data Explorer

Il negozio (data Lake) è aperto

Prossimo, Azure Data Lake Storage (ADLS) Gen2 colpisce GA anche oggi. A differenza della versione iniziale di ADLS, la versione Gen2 funziona come un superset di Archiviazione BLOB di Azure

, ma sovrappone un vero file system gerarchico, insieme alla capacità di gestire file di dimensioni arbitrarie. I file system gerarchici hanno un supporto di prima classe per le strutture delle cartelle. Ciò è importante nelle applicazioni Big Data in cui i dati vengono spesso partizionati come gruppi di file di sequenza separati per cartella, rendendo necessarie operazioni a livello di cartella in grado di trattare tutti i file in una cartella come una singola unità di dati.

I sistemi di archiviazione di oggetti cloud standard mantengono tutti i file in un contenitore a livello di root e creano "l'illusione" delle cartelle incorporando i nomi delle directory nei metadati dei file. La disponibilità di ADLS Gen2 fornirà essenzialmente a Microsoft una soluzione di archiviazione a due livelli per contrastare S3 di Amazon. Mentre la storia unica di Amazon ha il vantaggio della semplicità, ADLS offre a Microsoft un grande Big Data soluzione e una soluzione basata sulla tecnologia di archiviazione oggetti, anziché essere completamente separata Prodotto.

In questa prima versione, i file system ADLS Gen2 non avranno compatibilità con le versioni precedenti con le API di archiviazione BLOB, ma questa funzionalità verrà aggiunta in seguito. Inoltre, c'è molto supporto diretto per Gen2, già pronto. Per esempio, Apache Hadoop 3.2, rilasciato il mese scorso, offre supporto diretto per ADLS Gen2. Vari fornitori di ecosistemi Big Data, inclusi Nuvola, Dremio E Dati dell'Arcadia, si sono impegnati anche a favore dell'ADLS. E nel mondo Microsoft, numerosi servizi dati cloud, tra cui Databricks di Azure, HDInsight, Potenza BI E Fabbrica dati di Azure, supportano direttamente anche ADLS Gen2.

Diventiamo visivi

Parlando di Azure Data Factory (ADF), quel servizio offrirà ora una funzionalità di flusso di dati visivi, in anteprima pubblica. Sebbene ADF fornisca da tempo un visual designer per le orchestrazioni che gestisce, il lavoro effettivo di ingegneria dei dati doveva essere svolto in script esterni che ADF poteva eseguire. I flussi di dati visivi consentiranno di svolgere il lavoro di ingegneria dei dati in un visual designer, che genererà il codice dietro le quinte.

Leggi anche: Azure Data Factory v2: panoramica pratica

I flussi di dati visivi ADF non devono essere confusi con la funzionalità del flusso di dati in Power BI, la cui anteprima pubblica era annunciato tre mesi fa. I flussi di dati di Power BI sono un'implementazione cloud dell'azienda Domanda di potenza tecnologia, che consente anche di eseguire lavori di ingegneria visiva dei dati (sotto il soprannome di "data prep") e che genera anche codice (in un linguaggio proprietario di Microsoft chiamato M) per farlo. La collisione del nome è un peccato, ma si spera che Microsoft lo risolva.

Per quello che vale, i flussi di dati di Power BI utilizzano l'archiviazione ADLS Gen2, dietro le quinte.

Spedizione dal magazzino

L'ultima puntata della serie di annunci relativi ai dati cloud di Microsoft oggi riguarda Data Warehouse SQL di Azure (SQL DW) e, in misura minore, Power BI. In due cicli di test benchmark effettuati da Ricerca GigaOm (vedere l'informativa alla fine di questo post), Azure DW è risultato essere il 67% più veloce rispetto a Amazon Redshift e fino a 14 volte più veloce di Google BigQuery. Microsoft darà il via a una forte spinta attorno a questa notizia e promuoverà il suo vantaggio complessivo in termini di prezzo/prestazioni rispetto al cloud pubblico concorrenti dei fornitori di data warehouse, riassumendo che supera la concorrenza fino a 14 volte pur essendo fino al 94% più economico.

Confronto prezzo/prestazioni di SQL DW, Redshift e BigQuery, basato sui benchmark Gigaom.

Credito: Microsoft e Gigaom

Leggi anche: Azure SQL Data Warehouse "Gen 2": il colpo di Microsoft sulla prua di Amazon

Microsoft proporrà inoltre la combinazione del servizio SQL DW a basso costo/prestazioni con Power BI e due funzionalità recentemente aggiunte a quest'ultimo: modelli compositi E aggregazioni. Insieme, queste due funzionalità consentono agli utenti di Power BI di archiviare dati aggregati localmente in un modello Power BI lasciando i dati di dettaglio più voluminosi in un archivio esterno. Per un determinato modello di dati, gli utenti di Power BI dovevano scegliere tra "importazione" locale ed "esterno"DirectQuery", ma ora possono mescolarsi e abbinarsi. Ciò rende Power BI compatibile con Big Data quando le funzionalità sono abilitate tramite l'uso di un archivio esterno come SQL DW.

La generazione più giovane

Microsoft ha ora lanciato le iterazioni "Gen2" di Data Lake Storage e Data Warehouse e un'iterazione "v2" di Data Factory. E con Power BI aggiornato ogni mese, quel prodotto è probabilmente a circa Gen42 ora.

Leggi anche: Cortana Analytics: correzione del prezzo di analisi cloud di Microsoft

Microsoft punta tutto sul cloud, il cloud punta sui dati e il cloud è ormai maturo. Il risultato? Nel tentativo di conquistare il mercato Enterprise, i principali fornitori di cloud pubblico stanno potenziando i propri servizi dati per raggiungere, e poi superare, la parità con le migliori offerte on-premise. Ciò vale non solo per i servizi di database di base, ma anche per data warehousing, BI, ingegneria dei dati e analisi dei Big Data. La giornata di oggi segna l'inizio del prossimo grande capitolo di Microsoft in quella storia epica.

Divulgazione: io stesso svolgo lavoro di analista incentrato su dati e analisi per Gigaom, ma non sono stato coinvolto nel lavoro di benchmark SQL DW.