Databricks udruller datadeling, automatiserede pipelines, datakatalog

På Data + AI Summit udruller Databricks sine nye Delta Sharing, Delta Live Tables og Unity Catalog-initiativer. For nu er det kun Delta Sharing, der er open source, da virksomheden ser ud til at udfylde sin platform med alle klokker og fløjter.

Navnet på Databricks' årlige konference er gået fra "Spark Summit" til "Spark + AI Summit" og nu til "Data + AI Summit." Udviklingen af begivenhedsnavnet sporer Databricks' egen overgang fra Spark-virksomheden, til AI on Spark-virksomheden, til det, vi nu kunne kalde "Delta Lakehouse"-virksomheden. Som et vidnesbyrd om det, i år, ved begivenhedens anden virtuelle inkarnation, udruller virksomheden et nyt open source-projekt kaldet Delta Sharing; en ny proprietær SQL-baseret datapipeline platform kaldet Delta Live Tables; og det nye hjemmedyrkede/proprietære Unity Catalog til datakatalogiseringsbehov.

Læs også: Kæmper Databricks om en fuld analysestak?

ZDNet blev orienteret om alt dette og mere af ingen ringere end Databricks CEO, Ali Ghodsi. Briefingen, som var propfyldt med tekniske detaljer, viste godt, hvordan virksomheden har brugt nogle af de $1 mia, det rejste i februar for at styrke sit tilbud. Databrikkene

Unified Data Analytics Platform kører nu på alle tre store offentlige skyer og har SQL-analyse, datateknik/datavidenskab, styring, MLOps, pipelines og datadeling oven på en ACID-kompatibel datasø med en optimeret forespørgsel motor. Nu, Databricks, virksomheden grundlagt af skaberne af Apache Spark, virker mest begejstret for at opbygge sit Delta-mærke.

Læs også:

Databricks, forkæmper for data "lakehouse"-modellen, lukker $1B serie G finansieringsrunde
Databricks vinder "triple crown" med lancering på Google Cloud

Tak fordi du delte

Af de tre stykker, der annonceres i dag, kan Delta Sharing have størst indflydelse på branchen. Det er en åben standard til at dele datafiler i Parket og Delta søen formater (Databricks nævner ikke eksplicit andre formater) med interne brugere og eksterne partnere. Databricks siger, at Delta Sharing fungerer på en måde "fuldstændig uafhængig af den platform, som dataene ligger på." Mens deling af datafiler er selvfølgelig muligt med ældre almindelige protokoller, såsom FTP og endda HTTP, Delta Sharing er styret, med hvad Databricks' pressemeddelelse siger er "indbyggede sikkerhedskontroller og tilladelser, der er nemme at administrere." Det er også en open source-teknologi, der ligesom andre nyere projekter fra Databricks (tænke MLflow og Delta Lake), bliver doneret til Linux Foundation.

Den grafik, Ghodsi delte med mig, da han diskuterede Delta Sharing, viste logoer for adskillige open source-projekter, bl.a. Trino, Presto og Hive; BI produkter inkl Microsoft Power BI, Tableau, Qlik, og Googles Looker; en række leverandører af industridatastyring og analyse, herunder Alation, Collibra, Dremio og AtScale; samt dataudbydere, der bl.a Faktasæt, Helt præcist og Firkantet. Andre logoer omfattede dem af Google Big Query og Microsoft Azure. Den sidste af disse er bemærkelsesværdig, da Microsoft allerede bragte sin egen Azure Data Share (ADS) tilbud på markedet for næsten to år siden. Det hele hænger dog sammen; Ghodsi forklarede mig, at ADS nu vil være kompatibel med Delta Sharing, hvilket vil åbne det op for flere ikke-Azure-datakilder og tilsyneladende ikke-Azure kunder, såvel.

Læs også: Microsoft ser ud til at 'gøre for datadeling, hvad open source gjorde for kode'

Jeg læste det på rørledningen

Lad os nu gå videre til Delta Live Tables. Ligesom Delta Engine-komponenten er denne ikke open source, i hvert fald ikke endnu. Ghodsi beskrev Live-tabeller som et system til ETL (ekstrahere, transformere og indlæse) rørledninger, men med et par drejninger. Først og fremmest, i modsætning til de pipelines, Databricks kunder allerede kunne håndkode i en notesbog, er Live Tables fuldstændig baseret på deklarative udsagn. Ghodsi forklarede, at disse er SQL-baserede; i pressemeddelelsen står der, at Live Tables bruger "højt niveau sprog som SQL." Uanset hvad er det klart, at det er nødvendigt med indkodning Python, R eller Scala er ikke påkrævet.

For det andet, på grund af Live Tables' deklarative paradigme, er forespørgselsoptimeringsværktøjet, der allerede er en del af Delta motor og Foton kan faktisk optimere disse pipelines og endda samle dem i effektive DAG-udførelsespakker (directed acyclic graph). Så ikke kun er Live Tables et system til at oprette, administrere og planlægge pipelines med indbygget fejl håndtering og genstart, men det kan i det væsentlige prækompilere disse pipelines og optimere deres udførelse.

Bestil fra et katalog

For at styre en datasø, spore tilladelser på datasæt til deling og kende de metadata, der er nødvendige for at optimere pipelines, har du selvfølgelig også brug for et datakatalog. Og mens Apache Atlas og Ranger allerede er derude og leverer en standard for dette, har Databricks bygget sit eget, kaldet Unity Catalog. "UC" akronymet for produktet, Ghodsi antydet, er et nik til University of California, Berkeley's AMPLab, hvor Databricks' grundlæggere mødtes og samarbejdede om, hvad der skulle blive Apache Spark.

En anden grund til "Unity"-navnet er dog, at kataloget ikke kun sporer tabeller og filer, men også visninger, dashboards og maskinlæringsmodeller. Det hele er underbygget, siger Ghodsi, af Delta Sharing; implementerer attributbaserede adgangskontroller (ABAC); og på trods af sin gå-sin-egen-manifestation er Unity kompatibel med andre eksisterende datakatalogplatforme.

Et hus ved søen

Databricks presser naturligvis sin data lakehouse-model hårdt, og det er respektfuldt ved at opbygge sin platform for at understøtte disse bestræbelser. Ghodsi fortalte mig, at platformen er SQL Analytics arbejdsområder, som blev annonceret i november sidste år og har været i en lukket forhåndsvisning lige siden, har set betydelige præstationsforbedringer i mellemtiden og går ind i en åben offentlig forhåndsvisning den første uge i juni d Azure og Amazon Web Services, med Google Cloud følger kort efter.

Læs også: Databricks lancerer SQL Analytics

For at vise verden af data warehouse aficionados, hvor seriøst det skal tage lakehouse modellen, går Databricks så langt som at bringe data warehouse pioner Bill Inmon på scenen på topmødet for at dele sin begejstring for søhusmodellen. Om data warehouse-fællesskabet - især den del af det, der følger Ralph Kimball mere end Inmon -- vil være overbevist om, at Lakehouse's effektivitet mangler at blive set. Det er meget muligt, at lageret og søen/søen i sidste ende kan eksistere side om side. I mellemtiden, lige nu, er det sjovt at se de to sider konkurrere, innovere lave deres respektive sager.