Dremios Dart-initiativ konsoliderer sø- og lagerparadigmer yderligere

En række forbedringer og optimeringer giver Dremios platform lager-liga-kapaciteter over filbaserede datasøer.

Dremio, som i næsten fire år nu har tilbudt en platform designet til at lette BI-analyse over datasøer (først i Hadoop klynger og nu i skyen) annoncerer i dag et flermånedersinitiativ for at udvikle sin platforms ydeevne til et paritetspunkt med dedikerede datavarehusplatforme.

Læs også: Opstart Dremio dukker op fra stealth, lancerer hukommelsesbaseret BI-forespørgselsmotor

Initiativet, kaldet Dart (selv en reference til Dremios kerne Apache "Pil" teknologi), leverer visse præstationsgevinster med det samme og vil fortsætte med at forbedre platformen i løbet af det næste år eller deromkring. Tomer Shiran, grundlægger og chief product officer hos Dremio, orienterede ZDNet og forklarede, at Dart vil få Dremio-platformen til at overgå SQL-motorer som f.eks. Apache Hive og Presto, og matche ydeevnen af Snefnugs og Rødforskydnings af verden, mens de stadig giver kunderne mulighed for at opbevare deres data i åbne formater og gemt i cloud-objektlager (eller

HDFS, for den sags skyld).

Læs også: Apache Arrow forener Big Data-systemer i hukommelsen

Optimeringshitparade

Shiran ville indgående forstå, i hvilket omfang selvstændige SQL-motorer lader noget tilbage at ønske. Som VP Product Management hos det tidligere MapR (hvis platform nu er HPE Ezmeral datastof), Shiran var en stor kraft bag en sådan motor, Apache boremaskine. Mens denne motor indfriede løftet om universel SQL-forespørgselsadgang til data i adskillige kilder, var dens ydeevne og anvendelse noget mangelfuld. Da Shiran forlod MapR for at grundlægge Dremio sammen med andre MapR-alumnus Jacques Nadeau, forstod han, at smart optimering var nøglen til interaktiv forespørgsel i business intelligence (BI)-skala af det, vi nu kalder datasøer.

Læs også: Dremio frigiver Data Lake Engines til AWS og Azure

Dart er tro mod den mission. Den introducerer forespørgselsplanlægning i industriel klasse og udvidet native kodeforespørgselsudførelse via Dremios open source Gandiva værktøjssæt. Dart giver også bedre ANSI SQL-understøttelse, inklusive næsten universel understøttelse af læseorienterede forespørgselsoperationer. Derudover kan Dremio ved at droppe Hive-metalageret og placere metadata direkte i søen afsende store metadataoperationer under udførelse i stedet for på forhånd, hvilket accelererer yderligere forespørgsler. Dremio siger, at resultatet er op til 8x hurtigere forespørgselsplanlægning, en op til 6x hurtigere behandlingshastighed og op til 8x hurtigere udførelse.

Læs også: Open source "Gandiva"-projektet ønsker at fjerne blokeringen af analyser

Kartoffel, kartoffel

På trods af overskriften til dette indlæg om Dart, der konvergerer lager- og søparadigmerne, skubbede overskriften til Dremios pressemeddelelse antagelsen om, at Dart accelererer forældelse af cloud-datavarehuse. Det er klart, at forskellige parter ser forskelligt på spørgsmålet. Leverandører som Dremio og Databricks ønsker at overbevise dig om, at søen erstatter lageret. Sælgere som Snowflake ønsker at gøre det modsatte. Så er der Microsoft, som tilbyder både et lager og en Apache Spark-baseret datasø i sin Azure Synapse Analytics service (og on-premises gør stort set det samme med SQL Server Big Data Clusters).

Så hvad giver? Svaret er, at teknologien betyder mindre end use casen. De fleste varehuse er omhyggeligt modelleret og drives med en høj barriere for indtastning af nye data, med streng kuration. De fleste søer søger at inkludere data for at tillade analyse af de "ukendte ukendte". Lagerbygninger pleje at bruge søjleformet, relationel databaseteknologi og søer pleje at bestå af CSV, JSON og Parket filer i skylageret.

Men man kan her argumentere for, at Dremio implementerer lagerteknologi i stedet for at forælde den. Den virkelige forskel er, at i Dremio-sagen er dataene gemt i åbne formater, som mange andre analysemotorer er kompatible med. De fleste datavarehuse bruger i mellemtiden proprietære formater, der er optimeret til, men bundet til deres egen platform.

Bare ring ikke for sent for at forespørge

Uanset lagermediet og proprietær eller open source-tilgang, skal sameksistensen af kuraterede og modellerede data med mere inkluderende, afslappet strukturerede data tilgodeses. Brug de etiketter, du ønsker. Bare sørg for, at du kan rumme begge use cases, og at de missionskritiske forespørgsler kører hurtigt.

Læs også: Datasø-fokuserede Dremio indsamler $135 mio. serie D-finansieringsrunde