Big Data: et spørgsmål om mening

  • Sep 06, 2023

Ved en paneldebat på Manhattan lærer vi, at BI-, Hadoop-, NoSQL- og Data Analytics-virksomheder ser på de samme problemstillinger og teknologier, nogle gange gennem meget forskellige linser.

Panelmedlemmer og moderator

Fotokredit: Yuriy Michael Goldman

I går aftes modererede jeg en paneldebat, "Enterprise Insights: Gå Big (data) eller gå hjem." Omkring 80 mennesker betalte $5 hver for at deltage i begivenheden på Microsofts kontorer på Manhattan, hvilket oversteg mine og mine medarrangørers forventninger, Yuriy Michael Goldman og Conrad Wadowski der leder New York Business Intelligence og Enterprise Tech Innovation Meetups i henholdsvis NYC. Publikum bestod af IT- og marketingmedarbejdere samt en stor gruppe dataanalytikere. Publikum var engageret og interesseret...jeg kan endda sige bekymret; at få en bedre forståelse af Big Data er tilsyneladende en presserende prioritet for rigtig mange fagfolk.

Hvem er hvem
Panelet omfattede repræsentanter fra de største virksomheder inden for Hadoop, Open Source BI, NoSQL og Data Analytics. Konkret havde vi

Richard Daley, medstifter og CSO af Pentaho, Patrick Angeles Direktør for feltarkitektur kl Cloudera, Edouard Servan-Schreiber, direktør for løsningsarkitektur ved 10gen (firmaet bag MongoDB) og Kathleen Rohrecker, marketingdirektør hos Revolution Analytics (hovedvirksomheden bag R-projekt).

Spørgsmål
Som et primært mål ønskede jeg at undersøge fællestræk og konflikter mellem Big Data og Business Intelligence (BI). Er de to felter i det væsentlige de samme, eller erstatter/forstyrrer Big Data BI? Hvorfor er værktøjerne så forskellige, og hvorfor er udøverne også forskellige? Vil Big Data-teknologier nogensinde have den virksomhedsparathed, som BI-produkter gør lige nu? Sekundært var jeg især interesseret i at høre hver paneldeltagers definition af Big Data, og hvor de skulle anvendes. Jeg lærte meget fra panelet, både om de aktuelle problemstillinger og forskellige brancheholdninger omkring dem.

Kan vi alle sammen?
Panelmedlemmer så ud til at være enige om, at BI og Big Data var komplementære og ville eksistere side om side. Jeg var overrasket over, at der var en sådan konsensus om det centrale punkt, så jeg rykkede lidt længere. Jeg spurgte, om den nuværende populære model for at bruge Hadoop til at behandle bunker af ustrukturerede data, og derefter skubbe resultater i konventionelle data warehouse og BI-systemer til analyse, var et midlertidigt stop-gab eller en permanent nødvendighed.

Pentahos Daley så tilgangen som naturlig og fornuftig; Clouderas Angeles var langt mindre overbevist. Servan-Schreiber fra 10gen så hele processen med at flytte data til specialiserede analytiske databaser som ineffektiv, i det mindste og, for et stigende antal kunder, simpelthen uacceptabel. Helt sikkert, MongoDB's nye Aggregationsramme, som giver mulighed for in-situ analyse af data i en operationel NoSQL-database, er i overensstemmelse med dette synspunkt.

Fotokredit: Sophia Dominguez

Definition af Big Data
Hvert panelmedlem havde en anden definition af Big Data. Cloudera's Angeles definerer det (med rette, efter min mening) som arbejde med data i en skala, hvor traditionelle teknologier bryder sammen eller holder op med at være effektive. Servan-Schreiber forklarede, at 10gen måler Bigness of Data ved dens hastighed, den skala og ydeevne, den kræver, og behovet for realtidsanalyse.

Læs også: Big Data: Definition af dens definition

Revolution Analytics følte sig mere tryg ved at tale om at få den bedste analytiske værdi ud af data, uanset datasættets størrelse (derved omgik spørgsmålet noget). Pentaho sætter et salg i Big Data-bøtten, hvis det er til en implementering, der kører oven på Hadoop, NoSQL eller en Data Warehouse-enhed som Vertica eller Greenplum.

At hive eller ikke at hive
En anden meningsforskel centrerede sig om den måde, BI-værktøjer og Big Data integreres på. Daley fra Pentaho følte stærkt, at det ikke er tilstrækkeligt at sætte Hive i midten for at få de to til at tale med hinanden. Cloudera's Angeles følte, at Hive fungerer meget godt, og gik så langt som at nægte min beskyldning om, at det var "Rube Goldberg." 10gen finder det upassende at pålægge SQL-forespørgselsparadigmet på ustrukturerede data, men mente også, at det var upraktisk at skrive MapReduce-kode i Java. Som uomtvistelig støtte til dette punkt spurgte Servan-Schreiber publikum, om de havde MapReduce-færdigheder eller erfaring, og kun 2 hænder gik op. Revolutionens Rohrecker havde i mellemtiden ikke for meget at sige om Hive-spørgsmålet. Og givet muligheden for at skrive MapReduce-job i programmeringssproget R, giver det perfekt mening for mig.

Kræver laugmedlemskab?
Et af mine sidste spørgsmål, primært behandlet hos Rohrecker, var, om analysearbejdet ville forblive i hænderne på data scientists og andre specialister, eller hvis det ville blive mere tilgængeligt for downstream-virksomheder brugere. Rohrecker mente, at et sådant arbejde er virkelig vanskeligt og ikke let uddelegeret til ikke-specialister. Andre i panelet lod til at være enige. Det var slående for mig, at vi sluttede med stærk konsensus, ligesom vi var startet med en, især fordi jeg tilfældigvis at tro, at analysemuligheder vil blive bragt nedstrøms til forretningsbrugere, og sandsynligvis på kort til medium semester.

Generelt er det klart, at forskellige "subkulturer" af dataøkonomi har forskellige definitioner af Big Data og forskellige meninger om, hvordan man bedst arbejder med det. De forskellige meninger og definitioner er for en stor del egoistiske. Intet af det er overraskende, men det er et kendetegn for fragmentering for en teknologicyklus på et tidligt stadium. Jeg ville forvente at se virksomheder, meninger, tilgange og økosystemer smelte sammen og til dels commoditisere. Men fra gårsdagens panel er det tydeligt, at sammenhængskraften stadig er langt væk.