NYC Data Week News wrap-Up

  • Sep 06, 2023

Strata + Hadoop World NYC er færdig, men katalogisering af Big Data-meddelelserne er det ikke. Dette indlæg har til formål at afhjælpe det.

Med NYC Data Week og Starta + Hadoop World NYC begivenhed, er der lavet masser af Big Data-nyhedsmeddelelser, hvoraf mange jeg har dækket.

Læs også: NYC Data Week, dag 1: IBM, Tervela, Cisco og SiSense annoncerer
Læs også: Flere Big Data-nyheder: Datameer, Nominum/IBM, Actuate/Quiterian
Læs også: Strata + Hadoop World åbner, bringer Big Data-meddelelser

Efter en hel dag på messen og en række af leverandørbriefinger i denne uge, ønskede jeg at rapportere tilbage om de yderligere Big Data-nyheder, der kommer ud med begivenhedernes konklusion.

Cloudera Impala
Cloudera annonceret en ny Hadoop-komponent, Impala, der løfter SQL til peer-niveau med MapReduce som et forespørgselsværktøj til Hadoop. Selvom API-kompatibel med Hive, er Impala en indbygget SQL-motor, der kører på Hadoop-klyngen og kan forespørge data i Hadoop Distributed File System (HDFS) og HBase. (Hive oversætter kun det SQL-lignende

HiveQL sprog til Java-kode og kører derefter et standard batch-mode Hadoop MapReduce-job.)

Læs også: Clouderas Impala bringer Hadoop til SQL og BI
Læs også: Cloudera sigter mod at bringe realtidsforespørgsler til Hadoop, big data

Impala, der i øjeblikket er i Beta, er en del af Clouderas distribution inklusive Apache Hadoop (CDH) 4.1, men er i øjeblikket ikke inkluderet i andre Hadoop-distributioner. Impala er open source, og det er den Apache-licenseret, men det er ikke en Apache Software Foundation projekt, som de fleste Hadoop-komponenter er. Husk dog på det Sqoop, import-eksport-rammeværket, der flytter data mellem Hadoop og Data Warehouses/relationelle databaser, begyndte også som et Cloudera-administreret open source-projekt og er nu et Apache-projekt. Det samme kan ske med Impala.

MapR optimerer HBase, sætter ny Terasort-rekord
KortR, producenter af en Hadoop-distribution, som erstatter HDFS med et API-kompatibelt lag over standard netværksfilsystemer, og som tilbydes som en cloud-tjeneste via Amazon Elastic Map Reducer og snart videre Google Compute Engine, introducerede en ny Hadoop Distribution hos Strata+ Hadoop World. Døbt M7, den nye distribution inkluderer en tilpasset version af HBase, den Wide Column Store NoSQL-database inkluderet i de fleste Hadoop-distributioner.

Til denne specielle version af HBase i M7 har MapR integreret HBase direkte i MapR-distributionen. Og da MapR's filsystem ikke kan skrives én gang, som det er HDFS, kan MapR's HBase undgå bufferskrivning og komprimeringer, hvilket giver hurtigere drift og stort set eliminerer grænser for antallet af borde i database. Derudover er forskellige HBase-komponenter blevet omskrevet i C++, hvilket eliminerer Java Virtual Machine som et lag i databaseoperationerne og øger ydeevnen yderligere.

Og et efterskrift: MapR annonceret at dens distribution (tilsyneladende M3 eller M5), der kører på Google Compute Engine-skyplatformen, har slået tidsrekorden for Big Data Terasort benchmark, kommer ind på under ét minut -- en første. Cloud-klyngen beskæftigede 1.003 servere, 4.012 kerner og 1.003 diske. Den tidligere Terasort-rekord, 62 sekunder, blev sat af Yahoo, der kørte vanilla Apache Hadoop på 1.460 servere, 11.680 kerner og 5.840 diske.

SAP Big Data Bundle
Mens SAP har interessante Big Data/analytics-tilbud, herunder SAP HANA in-memory database, den Sybase IQ søjleformet database, den Forretningsobjekter business intelligence suite, og dens Dataintegrator Udtræk Transform and Load (ETL) produkt, det har ikke sin egen Hadoop-distro. Det gør mange virksomheder heller ikke. I stedet samarbejder de med Cloudera eller Hortonværk sende en af ​​deres distributioner i stedet for.

SAP har sluttet sig til denne klub, og lidt til. Den tyske softwaregigant annoncerede sin Big Data-pakke, som kan omfatte alle de førnævnte egne Big Data/analyseprodukter, eventuelt i kombination med Clouderas eller Hortonworks' Hadoop distributioner. Desuden samarbejder virksomheden med IBM, HP og Hitachi for at gøre Big Data Bundle tilgængelig som en hardware-integreret enhed. Store ting.

EMC/Greenplum open sources Chorus
Det Greenplum opdeling af EMC annoncerede open source-udgivelsen af ​​sin Kor samarbejdsplatform for Big Data. Chorus er et Yammer-lignende værktøj til forskellige Big Project-teammedlemmer til at kommunikere og samarbejde i deres forskellige roller. Chorus er både Greenplum-database- og Hadoop-bevidst.

På Chorus kan datavidenskabsmænd kommunikere deres datamodelleringsarbejde, Hadoop-specialister nævner måske de data, de har samlet og analyseret, BI-specialister vil måske ringe ind om forfining af de data, de har udført ved at indlæse dem i Greenplum, og forretningsbrugere kan formidle deres succes med at bruge Green plum-dataene og formulere nye krav, iterativt. Kildekoden til denne platform er nu i en open source repository på GitHub.

Greenplum annoncerede også et samarbejde med Kaggle, et firma, der kører datavidenskabskonkurrencer, som nu vil bruge Chrous-platformen.

Pentaho-partnere
Pentaho, en førende open source-business intelligence-udbyder annoncerede sit tætte samarbejde med Cloudera om Impala-projektet og et partnerskab med Greenplum på Chorus. På grund af disse partnerskaber, Pentaho's Interaktiv rapportforfatter integreres tæt med Impala og virksomhedens stack er kompatibel med Chorus.

Talend og Simba går til NoSQL
Talent, leverandør af open source data- og applikationsintegrationssoftware annonceret dens understøttelse af NoSQL-databaser HBase (ja, den samme database, som MapR har optimeret), Cassandra og MongoDB. Talend-understøttelsen til disse databaser vil være tilgængelig i næste måned som en del af den kommende version 5.2-udgivelse af dens Åbn Studio for Big Data. Talend fortalte mig, at understøttelse af yderligere NoSQL-databaser er bundet til at komme. Virksomheden holder øje med fællesskabsbidraget forbindelsesindsats og tager det på sig selv at styrke og hærde de mest populære og tilføje dem til kerneproduktet.

Ikke at blive overgået, Simba, forfremmet dens Big Data ODBC-drivere, understøtter Hive (ja, det samme lag over MapReduce, som Impala emulerer og udkonkurrerer), Cassandra og MongoDB, samt Google BigQuery.

Læs også: Googles BigQuery bliver offentlig
Læs også: Google BigQuery: Selvbetjent cloud-dataanalyse, fra din iPad eller desktop

ODBC (Open DataBase Connectivity) er en 20 år gammel dataadgangs-API-standard fra Microsoft, som nyder noget af en renæssance på det seneste. ODBC definerer både en standard databasedriverramme (understøttet af de fleste forespørgsels-, rapporterings- og BI-værktøjer og mange programmeringssprog) samt en SQL-grammatik, som driverne vil oversætte til måldatabasens modersmål og kommandoer. Simbas Hive-driver sendes allerede som en del af Hortonworks- og MapR Hadoop-distributionerne, og virksomheden meddelte, at Qubole cloud-baseret Hadoop platform vil også bruge det. Men Simbas Big Data-drivere, indkøbt direkte, leverer ODBC-kompatibilitet til alle, fire alle fire databaser.

Hortonworks samler partnerskaberne op
Ud over Quboles platform er Hadoop tilgængelig som en cloud-tjeneste via Amazons Elastic MapReduce-tjeneste, baseret på Amazons egen Hadoop-distribution eller MapR M3 og M5 distributioner. Som jeg nævnte tidligere, vil MapRs Hadoop-distro også snart være tilgængelig som en tjeneste via Google Compute Engine. Microsofts Windows-baserede "HDInsight” Hadoop distribution, udviklet i samarbejde med Hortonworks, nåede en ny milepælsudgivelse i sin by-invitation Beta på onsdag, og vil snart være offentligt tilgængelig på Windows Azure-skyen platform.

Hvad med Rackspaces sky? Og hvad med den Linux-baserede Hortonworks Data Platform Hadoop (HDP) fordeling? Nå, de to virksomheder annonceret deres produkter vil blive forenet for at tilbyde endnu en Hadoop public cloud-tjeneste. Men da Rackspaces sky er baseret på OpenStack platform, som også kan implementeres on-premise til at bygge private clouds, HDP som en privat cloud-tjeneste er nu også mulig.

Hortonworks promoverede også sit 15. oktober meddelelse at HDP version 2.0, baseret på Apache Hadoops 2.0 filial er nu i Alpha-udgivelse.

Og mere
LucidWorks, den kommercielle enhed, der støtter Lucene- og Solr-projekterne mest, annoncerede betaudgivelsen af ​​sin LucidWorks til Big Data produkt. Den skybaserede platform skaber en samlet RESTful API (Representaional State Transfer-based Application Programming Interface) omkring Hadoop og dets ledsagende komponenter, såsom Pig, HBase og Mahout, orienteret mod søgedrevet Big Data analyser.

Splunk, Big Data-virksomheden kendt for sin vildt succesrige børsnotering, introducerede tilgængeligheden af ​​sin Hadoop Connect produkt (som integrerer Hadoop med Splunk Enterprise) og Splunk App til HadoopOps (et Hadoop-overvågnings-, fejlfindings- og sundhedsanalyseværktøj).

Stadig ikke nok til dig? Hvad med et par nye databaseudgivelser? Metamarkeder annonceret, at den har open source sin Druid in-memory streaming i realtid datalager, og Calpont meddelte det version 3.5 af InfiniDB, dens Massively Parallel Processing (MPP) database, vil nå GA næste måned.

Epilog
I de sidste adskillige indlæg har jeg opsummeret den enorme række af Big Data-meddelelser, der er lavet i samspil med denne måneds Strata + Hadoop World NYC-begivenhed. I fremtidige indlæg vil jeg forsøge at drage nogle konklusioner om alle de nye produkter og tiltag, der blev frigivet og annonceret.