Päť projektov veľkých dát s otvoreným zdrojovým kódom, ktoré treba sledovať

  • Sep 03, 2023

Existuje veľa projektov s otvoreným zdrojovým kódom a sledovať ich všetky je takmer nemožné. Tu je päť dôležitých z priestoru veľkých dát, o ktorých ste možno nevedeli.

Pozrite sa na Apache Software Foundation (ASF) zoznam projektov a môžete sa cítiť ohromení. Medzi projektmi na najvyššej úrovni a inkubačnými projektmi je príliš veľa na to, aby sme ich mohli sledovať. Filtrovanie zoznamu na projekty veľkých dát nemusí pomôcť, pretože tento „menší“ zoznam je stále dosť dlhý. A nezabudnite, že existuje niekoľko pozoruhodných open source projektov, ktoré na začiatok ani nezastrešuje ASF.

Takže, v mene užitočného triedenia, tu je päť projektov, na ktoré treba dávať pozor:

Apache Flink
Flinkvo svojom jadre pracuje s odolným proti chybám, "presne raz" streaming data engine a zaobchádza s dávkovými operáciami ako so špeciálnym prípadom streamovania. Ponúka knižnice pre strojové učenie a spracovanie grafov a je kompatibilný s Apache Kafka a HBase, okrem iných komponentov Hadoop.

Flink môže znieť veľmi podobne

Spark, ale jeho paradigma streaming first odolná voči chybám ho robí trochu iným. Medzitým sa tieto dva motory do značnej miery prekrývajú v scenároch, ktoré riešia, a môže medzi nimi nastať určitá konkurencia. Vezmite popcorn a sledujte ho.

Apache Samza
The Samza projekt je zameraný na streamingové spracovanie dát. Môže sa zdať, že tento priestor je už dobre obsluhovaný Búrka, Spark a Flink (teraz, keď o tom viete), ale Samza má v rukáve niekoľko trikov. Funguje to s Kafkom a PRIADZA hneď po vybalení, ale podľa svojej webovej stránky ponúka pripojiteľnú architektúru, ktorá umožňuje integráciu s inými nástrojmi na odosielanie správ a spúšťanie.

Poďme si niečo ujasniť: streamingové dátové platformy sa v súčasnosti tešia vlastnému hype cyklu. Ako je povahou humbuku, tento výskyt je neúmerný množstvu práce s streamovaním údajov, ktorá sa tam vykonáva. Ale stále je to dôležité a pravdepodobne to bude mať za následok, že sa spracovanie streamu stane viac, uh, mainstreamom.

Kombinácia Kafka a Samza je jedna s určitým prínosom, pretože obe boli vyvinuté na LinkedIn. Kód použitý pri výrobe predtým jeho projekt s otvoreným zdrojovým kódom sa spúšťa, najmä vo veľkej spoločnosti sociálnych médií s naliehavými problémami s veľkými dátami, prirodzene získava autoritu a priťahuje pozornosť. Ale či to stačí na prekonanie popularity Spark Streaming a široká podpora (najmä zo strany Hortonworks) pre Storm sa ešte len uvidí.

Ibis (inkubovaný v Cloudera)
O Ibisovi som už písal. Je to projekt inkubovaný Cloudera, zameraný na dátových vedcov, ktorého cieľom je priniesť programovací jazyk Python do sveta distribuovaných aplikácií. Veľa ako Revolučná analytika (teraz vo vlastníctve spoločnosti Microsoft) urobil pre programovací jazyk R, tím Ibis pracuje na spôsobe, ako by sa kód Python mohol spúšťať cez uzly v klastri namiesto na jednej pracovnej stanici alebo serveri.

zaujímavé, Ibis túto distribuovanú schopnosť dosahuje pomocou piggy-backing on Impala, projekt SQL-on-Hadoop s masívnym paralelným spracovaním (MPP), ktorý bol tiež inkubovaný v Cloudera. Projektový tím sa však snaží o uvoľnenie spojenia Ibis s Impalou, aby mohlo fungovať aj na iných distribuovaných platformách. Vzhľadom na popularitu Pythonu (spolu s R) v oblasti strojového učenia a prediktívnej analýzy a vzhľadom na dôležitosť distribuovaných počítačov pre obe tieto činnosti sa oplatí sledovať využívanie Ibisu.

Apache Twill (inkubuje sa)
The Keper projekt poskytuje abstrakciu nad YARN, klastrovacím a zdrojovým manažérom Hadoopu. PRIadza je komponent, ktorý oddeľuje Hadoop od MapReduce algoritmus, ktorý mu umožňuje bežať a zároveň umožňuje iným procesorom – vrátane Spark a Flink – zaujať jeho miesto. Týmto YARN efektívne mení Hadoop na všeobecnejšiu distribuovanú výpočtovú platformu. To má, samozrejme, veľkú hodnotu.

Problém je však v tom, že PRIADZA je zložitá a má strmú krivku učenia. Twillova abstraktná vrstva má za cieľ sprístupniť vývoj YARN bežným vývojárom Java. Jej tím 10 komisárov vedie Arun Murthy, zakladateľ a architekt Hortonworks a hybná sila YARN a Tez. To naznačuje oddanosť tomu, aby sa kepr stal efektívne súčasťou ponuky PRIADZE, a to je celkom vzrušujúce.

Apache Mahout-Samsara
Mahout je strojové učenie, ktoré nie je ani nové, ani neznáme v krajine projektov ekosystému Hadoop. Ale venujem sa tomu tu, pretože prešlo veľkou rekonštrukciou s vydaním 0.10.0 v apríli, keď bolo pridané nové matematické prostredie s názvom Samsara. Je pozoruhodné, že Samsara beží na Apache Spark, nielen voliteľne, ale ako tvrdá závislosť.

To mení Mahout z abstrakcie MapReduce, a teda zdedenia všetkých réžií Hadoop MapReduce, na modernejšiu responzívnu škálovateľnú knižnicu strojového učenia. Podľa webovej stránky projektu budú verzie Mahoutových algoritmov strojového učenia založené na MapReduce budú naďalej podporované, ale nebudú akceptované žiadne implementácie nových algoritmov Hadoop na zahrnutie do projektu.

To vytvára niekoľko zaujímavých medziprojektových súťažných scenárov. Po prvé, stavia samotného Mahouta do konkurencie s vlastným Sparkom MLlib komponent. Po druhé, pridáva palivo do súťaže medzi Sparkom a samotným Hadoopom.

Kam ide Hadoop?
Ak táto malá vzorka niektorých z mnohých projektov s otvoreným zdrojom s veľkými dátami niečo ukazuje, je to to, že Hadoop nie je len ako mesto, ale skôr ako veľká metropolitná oblasť. Má svoje predmestia, kde jeho starosta nemá právomoc a kde sa politické presvedčenie môže líšiť od toho v centre mesta. Má však svoj základný charakter a musí sa s ním zaobchádzať ako so samostatným trhom. Praktici musia pristupovať k „väčšiemu“ Hadoopu, nielen k samotnému hlavnému projektu, inak riskujú, že chýbajú trendy v jeho prijatí a vývoji.