Microsoft HDInsight को स्पार्क 2.0, तेज़ हाइव और बेहतर सुरक्षा मिलती है

  • Sep 26, 2023

Microsoft Azure सक्रिय निर्देशिका एकीकरण के साथ HDInsight को एक डीलक्स Hadoop/Spark पेशकश बनाता है, स्पार्क 2.0, ज़ेपेलिन नोटबुक, हाइव का नया "एलएलएपी" मोड, और आईएसवी का प्रथम श्रेणी एकीकरण अनुप्रयोग।

जब माइक्रोसॉफ्ट ने Hadoop के पानी में अपने पैर डुबाना शुरू किया, तो उसने इसके साथ काम किया हॉर्टनवर्क्स Hadoop को विंडोज़ में पोर्ट करने और इसे Azure क्लाउड में चलाने के लिए। लेकिन विंडोज़ के लिए हॉर्टनवर्क्स डेटा प्लेटफ़ॉर्म (एचडीपी) चलाने का मतलब था एचडीइनसाइट (जैसा कि Azure पर Hadoop को अंततः ब्रांड किया गया था) हमेशा अधिक मुख्यधारा लिनक्स वितरण से एक कदम पीछे था, और लगातार कैच-अप खेल रहा था। जब Microsoft ने Linux पर चलने वाले HDInsight क्लस्टर की पेशकश करने का निर्णय लिया, तो सब कुछ बदल गया। पूरे उद्योग से समर्थन प्राप्त हुआ और नवीनतम Hadoop सुविधाओं को बहुत तेज समय सीमा में सेवा में जोड़ा गया।

यह सभी देखें

Hadoop और स्पार्क: दो शहरों की एक कहानी

चमकदार नई चीज़ के इर्द-गिर्द आदर्शवाद से उत्साहित होना आसान है। लेकिन आइए कुछ स्पष्ट करें: स्पार्क Hadoop की जगह नहीं लेगा।

अभी पढ़ें

फिर भी, HDInsight को चमकाने की जरूरत है, और आज Microsoft बस इसकी घोषणा कर रहा है। HDInsight का एक नया संस्करण, पर आधारित

एचडीपी 2.5 आज लॉन्च हो रहा है और इसके साथ ही, कुछ Microsoft-विशिष्ट सुरक्षा और एप्लिकेशन एकीकरण भी हैं जो HDInsight को अग्रणी क्लाउड Hadoop पेशकश के लिए दावेदार बनाते हैं।

इसकी आँख में चिंगारी
तो अंदर क्या है? अपाचे स्पार्क 2.0, शुरू करने के लिए। स्पार्क के इस संस्करण में प्रौद्योगिकी शामिल है प्रोजेक्ट टंगस्टन, स्पार्क को वेक्टरकृत संगणना की शक्ति प्रदान करता है। स्पार्क के नए संस्करण के साथ, HDInsight में अब समर्थन शामिल होगा अपाचे ज़ेपेलिन नोटबुक, जो डेवलपर्स को स्पार्क पर चलने वाले कोड और डेटा विज़ुअलाइज़ेशन की स्क्रैपबुक जैसी संरचनाएं बनाने देती हैं।

यह भी पढ़ें: स्पार्क Azure HDInsight पर आता है

HDInsight ने पहले ही इसी तरह की क्षमताओं का उपयोग करने की पेशकश की थी ज्यूपिटर, एक और ओपन सोर्स नोटबुक तकनीक। लेकिन यह देखकर अच्छा लगा कि HDInsight में अधिकांश अन्य Hadoop पेशकशों के समान दोनों नोटबुक तकनीकें शामिल हैं। स्पार्क-संबंधित एक और अच्छा जोड़ स्पार्क-एचबेस कनेक्टर है, जो स्पार्क एसक्यूएल का उपयोग नोटबुक या अन्य जगहों से डेटा को क्वेरी करने के लिए करने की अनुमति देता है। अपाचे एचबेस.

हाइव एक्सप्रेस लेन में चला जाता है
हुड के नीचे एचडीपी 2.5 का उपयोग करने का मतलब यह भी है कि माइक्रोसॉफ्ट शिप कर सकता है अपाचे हाइवका नया एलएलएपी ("लाइव लॉन्ग एंड प्रोसेस") मोड, "से उत्पन्न"डंक मारने वाला. अगला"हाइव के आसपास पहल। जैसा कि मैंने डेढ़ साल पहले रिपोर्ट किया था, प्रौद्योगिकी हाइव को चालू रखती है अपाचे तेज कैशिंग, वैश्वीकरण और अन्य अनुकूलन के साथ माइक्रोसॉफ्ट और हॉर्टनवर्क्स दोनों का दावा है कि प्रतिक्रिया समय उप-सेकंड है।

यह भी पढ़ें: SQL और Hadoop: यह जटिल है

यह भी पढ़ें: Hadoop शिखर सम्मेलन समाचार: पारिस्थितिकी तंत्र व्यवस्था, और विखंडन

माइक्रोसॉफ्ट का कहना है कि कुल मिलाकर, यह नया हाइव कार्यान्वयन प्रदर्शन में सुधार कर सकता है पच्चीस गुना तेज़ कार्यान्वयन पर पिछले हाइव की तुलना में यह शिपिंग था।

एलएलएपी बनाम के लिए बेंचमार्क परिणाम तेज पर छत्ता

क्रेडिट: माइक्रोसॉफ्ट

सुरक्षित महसूस हो रहा है
Azure HDInsight के इस नए संस्करण में एकीकरण भी शामिल है Azure सक्रिय निर्देशिका (जो, बदले में, ऑन-प्रिमाइसेस सक्रिय निर्देशिका इंस्टॉलेशन के साथ एकीकृत हो सकता है), और बाकी समय में डेटा को एन्क्रिप्ट करने की पारदर्शी क्षमता। बाद की क्षमता, जब के उपयोग के साथ जोड़ी जाती है एज़्योर डेटा लेक स्टोर, एन्क्रिप्शन कुंजी का उपयोग करके ग्राहक-प्रबंधन करने की अनुमति देता है एज़्योर कुंजी वॉल्ट सेवा।
HDP 2.5 पर प्लेटफ़ॉर्मिंग का मतलब यह भी है कि अब HDInsight भी शामिल होगा अपाचे रेंजर (इनक्यूबेटिंग), वह तकनीक जो हॉर्टनवर्क्स द्वारा 2014 में एक्सए सिक्योर के अधिग्रहण से प्राप्त हुई थी।

यह भी पढ़ें: Hadoop सुरक्षा: हॉर्टनवर्क्स XA सिक्योर खरीदता है - और इसे ओपन सोर्स में बदलने की योजना बना रहा है

रेंजर Hadoop और इसके विभिन्न डिस्ट्रो घटकों पर एक बारीक, भूमिका-आधारित पहुंच नियंत्रण परत प्रदान करता है। रेंजर के लिए समर्थन, साथ ही अपाचे संतरी, बनता जा रहा है डे Hadoop दुनिया में, इसलिए HDInsight में Ranger का जुड़ना संभवतः Microsoft और उसके ग्राहकों के लिए एक अच्छी बात है।

यह एक तृतीय पक्ष है, पार्टी
अंत में, Microsoft HDInsight के साथ तृतीय पक्ष ISV (स्वतंत्र सॉफ़्टवेयर विक्रेता) अनुप्रयोगों के एकीकरण के लिए एक नया विकल्प लॉन्च कर रहा है। इसको कॉल किया गया Azure HDInsight एप्लिकेशन प्लेटफ़ॉर्म, यह ISV ऐप्स को HDInsight क्लस्टर के साथ प्रावधानित करने या मौजूदा में आसानी से जोड़ने की अनुमति देता है क्लस्टर, और क्लस्टर और उसके संसाधनों तक पहुंच प्राप्त करना, जैसा कि ऑन-प्रिमाइसेस में हो सकता है स्थापना.

(पूरा खुलासा: मेरा नियोक्ता, डेटामीर, पहला ISV था जिसका एप्लिकेशन HDInsight एप्लिकेशन प्लेटफ़ॉर्म पर ऑनबोर्ड किया गया था, और आज की HDInsight घोषणाओं पर Microsoft की प्रेस विज्ञप्ति में मेरे बॉस, स्टीफ़न ग्रोसचुफ़, डेटामीर का एक उद्धरण शामिल है सीईओ।)

लेकिन माइक्रोसॉफ्ट इसकी भी घोषणा कर रहा है पीपा और स्ट्रीमसेट्स Azure HDInsight ISV प्रोग्राम में भी शामिल हो रहे हैं। डेटामीर अच्छी कंपनी में होगा: कास्क डेवलपर्स के लिए एक उत्कृष्ट, एकीकृत एपीआई प्रदान करता है जो पूरे Hadoop स्टैक और स्पार्क तक फैला हुआ है। और स्ट्रीमसेट्स, जिसके बारे में मैंने कुछ हफ़्ते पहले ही लिखा था, डेटा प्रवाह प्रसंस्करण मशीन-जनरेटेड स्ट्रीमिंग डेटा के लिए एक प्रबंधन मंच प्रदान करता है।

यह भी पढ़ें: क्या बिग डेटा ऑपरेशन प्रबंधनीय हो सकते हैं? दो कंपनियाँ हाँ कहती हैं।

मैं इसे कब खोल सकता हूँ?
एचडीपी 2.5 और स्पार्क 2.0 का रोल-आउट आज सामान्य उपलब्धता के लिए शुरू हो गया है। यदि आप भी हाइव में एलएलएपी मोड का लाभ उठाना चाहते हैं, तो आपको एक विशेष HDInsight क्लस्टर प्रकार का प्रावधान करना होगा जो पूर्वावलोकन में उपलब्ध है।

यदि आप Azure ग्राहक हैं, तो संभवतः आप इस पर अपना हाथ डालना चाहेंगे। मैं जानता हूं कि मैं ऐसा करूंगा, क्योंकि मैं एक डिलीवरी करूंगा प्रस्तुति अगले सप्ताह एक सम्मेलन में HDInsight पर। और क्या यह एक क्लाउड प्लेटफ़ॉर्म की तरह नहीं है जो आपके प्रेजेंटेशन को डिलीवर करने से ठीक एक सप्ताह पहले अप्रचलित कर दे?