एचपी वर्टिका आर्किटेक्चर इन्फिनिटी इंश्योरेंस के लिए सबसे कठिन बीआई प्रश्नों के लिए बड़े पैमाने पर प्रदर्शन को बढ़ावा देता है

  • Oct 23, 2023

इस बारे में अधिक जानने के लिए कि इन्फिनिटी ने अपने बिजनेस एनालिटिक्स के लिए अपने प्रदर्शन और अपने परिणामों में कैसे सुधार किया है, ब्रीफिंग्सडायरेक्ट ने साक्षात्कार दिया बैरी राल्स्टन, इन्फिनिटी इंश्योरेंस कंपनियों में डेटा प्रबंधन के सहायक उपाध्यक्ष। हाल ही में जो चर्चा हुई एचपी डिस्कवर 2013 सम्मेलन लास वेगास में, द्वारा संचालित किया जाता है दाना गार्डनर, प्रधान विश्लेषक इंटरआर्बर सॉल्यूशंस. [और अधिक जानें आने वाले के बारे में वर्टिका सम्मेलन बोस्टन में अगस्त 5.]

अन्य निष्कर्षों में, राल्स्टन और उनकी टीम ने अपने शीर्ष 12 सबसे खराब प्रदर्शन वाले प्रश्नों में 100 गुना सुधार देखा है या पंक्ति-स्टोर-आधारित Oracle Exadata कार्यान्वयन से कॉलम स्टोर-आधारित HP Vertica में जाने पर सबसे लंबे समय तक चलने वाली क्वेरीज़ तैनाती. [प्रकटीकरण: हिमाचल प्रदेश का प्रायोजक है ब्रीफिंग्सडायरेक्ट पॉडकास्ट.]

गार्डनर: आप अपने बीआई के साथ क्या कर रहे थे? डेटा भण्डारण जिसने आपको विकल्प तलाशने के लिए प्रेरित किया?

राल्स्टन: कई कंपनियों की तरह, हमने एक उद्यम बनाया है डेटा वेयरहाउस ए के लिए तैनात किया गया रो-स्टोर तकनीक

. हमारे मामले में, यह प्रारंभ में था ओरेकल आरएसी और फिर, अंततः, ओरेकल एक्सडाटा इंजीनियर्ड हार्डवेयर/सॉफ़्टवेयर उपकरण।

राल्स्टन

हम देख रहे थे कि जो विश्लेषण आम तौर पर हमारे स्थान पर होता है वह वास्तव में उस पंक्ति स्टोर के माध्यम से निष्पादन के लिए अनुकूलित नहीं था। मेरे अनुभव के आधार पर वर्टिका, हमने एक किया अवधारणा का सबूत कुछ अन्य वैकल्पिक और विश्लेषणात्मक स्टोर-प्रकार के डेटाबेस के साथ। हमने विशेष रूप से उच्च उत्पादकता प्राप्त करने और हमें प्रश्नों को अनुकूलित करने और डेटा से मूल्य निकालने पर ध्यान केंद्रित करने की अनुमति देने के लिए वर्टिका को चुना।

गार्डनर: क्या करता है इन्फिनिटी बीमा कंपनियाँ करना? आप कितने बड़े हैं, और कितने महत्वपूर्ण हैं डेटा और विश्लेषण आपको?

राल्स्टन: हम अरबों डॉलर की संपत्ति और हताहत कंपनी हैं, जिसका मुख्यालय बर्मिंघम, अलबामा में है। किसी भी बीमा वाहक की तरह, हम जो करते हैं उसमें डेटा महत्वपूर्ण है. लेकिन कई वर्षों तक परामर्शदाता की भूमिका में रहने के बाद जिन चीजों ने मुझे इन्फिनिटी की ओर आकर्षित किया, उनमें से एक थी उपयोग करने के उनके दृढ़ संकल्प का विचार। एक रणनीतिक हथियार के रूप में डेटा, न केवल समग्र रूप से आईटी, बल्कि रणनीतिक या प्रतिस्पर्धी के रूप में उस बड़े आईटी के भीतर विशेष रूप से डेटा फ़ायदा।

वर्टिका पर्यावरण

गार्डनर: आपके पास काफ़ी आंतरिक और संरचित डेटा है. मुझे थोड़ा बताएं कि जब आप वर्टिका परिवेश में चले गए, पहले अवधारणा के प्रमाण चरण में और फिर उत्पादन में, तो क्या हुआ?

राल्स्टन: अवधारणा के प्रमाण के लिए, हमने अपने एक्सडाटा कार्यान्वयन से सबसे कठिन या सबसे खराब प्रदर्शन करने वाले प्रश्नों को लिया उस संपूर्ण एंटरप्राइज़ डेटा वेयरहाउस को तीन दोहरी हेक्स कोर, DL380 प्रकार की मशीनों पर वर्टिका परिनियोजन में स्थानांतरित कर दिया गया। हम समान पैमाने पर, समान डेटा के साथ, समान प्रश्नों के साथ चल रहे हैं।

हमने एक्साडेटा कार्यान्वयन से शीर्ष 12 सबसे खराब प्रदर्शन करने वाली क्वेरी या सबसे लंबे समय तक चलने वाली क्वेरी लीं, और अवधारणा के प्रमाण में से कोई भी क्वेरी 100 गुना से कम तेज नहीं चली। ओरेकल रो-स्टोर तकनीक का उपयोग करने की तुलना में, विश्लेषणात्मक कार्यभार के संदर्भ में यह एक आसान निर्णय था।

गार्डनर: आइए इसमें थोड़ा गहराई से जानें। मैं कंप्यूटर वैज्ञानिक नहीं हूं और मैं वर्टिका के लिए रो स्टोर, रिलेशनल और कॉलम-आधारित दृष्टिकोण के बीच अंतर को पूरी तरह से समझने का दावा नहीं करता हूं। हमें त्वरित "डेटा आर्किटेक्चर 101" स्पष्टीकरण दें कि यह सुधार इतना प्रभावशाली क्यों है? [और अधिक जानें आने वाले के बारे में वर्टिका सम्मेलन बोस्टन में अगस्त 5.]

राल्स्टन: रिलेशनल डेटाबेस का मूल परिवार - वर्तमान में तीन बड़े हैं आकाशवाणी, एस क्यू एल सर्वर और डीबी 2 -- जिसे हम कहते हैं उस पर आधारित हैं पंक्ति-भंडारण प्रौद्योगिकियाँ. वे डिस्क पर ब्लॉकों में जानकारी संग्रहीत करते हैं, एक समय में एक पूरी पंक्ति लिखते हैं।

यदि आपके पास किसी बीमाधारक का रिकॉर्ड है, तो आपके पास बीमाधारक का नाम, पॉलिसी के प्रभावी होने की तारीख, पॉलिसी में अगली बार भुगतान दिखाने की तारीख आदि हो सकती है। उन सभी विशेषताओं को एक ही समय में श्रृंखला में एक पंक्ति में लिखा गया था, जिसे एक ब्लॉक में संयोजित किया गया है।

इसलिए अपडेट जैसी चीज़ों को सुविधाजनक बनाने के लिए भंडारण को एक विशेष तरीके से आवंटित किया जाना चाहिए। यह लेनदेन प्रसंस्करण के लिए डेटा संग्रहीत करने का एक इष्टतम तरीका है। अभी के लिए, यह शायद उसके लिए अत्याधुनिक है। यदि मैं एक लेखांकन प्रणाली या कोटेशन प्रणाली चला रहा हूँ, तो यही रास्ता है।

विश्लेषणात्मक प्रश्न लेनदेन-प्रसंस्करण प्रश्नों से मौलिक रूप से भिन्न होते हैं। लेन-देन प्रसंस्करण को नकदी रजिस्टर के रूप में सोचें। आप पंक्ति वस्तुओं की एक श्रृंखला के साथ बिक्री शुरू करते हैं। वे उस पंक्ति स्टोर डेटाबेस में लिखे जाते हैं और वह अच्छी तरह से काम करता है।

लेकिन जब मैं देश के कुछ निश्चित क्षेत्रों में अपने सबसे लाभदायक 20 प्रतिशत ग्राहकों को बेचे जाने वाले शीर्ष 10 उत्पादों के बारे में जानना चाहता हूं, तो वे सेट-आधारित प्रश्न प्रमुखता के बिना अच्छा प्रदर्शन नहीं करते हैं। अनुक्रमण. अक्सर, यह पंक्ति-भंडारण वास्तुकला में अतिरिक्त भौतिक भंडारण से संबंधित होता है।

कॉलम स्टोर डेटाबेस -- वर्टिका एक है देशी कॉलम स्टोर डेटाबेस - उन पंक्ति स्टोरों की तुलना में डेटा को मौलिक रूप से अलग तरीके से स्टोर करें। हम किसी रिकॉर्ड को स्तंभों के पूरे सेट में तोड़ सकते हैं या अलग-अलग संग्रहीत कर सकते हैं। यह मुझे वास्तुशिल्प स्तर से कुछ अलग चीजें करने की अनुमति देता है।

क्रमबद्ध करें, संपीड़ित करें, व्यवस्थित करें

एफसबसे पहले और सबसे महत्वपूर्ण, मैं डिस्क पर डेटा को अधिक कुशलता से सॉर्ट, संपीड़ित और व्यवस्थित कर सकता हूं। कंप्रेशन को हाल ही में रो-स्टोरेज आर्किटेक्चर में जोड़ा गया है, लेकिन रो-स्टोरेज डेटाबेस में, आपको बड़े पैमाने पर पूरी पंक्ति को कंप्रेस करना होगा।

मैं इष्टतम का चयन नहीं कर सकता संपीड़न एल्गोरिथ्म केवल एक तारीख के लिए, क्योंकि उस पंक्ति में, मेरे पास पाठ, संख्याएँ और तिथियाँ होंगी। एक कॉलम स्टोर में, मैं उस कॉलम में मौजूद डेटा पर विशिष्ट संपीड़न एल्गोरिदम लागू कर सकता हूं। तो तारीख को एक एल्गोरिदम मिलता है, एक मोनोटोन बढ़ती कुंजी की तरह सरोगेट कुंजी हो सकता है कि आपके पास एक आयामी डेटा वेयरहाउस हो, एक अलग एन्कोडिंग एल्गोरिदम हो, आदि।

यह छँटाई है. डेटा कैसे पुनर्प्राप्त किया जाता है यह मौलिक रूप से भिन्न है, क्वेरी समय पर पंक्ति-भंडारण डेटाबेस के लिए एक और बड़ा बिंदु। मैं कह सकता हूं, "मुझे उन सभी ग्राहकों के बारे में बताएं जिन्होंने कैलिफ़ोर्निया में कोई उत्पाद खरीदा है, लेकिन मैं केवल उनका अंतिम नाम जानना चाहता हूं।"

यदि मेरे पास 20 अलग-अलग विशेषताएँ हैं, तो एक पंक्ति-भंडारण डेटाबेस को वास्तव में डिस्क से सभी विशेषताओं को पढ़ना होगा। क्वेरी इंजन अंतिम परिणामों में उन चीज़ों को हटा देता है जिन्हें मैंने नहीं पूछा था, लेकिन मैं पहले ही इनपुट-आउटपुट (I/O) का जुर्माना लगा चुका हूं। जब आप टेलीकॉम में कॉल डिटेल रिकॉर्ड जैसी चीजों के बारे में सोचते हैं, जिसमें 144-कुछ विषम कॉलम होते हैं, तो इसका बहुत बड़ा प्रभाव पड़ता है।

यदि मैं केवल कॉलम स्टोर डेटाबेस के विरुद्ध पूछ रहा हूं, "मुझे उन सभी लोगों के नाम बताएं जिनके उपनाम हैं, जिन्होंने इसे खरीदा है कैलिफ़ोर्निया में उत्पाद," मैं अनिवार्य रूप से डेटाबेस से डिस्क से दो कॉलम पढ़ने के लिए कह रहा हूं, और बस इतना ही हो रहा है. मेरे I/O कारकों में 10 के क्रम से या सीडीआर के मामले में, 144 में 1 से सुधार हुआ है।

गार्डनर: आप बस वापस नहीं जा सकते हैं और उन संबंधपरक वातावरणों में अपने I/O सुधारों को बढ़ा सकते हैं याद में या डेटा और प्रोसेसिंग के बीच की दूरी को कम करना? यह आपको केवल इतना ही आगे ले जाता है, और आप इस पर केवल इतना ही हार्डवेयर फेंक सकते हैं। तो बुनियादी तौर पर, यह सब इसके बारे में है वास्तुकला.

राल्स्टन: बिल्कुल सही। आपने इनमें से बहुत कुछ देखा होगा - मुझे लगता है कि इससे जुड़ा एक मज़ेदार शब्द है "डेटा के साथ अप्राकृतिक कृत्य," कि कैसे डेटा या तो बिखर जाता है या कैश या अन्य चीजों में डाल दिया जाता है। हर बार जब आप इनमें से किसी एक तंत्र का परिचय देते हैं, तो आप लगभग वास्तविक समय विश्लेषण और स्रोत प्रणाली से डेटा को विश्लेषण के लिए उपयोगकर्ता के हाथों में प्राप्त करने के बीच एक और बाधा डाल रहे हैं। कैश के बारे में सोचो. यदि आप कैश करने जा रहे हैं, तो प्रभाव पाने के लिए आपको उस कैश को गर्म करना होगा।

यदि मैं किसी सेंसर, रीयल-टाइम लोकेशन सर्वर या ऐसी किसी चीज़ से डेटा स्ट्रीम कर रहा हूं, तो मुझे कैश से तब तक बहुत अधिक मूल्य नहीं मिलता है जब तक कि वह गर्म न हो जाए। मैं आपकी बात से पूरी तरह सहमत हूं, दाना, कि यह सब वास्तुकला के बारे में है।

संक्षेप में, वर्टिका का लाभ उठाने में, अंतर्निहित वास्तुकला मुझे व्यापार विश्लेषकों के लिए एक खेल का मैदान बनाने की अनुमति देती है, यदि आप चाहें। उनका होना आवश्यक नहीं है डेटा वैज्ञानिक इसका आनंद लेने के लिए और उन चीजों को जोड़ने में सक्षम होने के लिए जिनका एक-दूसरे के बीच व्यावसायिक संबंध है, लेकिन जरूरी नहीं कि वह डेटा मॉडल में प्रतिबिंबित हो, किसी भी कारण से।

प्रदर्शन प्रभावित होता है

हेस्पष्ट रूप से एक पंक्ति भंडारण वास्तुकला में, और विशेष रूप से आयामी डेटा वेयरहाउस के भीतर, यदि स्तंभों की एक जोड़ी के बीच कोई सूचकांक नहीं है, तो आपका प्रदर्शन प्रभावित होने लगता है। वर्टिका कोई अनुक्रमणिका नहीं बनाता है और यह सॉर्टिंग और एन्कोडिंग के माध्यम से डेटा को स्व-अनुक्रमित करता है।

इसलिए यदि मेरे पास एक अंतिम उपयोगकर्ता है जो किसी ऐसी चीज़ का विश्लेषण करना चाहता है जिसका पहले कभी विश्लेषण नहीं किया गया है, लेकिन जिसका अर्थ संबंधी संबंध है उन वस्तुओं के बीच, मुझे उनकी गति से जानकारी वापस पाने के लिए डेटा भंडारण को फिर से व्यवस्थित करने की आवश्यकता नहीं है फ़ैसला।

गार्डनर: किस बारे में इसे कुछ नए प्रकार के डेटा के लिए खोलना और/या अपने उपयोगकर्ताओं को बीमा कंपनी के लोगों को बाहरी प्रकारों को देखने का अवसर देना पूछताछ करें और बाज़ारों के बारे में अधिक जानें, जहां वे नए बीमा उत्पाद लागू कर सकते हैं और शीर्ष पर पहुंच सकते हैं रेखा?

राल्स्टन: यह निश्चित रूप से हमारी रणनीतिक योजना का हिस्सा है। अभी, इन्फिनिटी पर उपयोग किया जा रहा 100 प्रतिशत डेटा संरचित है। हम उस सभी संरचित डेटा को प्रबंधित करने के लिए वर्टिका का लाभ उठा रहे हैं, लेकिन हमारे पास लाभ उठाने की एक योजना है Hadoop और यह वर्टिका Hadoop कनेक्टर्स, पर आधारित मैं क्या देख रहा हूँ आस-पास हेवन, एक बिंदु से निर्बाध रूप से संरचित, गैर-संरचित डेटा प्राप्त करने में सक्षम होने का विचार।

बीमा एक दिलचस्प व्यवसाय है, क्योंकि मेरे उत्पाद और मूल्य निर्धारण के लोग जोखिम के अगले महान संकेतक की तलाश करते हैं, हम अनिवार्य रूप से उस प्रतिस्पर्धात्मक लाभ की लहर पर उतनी लंबी अवधि तक सवारी करने का मौका मिलता है जितनी हमें उस नई दर की रिपोर्ट करने में लगती है एक राज्य। राज्य इसे हमारे प्रतिस्पर्धियों के साथ साझा करता है, और फिर हमारे प्रतिस्पर्धियों को यह देखना होगा कि क्या वे अपने सिस्टम में वही लाना चाहते हैं जो हमने अभी पाया है।

इसलिए हम वर्टिका को एक प्रतिस्पर्धी हथौड़े के रूप में उपयोग कर सकते हैं, वर्टिका प्लस हडूप का उपयोग उन चीजों को करने के लिए कर सकते हैं जो हमारे प्रतिस्पर्धी करने में सक्षम नहीं हैं। फिर, प्रतिस्पर्धी लाभ के रूप में डेटा के संदर्भ में मेरा सीआईओ मुझसे जो मांग रहा था, मैंने उसे पूरा कर दिया है।