"बड़े डेटा" मिथक को दूर करना

बिग डेटा एक मूर्खतापूर्ण शब्द है. डेटा हमेशा बड़ा रहा है. हमें बड़ी बयानबाजी के बजाय एक बड़े समाधान की जरूरत है.'

पिछले छह महीनों में, मुझे नहीं लगता कि एक सप्ताह बीता हो जब मैंने "बड़े" के बारे में कोई शीर्षक न पढ़ा हो डेटा" या किसी ऐसे व्यक्ति के बारे में ईमेल प्राप्त करें जो मुझसे अपनी कंपनी के बारे में बात करना चाहता है जो "बिग" का समर्थन करती है डेटा।"

यह मुझे अपनी आरामदायक कुर्सी से उठकर चिल्लाने के लिए प्रेरित करने के लिए पर्याप्त है, "इसे रोको। बड़े डेटा जैसी कोई चीज़ नहीं होती. डेटा हमेशा 'बड़ा' रहा है।'' सच में, मैं चर्चा की शर्तों और उन पर टिके रहने वालों से तंग आ चुका हूं। और, जैसा कि हम टेक्सास में कहते हैं, "बिग डेटा" "मेरे क्रॉल में फंसने" वाला नवीनतम डेटा है।

आपमें से जो लोग इसका एहसास नहीं करते, उनके लिए डेटा हमेशा बड़ा रहा है।

यहां बड़े डेटा की परिभाषा दी गई है, जिसे विकिपीडिया से आसानी से उठाया जा सकता है:

"बिग डेटा" एक शब्द है जो उन डेटा सेटों पर लागू होता है जिनका आकार सहनीय बीते समय के भीतर डेटा को कैप्चर करने, प्रबंधित करने और संसाधित करने के लिए आमतौर पर उपयोग किए जाने वाले सॉफ़्टवेयर टूल की क्षमता से परे है। 2012 तक बड़े डेटा का आकार एक निरंतर गतिशील लक्ष्य है
एक ही डेटा सेट में कुछ दर्जन टेराबाइट से लेकर कई पेटाबाइट डेटा तक होता है।

यहां कुछ प्रमुख "बड़े डेटा" बिंदु हैं जिन्हें मैं चाहता हूं कि आप याद रखें, इसलिए मैं उन्हें आपके लिए बुलेट पॉइंट देने जा रहा हूं।

डेटा हमेशा बड़ा रहा है.
बड़े डेटा सेट को संचालित करना, बैकअप लेना, कॉपी करना, स्थानांतरित करना और प्रबंधित करना कठिन होता है।
पारंपरिक रिलेशनल डेटाबेस (आरडीबीएमएस) की व्यावहारिक सीमाएँ हैं।
विशाल डेटा सेट के प्रबंधन की लागत अत्यधिक है।
एक समाधान है.

जब मानक सर्वर सिस्टम डिस्क ड्राइव 90 एमबी (हां, मेगाबाइट) थे, तो "बड़ा डेटा" गीगाबाइट रेंज में था। 1987 में यह अब से कम बोझिल नहीं था। गीगाबाइट आकार की डिस्क महंगी थीं। WORM ड्राइव (जिसे अब CD-R या DVD-R के नाम से जाना जाता है) में केवल 600MB की क्षमता होती है, ड्राइव की कीमत $3,000 और प्रत्येक डिस्क की कीमत $30 होती है। तब डेटा बड़ा था. मुझे जानना चाहिए। मैंने डलास की एक प्रयोगशाला में अपने एचपी जीसी/एमएस* से प्रति सप्ताह डेटा की एक पूरी सीडी तैयार की। एक महीने में मेरे द्वारा उत्पादित डेटा की मात्रा का मिलान करने में अधिक समय नहीं लगता है।

वह "बड़ा" डेटा था।

हमने इसे ऐसा नहीं कहा. हमने इसे "बहुत सारा डेटा" कहा। मुझे लगता है कि हमने जोर देने के लिए वाक्य में कम से कम एक अपशब्द शामिल किया होगा लेकिन यह बड़ा डेटा था।

डेटा की उस मात्रा के साथ काम करना कठिन था। विश्लेषण के लिए इसे कहीं भी कॉपी करना लगभग असंभव था और इसे स्टोर करना भी महंगा था। मुझे लगता है कि काश मैंने कहा होता, "अरे डॉन (मेरे बॉस का नाम), हमारे पास यहां जो है वह बड़ा डेटा है।" मेरा अनुमान है कि इतनी मूर्खता के लिए मेथिलीन क्लोराइड का एक बीकर मेरे सिर की ओर चला गया होगा।

मैंने कहा था कि "बड़े डेटा" का एक समाधान है। यह रहा।

बस कहा गया, "आप इसे गलत कर रहे हैं।"

यदि आपका डेटा, मेरी तरह, इतना बड़ा है कि आप इसे कुशलतापूर्वक या सफलतापूर्वक प्रबंधित नहीं कर सकते हैं, तो आप इसे गलत कर रहे हैं।

इसका समाधान डेटा भंडारण तकनीक पर पुनर्विचार करना और उस पर दोबारा काम करना है।

सभी डेटा को प्रबंधित करने के लिए एकल आरडीबीएमएस का उपयोग करने के दिन चले गए हैं। जब मैं वास्तव में इस पर विचार करता हूं, तो मुझे यकीन नहीं होता कि वे कभी अस्तित्व में थे।

आपके "बड़े" डेटा को प्रबंधित करने के लिए मेरे सुझाव यहां दिए गए हैं (बुलेट आपकी सुविधा के लिए इंगित किया गया है):

अप्रयुक्त या कम उपयोग किए गए डेटा को संग्रहीत करें।
लेनदेन संबंधी डेटा के लिए पारंपरिक आरडीबीएमएस का उपयोग करें।
उन बड़े, गैर-सिकुड़ने योग्य डेटा वॉल्यूम के लिए NoSQL का उपयोग करें।
लागत दक्षता को अधिकतम करने के लिए अपने भंडारण को विभाजित करें।
फ़ंक्शन या आवश्यकता के आधार पर डेटा सेट को प्रबंधनीय भागों में विभाजित करें।
स्थान बचाने और प्रश्नों की गति बढ़ाने के लिए डेटा को अधिक कुशल प्रारूपों में संग्रहीत करें।
डेटा को अति-सामान्यीकृत न करें.
अनुक्रमणिका का प्रयोग करें.
क्वेरी उपसमुच्चय या प्रतिनिधित्वात्मक डेटा सेट।
गति और विश्वसनीयता के लिए डिस्क-टू-डिस्क बैकअप का उपयोग करें।
भंडारण, पुनर्प्राप्ति और नेटवर्किंग के लिए सर्वोत्तम उपलब्ध तकनीक का उपयोग करें।

लब्बोलुआब यह है कि हमें तथाकथित बड़े डेटा को समायोजित करने के लिए अपनी तकनीक को बदलना होगा। हमें अपनी भंडारण तकनीक, अपनी डेटाबेस संरचना, अपनी नेटवर्क वास्तुकला और अपनी पुनर्प्राप्ति विधियों को बदलना होगा। नहीं, यह आसान नहीं है लेकिन हम जो कर रहे हैं वह काम नहीं करता। इसने वास्तव में कभी काम नहीं किया। फ़ाइल सिस्टम को विशाल डेटाबेस को समायोजित करने के लिए सेटअप नहीं किया गया है, डिस्क वॉल्यूम को फैलाना एक खतरनाक भंडारण विधि है और ऑपरेटिंग सिस्टम वर्तमान नेटवर्क पर डेटा की इतनी बड़ी धाराओं को संबोधित करने के कार्य में सक्षम नहीं हैं आधारभूत संरचना।

और, आप हमारे वर्तमान हार्डवेयर और सॉफ़्टवेयर के साथ स्केलिंग जारी नहीं रख सकते। सैद्धांतिक सीमाएँ कहती हैं कि हम कर सकते हैं लेकिन व्यावहारिक सीमाएँ कहती हैं कि हम नहीं कर सकते।

हमें चिप-आधारित भंडारण का पता लगाने की जरूरत है। हमें नए डेटा प्रकार विकसित करने की आवश्यकता है। हमें नए फ़ाइल सिस्टम पर शोध करने की आवश्यकता है और हमें नए डेटा संपीड़न और वितरण प्रोटोकॉल की आवश्यकता है। हमें तार पर डेटा वितरण के लिए आरडीपी या मेटाफ़्रेम प्रकार की तकनीक की आवश्यकता है। हमें अलग तरह से सोचना होगा क्योंकि डेटा बड़ा है।

डेटा हमेशा उतना बड़ा रहा है जितना हम प्रभावी ढंग से संभाल सकते हैं। बड़े डेटा का मिथक यह है कि यह कुछ नया है। ऐसा नहीं है. डिजिटलीकृत सूचना भंडारण और पुनर्प्राप्ति की शुरुआत से ही बड़ा डेटा हमारे साथ रहा है। हमें अफवाहों और मार्केटिंग प्रचार के बिना इसका सामना करने की जरूरत है। हमें मिथक का सामना करना होगा और वास्तविकता को सुलझाने पर काम करना होगा।

आप बड़े डेटा के बारे में क्या सोचते हैं? क्या आपको लगता है कि कोई समाधान है, और यदि हां, तो वह क्या है?

*गैस क्रोमैटोग्राफ/मास स्पेक्ट्रोमीटर--मैं एक रसायनज्ञ हुआ करता था और जीसी/एमएस कार्बनिक यौगिकों के लिए प्रयोगशाला में सबसे अच्छा विश्लेषणात्मक उपकरण था। इसे ट्यून करना कठिन था लेकिन इसने जो विश्लेषण प्रदान किया वह एक सपने के सच होने जैसा था। मैं आगे बढ़ता रह सकता हूं।

"बड़े डेटा" मिथक को दूर करना

"बड़े डेटा" मिथक को दूर करना

श्रेणियाँ

अभिलेखागार