2019 में RAID 6 ने काम करना क्यों बंद कर दिया?

  • Oct 21, 2023

तीन साल पहले मैंने चेतावनी दी थी कि RAID 5 2009 में काम करना बंद कर देगा। निश्चित रूप से, कोई भी एंटरप्राइज़ स्टोरेज विक्रेता अब RAID 5 की अनुशंसा नहीं करता है। अब यह RAID 6 है, जो 2 ड्राइव विफलताओं से बचाता है। लेकिन 2019 में RAID 6 भी आपके डेटा की सुरक्षा नहीं करेगा। उसकी वजह यहाँ है।

तीन साल पहले मैंने यह चेतावनी दी थी RAID 5 2009 में काम करना बंद कर देगा. निश्चित रूप से, कोई भी एंटरप्राइज़ स्टोरेज विक्रेता अब RAID 5 की अनुशंसा नहीं करता है।

वे अब RAID 6 की अनुशंसा करते हैं, जो दो ड्राइव विफलताओं से बचाता है। लेकिन 2019 में RAID 6 भी आपके डेटा की सुरक्षा नहीं करेगा। उसकी वजह यहाँ है।

शक्ति की शक्ति कार्य करती है मैंने कहा कि RAID 6 का जीवनकाल भी सीमित होगा।

... कुछ वर्षों में RAID 6 आपको आज RAID 5 से अधिक सुरक्षा नहीं देगा। यह RAID 6 की गलती नहीं है. इसके बजाय यह डिस्क की बढ़ती क्षमता और उनकी स्थिर यूआरई दर के कारण है।

पिछले साल के अंत में सन इंजीनियर, डीट्रेस के सह-आविष्कारक, फ्लैश आर्किटेक्ट और जेडएफएस डेवलपर एडम लेवेंथल ने एक व्यवहार्य डेटा सुरक्षा रणनीति के रूप में RAID 6 के अपेक्षित जीवन का विश्लेषण करने के लिए कड़ी मेहनत की थी। उन्होंने इसे एसोसिएशन ऑफ कंप्यूटिंग मशीनरी की क्यू पत्रिका के लेख में बताया है

ट्रिपल-पैरिटी RAID और परे, जिसका उपयोग मैं इस पोस्ट के अधिकांश भाग के लिए करता हूँ।

अच्छी खबर: श्री लेवेंथल ने पाया कि RAID 6 सुरक्षा स्तर उतना ही अच्छा होगा जितना कि 2019 तक RAID 5 था।

बुरी खबर: श्री लेवेंथल ने मान लिया कि ड्राइव वास्तव में जितनी विश्वसनीय हैं, उससे कहीं अधिक विश्वसनीय हैं। जब तक ड्राइव विक्रेता अपना काम शुरू नहीं कर लेते, लीड समय कम हो सकता है। और अच्छी खबर: उनमें से एक पहले से ही है - और मैं आपको बताऊंगा कि वह कौन है।

समस्या की जड़ RAID सारणी नियंत्रक में विशेष तर्क वाले डिस्क के समूह हैं जो अतिरिक्त बिट्स के साथ डेटा संग्रहीत करते हैं इसलिए 1 या 2 डिस्क के खो जाने से जानकारी नष्ट नहीं होगी (मैं RAID स्तर 5 और 6 की बात कर रहा हूँ, 0, 1 या नहीं) 10). अतिरिक्त बिट्स - समानता - शेष डिस्क से सभी डेटा को पढ़कर और प्रतिस्थापन डिस्क पर लिखकर खोए हुए डेटा को फिर से बनाने में सक्षम करें।

RAID 5 के साथ समस्या यह है कि डिस्क ड्राइव में रीड एरर हैं। SATA ड्राइव को आमतौर पर 10^14 की अप्राप्य पठन त्रुटि दर (URE) के साथ निर्दिष्ट किया जाता है। जिसका मतलब है कि प्रत्येक 200,000,000 सेक्टरों में एक बार, डिस्क एक सेक्टर को पढ़ने में सक्षम नहीं होगी।

2 सौ मिलियन सेक्टर लगभग 12 टेराबाइट्स है। जब कोई ड्राइव 7 ड्राइव, 2 TB SATA डिस्क RAID 5 में विफल हो जाती है, तो आपके पास 6 शेष 2 TB ड्राइव होंगी। चूंकि RAID नियंत्रक डेटा का पुनर्निर्माण कर रहा है, इसलिए बहुत संभावना है कि उसे एक URE दिखाई देगा। उस समय RAID पुनर्निर्माण रुक जाता है.

गणित यह है: (1 - 1 /(2.4 x 10^10)) ^ (2.3 x 10^10) = 0.3835

10^14 रीड त्रुटि दर और 12 टीबी में ~23 बिलियन सेक्टर मानते हुए, एक विफल डिस्क के साथ 7 ड्राइव RAID पर एक अचूक रीड त्रुटि के कारण आपके पास डेटा हानि की 62% संभावना है। भाग्यशाली महसूस कर रहा हूं?

छापेमारी 6 RAID 6 2 विफलताओं को संभालने के लिए पर्याप्त समता डेटा बनाकर इस समस्या से निपटता है। आप एक डिस्क खो सकते हैं और एक यूआरई है और फिर भी अपने डेटा का पुनर्निर्माण करें.

कुछ लोग 2 पैरिटी डिस्क के बढ़े हुए ओवरहेड के बारे में शिकायत करते हैं। लेकिन RAID 5 स्ट्राइप के आकार को दोगुना करने से आपको समान क्षमता के साथ दोहरी डिस्क सुरक्षा मिलती है। 1 पैरिटी डिस्क के साथ 7 ड्राइव RAID 5 स्ट्राइप के बजाय, 2 पैरिटी डिस्क के साथ 14 ड्राइव स्ट्राइप बनाएं: 2 विफलताओं के खिलाफ पैरिटी और सुरक्षा के लिए कोई और क्षमता नहीं है।

डिजिटल निर्वाण, एह? इतनी जल्दी नहीं मेरे दोस्त।

गियर्स में ग्रिट श्री लेवेंथल बताते हैं कि कारकों का संगम ऐसे समय की ओर ले जा रहा है जब दोहरी समता भी एंटरप्राइज़ डेटा की सुरक्षा के लिए पर्याप्त नहीं होगी।

विचार करना:

  • लंबे समय तक पुनर्निर्माण का समय। जैसे-जैसे डिस्क की क्षमता बढ़ती है, वैसे-वैसे पुनर्निर्माण का समय भी बढ़ता है। 7200 आरपीएम फुल ड्राइव औसतन लगभग 115 एमबी/सेकंड लिखती है - जैसे ही वे भरते हैं वे धीमे हो जाते हैं - जिसका मतलब है कि एक असफल ड्राइव को फिर से बनाने के लिए न्यूनतम 5 घंटे लगते हैं। लेकिन अधिकांश एरे शीर्ष गति पुनर्निर्माण के ओवरहेड को बर्दाश्त नहीं कर सकते हैं, इसलिए पुनर्निर्माण का समय आमतौर पर 2-5x होता है।
  • अधिक गुप्त त्रुटियाँ. एंटरप्राइज़ ऐरे डिस्क त्रुटियों को काटने से पहले ढूंढने और उन्हें ठीक करने के लिए पृष्ठभूमि डिस्क-स्क्रबिंग का उपयोग करते हैं। लेकिन जैसे-जैसे डिस्क की क्षमता बढ़ती है, स्क्रबिंग में अधिक समय लगता है। एक बड़े ऐरे में एक डिस्क कई महीनों तक स्क्रब के बीच चल सकती है, जिसका अर्थ है कि पुनर्निर्माण पर अधिक त्रुटियाँ।
  • डिस्क विफलता सहसंबंध. RAID समर्थकों ने माना कि डिस्क विफलताएँ स्वतंत्र घटनाएँ हैं, लेकिन लंबे अनुभव से पता चला है कि यह मामला नहीं है: 1 ड्राइव विफलता का मतलब है कि दूसरे की बहुत अधिक संभावना है।

सरलीकरण: बड़ी ड्राइव = लंबे समय तक पुनर्निर्माण + अधिक गुप्त त्रुटियाँ -> RAID 6 विफलता की अधिक संभावना।

श्री लेवेंथल ने परिणाम का रेखांकन किया:

एसीएम के सौजन्य से

2019 तक RAID 6 आज के RAID 5 से अधिक विश्वसनीय नहीं रहेगा।

स्टोरेज बिट्स लेते हैं एंटरप्राइज़ उपयोगकर्ताओं के लिए यह निष्कर्ष एक बड़ी बात है। जबकि ट्रिपल समता सुरक्षा समस्या का समाधान करेगी, महत्वपूर्ण व्यापार-बंद भी हैं।

21 ड्राइव धारियाँ? सप्ताह भर चलने वाले पुनर्निर्माणों का मतलब है कि सरणियाँ हमेशा ख़राब पुनर्निर्माण मोड में काम कर रही हैं? थोक में 2.5" ड्राइव की ओर स्थानांतरण? अरबों डॉलर मूल्य की मौजूदा सरणियों की कार्यात्मक अप्रचलन?

हालाँकि घरेलू उपयोगकर्ता आराम कर सकते हैं। होम रेड एक है बुरा विचार: आप लगातार डिस्क-टू-डिस्क बैकअप और ऑनलाइन बैकअप जैसे बेहतर स्थिति में हैं क्रैशप्लान या बैकब्लेज़.

इससे भी अधिक डरावनी बात यह है कि श्री लेवेंथल ने डिस्क ड्राइव त्रुटि दर 10^16 में 1 मान ली है। यह छोटी, तेज़ और महंगी एंटरप्राइज़ ड्राइव के बारे में सच है, लेकिन अधिकांश SATA ड्राइव परिमाण के 2 ऑर्डर कम हैं: 10^14 में 1।

एक अपवाद के साथ: वेस्टर्न डिजिटल का कैवियार ग्रीन, मॉडल WD20EADS, है विशिष्ट सीगेट के 2 टीबी के विपरीत, 10^15 पर ST32000542AS या हिताची का डेस्कस्टार 7K2000 (पीडीएफ).

निःसंदेह, टिप्पणियों का स्वागत है। अजीब बात है कि मैंने WD, Seagate या Hitachi के लिए कोई काम नहीं किया है, हालाँकि WD की अथक हीदर स्किनर के साथ काम करना सुखद है। मैंने वर्षों पहले सन में काम किया था और वे ZFS, फ़्लैश, DTrace और अन्य के साथ जो कर रहे हैं उसकी प्रशंसा करता हूँ।