شبكة البيانات: هل يجب أن تجرب ذلك في المنزل؟

  • Sep 03, 2023

على مدار العام الماضي، أثارت بعض المواضيع نقاشًا أكبر في عالم البيانات من شبكات البيانات. والسؤال هو ما إذا كانت شبكات البيانات جاهزة للاستخدام في أوقات الذروة.

data-mesh.png

شبكة البيانات

الائتمان: أعمال الفكر

لمركزية أو توزيع إدارة البيانات؟ كان هذا السؤال على رأس أولوياتنا منذ أن غزت أجهزة الكمبيوتر الصغيرة التابعة للإدارات المؤسسة، وتبعتها بشكل أكثر تخريبًا أجهزة الكمبيوتر الشخصية والشبكات المحلية التي تمر عبر الباب الخلفي. وقد تأرجحت الحكمة التقليدية ذهابًا وإيابًا منذ ذلك الحين. أنظمة مجموعات العمل أو الأقسام لتسهيل الوصول إلى البيانات، ثم عمليات دمج قاعدة بيانات المؤسسة للتخلص من جميع الازدواجية.

هل تتذكر متى كان من المفترض أن تكون بحيرة البيانات هي الحالة النهائية؟ تمامًا مثل مستودع بيانات المؤسسة الذي سبقه، كانت فكرة أن جميع البيانات يمكن جمعها في مكان واحد لم يكن هناك سوى مصدر واحد للحقيقة يمكن لجميع مناحي الحياة في جميع أنحاء المؤسسة الوصول إليه غير واقعية. إن الاتصال بالإنترنت، والتخزين الرخيص على ما يبدو، وقابلية التوسع التي لا نهاية لها للسحابة، هي ويهدد انفجار بيانات الأجهزة الذكية وإنترنت الأشياء بإرباك مستودعات البيانات وبحيرات البيانات بشكل شاق للغاية يثبت.

بيوت بحيرة البيانات ظهرت مؤخرًا لتقدم أفضل ما في كلا العالمين، في حين تعمل أنسجة البيانات ومراكز البيانات الذكية على تحسين المفاضلات بين المحاكاة الافتراضية وتكرار البيانات.

سيكون من غير المجدي القول بأن أيًا من هذه البدائل يقدم الحل السحري النهائي.

أدخل شبكة البيانات

خلال العام الماضي، ظهرت نظرية جديدة تعترف بعدم جدوى الأساليب المتجانسة من أعلى إلى أسفل في إدارة البيانات: شبكة البيانات. في حين أن الكثير من الأضواء في الآونة الأخيرة كانت على الذكاء الاصطناعي والتعلم الآلي، إلا أنه في عالم البيانات، هناك عدد أقل من المواضيع التي يتم التركيز عليها رسم المزيد من المناقشة من شبكة البيانات. ما عليك سوى إلقاء نظرة على بيانات مؤشرات Google خلال الـ 90 يومًا الماضية: عمليات البحث عن Data Mesh تفوق بكثير عمليات البحث عن Data Lakehouse.

وقد نشأت من زاماك دهقاني، مدير حضانة التكنولوجيا القادمة في الفكر في أمريكا الشمالية، من خلال مجموعة واسعة من الأعمال تبدأ بمقدمة مرة أخرى في عام 2019، والتعمق في المبادئ، والهندسة المنطقية في أواخر عام 2020، والتي سوف تبلغ ذروتها قريبا في كتاب (إذا كنت مهتما، بيانات الانفجار النجمي تقدم نظرة خاطفة). كانت شبكات البيانات في كثير من الأحيان مقارنة بأقمشة البيانات، لكن القراءة الدقيقة لعمل دهقاني تكشف أن الأمر يتعلق بالعملية أكثر من التكنولوجيا، كما أشار بشكل صحيح جيمس سيرا، قائد الهندسة المعمارية في EY والذي كان يعمل سابقًا في Microsoft في مشاركة مدونة. ومع ذلك، فإن موضوع شبكات البيانات (التي يتم من خلالها توزيع طرق العرض على ملكية البيانات) مقابل موضوع شبكات البيانات. تستحق أنسجة البيانات (التي تطبق مناهج أكثر مركزية) منصبًا خاصًا بها، كاهتمام بكليهما لقد كان مشابهًا جدًا.

ببساطة، إذا كان ذلك ممكنًا، فإن شبكة البيانات موجودة لا مكدس التكنولوجيا أو البنية المادية. شبكة البيانات هي عملية ونهج معماري يفوض المسؤولية عن مجموعات بيانات محددة إلى المجالات أو المناطق الشركات التي لديها الخبرة المطلوبة في الموضوع لمعرفة ما الذي من المفترض أن تمثله البيانات وكيف يجب أن تكون مستخدم.

هناك جانب معماري لذلك: فبدلاً من افتراض أن البيانات ستتواجد في بحيرة البيانات، سيكون كل "نطاق" مسؤولاً عن اختيار كيفية استضافة مجموعات البيانات التي يمتلكها وخدمتها.

وبصرف النظر عن التنظيم الخارجي أو سياسة حوكمة الشركات، فإن النطاقات هي السبب وراء جمع مجموعات بيانات محددة. لكن الشيطان يكمن في التفاصيل، وهناك الكثير منها.

لذلك، لا يتم تعريف شبكة البيانات بواسطة مستودع البيانات أو بحيرة البيانات أو بحيرة البيانات حيث توجد البيانات فعليًا. ولا يتم تعريفه بواسطة اتحاد البيانات، أو تكامل البيانات، أو محرك الاستعلام، أو أدوات الفهرسة التي تقوم بملء مخازن البيانات هذه والتعليق عليها. بالطبع، هذا لم يمنع بائعي التكنولوجيا من غسل شبكة البيانات منتجاتهم او بضائعهم. خلال العام المقبل، من المحتمل أن نرى موفري الكتالوجات ومحركات الاستعلام وخطوط البيانات والحوكمة يرسمون أدواتهم أو منصاتهم في ضوء شبكة البيانات. ولكن عندما ترى الرسائل التسويقية، تذكر أن شبكات البيانات تتعلق بالعملية وكيفية تطبيق التكنولوجيا. على سبيل المثال، يعد محرك الاستعلام الموحد مجرد أداة تمكين يمكنها مساعدة الفريق في التنفيذ، ولكنه لا يحول فجأة ملكية البيانات إلى شبكة بيانات بمفرده.

الركائز الأساسية

تعد شبكة البيانات مفهومًا معقدًا، ولكن أفضل طريقة للبدء هي فهم المبادئ الكامنة وراءها.

المبدأ الأول يدور حول ملكية البيانات - ينبغي أن يكون محليًا، ويقيم مع الفريق المسؤول عن جمع و/أو استهلاك البيانات. إذا كان هناك مبدأ مركزي لشبكات البيانات، فهذا هو المبدأ - وهو أن التحكم في البيانات يجب أن ينتقل إلى المجال الذي يملكها. فكر في المجال باعتباره امتدادًا للمعرفة بالمجال - هذا هو الكيان التنظيمي أو مجموعة الأشخاص الذين يفهمون ماهية البيانات وكيفية ارتباطها بالعمل. هذا هو الكيان الذي يعرف سبب جمع مجموعة البيانات؛ كيف يتم استهلاكه ومن يقوم به؟ وكيف ينبغي أن يتم إدارتها خلال دورة حياتها.

تصبح الأمور أكثر تعقيدًا بعض الشيء بالنسبة للبيانات التي تتم مشاركتها عبر النطاقات، أو عندما تعتمد البيانات الموجودة ضمن نطاق واحد على البيانات أو واجهات برمجة التطبيقات من النطاقات الأخرى. مرحبًا بك في العالم الحقيقي، حيث نادرًا ما تكون البيانات جزيرة. هذا هو أحد الأماكن التي قد يصبح فيها تنفيذ الشبكات أمرًا صعبًا.

المبدأ الثاني هو أن البيانات يجب أن تعتبر منتج. وهذا في الواقع رؤية أكثر اتساعًا لما يتكون منه كيان البيانات، حيث إنه أكثر من مجرد قطعة من البيانات. البيانات أو مجموعة بيانات محددة ويأخذ المزيد من عرض دورة الحياة لكيفية تقديم البيانات وينبغي تقديمها المستهلكة. وجزء من تعريف المنتج هو هدف رسمي لمستوى الخدمة، والذي يمكن أن يتعلق بعوامل مثل الأداء والجدارة بالثقة والموثوقية وجودة البيانات وقواعد الترخيص المتعلقة بالأمان وما إلى ذلك على. إنه وعد يقدمه المجال الذي يمتلك البيانات للمؤسسة.

على وجه التحديد، يتجاوز منتج البيانات مجموعة البيانات أو كيان البيانات ليشمل التعليمات البرمجية لخطوط أنابيب البيانات اللازمة لإنشاء و/أو تحويل البيانات؛ البيانات الوصفية المرتبطة (والتي بالطبع يمكن أن تشمل كل شيء بدءًا من تعريف المخطط وحتى الأعمال ذات الصلة مصطلحات المسرد أو نماذج الاستهلاك أو النماذج مثل الجداول العلائقية، والأحداث، والملفات الدفعية، والنماذج، والرسوم البيانية، إلخ.)؛ والبنية التحتية (كيف وأين يتم تخزين البيانات ومعالجتها). وهذا له تداعيات تنظيمية كبيرة، نظرًا لأن بناء خطوط أنابيب البيانات غالبًا ما يكون أمرًا صعبًا يتم التعامل مع النشاط المفكك بشكل مستقل من قبل ممارسين متخصصين مثل مهندسي البيانات و المطورين. على الأقل في سياق المصفوفة، يجب أن يكونوا جزءًا من المجال أو فريق العمل الذي يمتلك البيانات أو يرتبطوا به.

وبالمناسبة، يحتاج منتج البيانات هذا إلى تلبية بعض المتطلبات الأساسية. يجب أن تكون البيانات بسهولة قابل للاكتشاف؛ من المفترض أن هذا هو الغرض من الكتالوجات. وينبغي أن يكون كذلك قابلة للاستكشاف, تمكين المستخدمين من التعمق. ويجب أن يكون كذلك قابل للعنونة؛ هنا، يذكر دهقاني أن البيانات يجب أن تحتوي على عناوين أساسية فريدة، والتي تبدو وكأنها تجريد عالي المستوى لبقايا الويب الدلالية، يوري الكلاسيكية. وأخيرا، ينبغي أن تكون البيانات مفهومة (يقترح دهقاني "دلالات وتركيب جملة تصف نفسها بنفسها")؛ جدير بالثقة؛ و يؤمن. دعونا لا ننسى أنه نظرًا لأن هذا يهدف إلى عبور مجالات متعددة، فإن جهود تنسيق البيانات ستكون ضرورية.

على الرغم من أن شبكة البيانات لا يتم تعريفها بالتكنولوجيا، إلا أنه في العالم الحقيقي، ستمتلك مجموعات هندسية محددة منصة البيانات الأساسية، سواء كانت قاعدة بيانات و/أو بحيرة بيانات و/أو محرك تدفق. ينطبق ذلك بغض النظر عما إذا كانت المؤسسة تنفذ هذه الأنظمة الأساسية محليًا أو تستفيد من خدمة قاعدة البيانات المُدارة في السحابة، وعلى الأرجح، في كلا المكانين. يحتاج شخص ما إلى امتلاك النظام الأساسي الأساسي، وسيتم اعتبار هذه المنصات منتجات أيضًا في المخطط الكبير للأشياء.

منصة بيانات الخدمة الذاتية

الائتمان: أعمال الفكر

المبدأ الثالث هو ضرورة توفر البيانات عبر منصة بيانات الخدمة الذاتية كما هو مبين أعلاه. وبطبيعة الحال، أصبحت الخدمة الذاتية شعارًا للوصول إلى البيانات على نطاق أوسع لأنها الطريقة الوحيدة لتصبح البيانات قابلة للاستهلاك مع توسع ملكية البيانات، نظرًا لأن موارد تكنولوجيا المعلومات محدودة، خاصة مع مهندسي البيانات النادرين ثمين. لا ينبغي الخلط بين ما تصفه هنا ومنصات الخدمة الذاتية لتصور البيانات أو علماء البيانات؛ هذا أكثر لمطوري البنية التحتية والمنتجات.

يمكن أن تحتوي هذه المنصة، كما يقول الدهقاني، على مستويات (أو واجهات) مختلفة تخدم قطاعات مختلفة من الممارسين. يمكن أن تشمل الأمثلة مستوى توفير البنية التحتية، الذي يتعامل مع جميع الآليات المادية القبيحة لتنظيم البيانات (مثل توفير التخزين؛ وضع ضوابط الوصول؛ ومحرك الاستعلام)؛ تجربة تطوير المنتج التي توفر واجهة تعريفية لإدارة دورة حياة البيانات؛ وطائرة الإشراف التي تدير منتجات البيانات. يحصل دهقاني على معلومات أكثر شمولاً حول ما يجب أن تدعمه منصة بيانات الخدمة الذاتية، و هنا القائمة.

وأخيرا، لا يوجد نهج كامل لإدارة البيانات دون الحوكمة. هذا هو المبدأ الرابع، وهو ما يقوله الدهقاني الإدارة الحسابية الموحدة. وهذا يعترف بحقيقة أنه في بيئة موزعة، سيكون هناك منتجات بيانات متعددة ومترابطة يجب أن تعمل بشكل متداخل، وبذلك تدعم تفويضات سيادة البيانات والقواعد المصاحبة للاحتفاظ بالبيانات و وصول. ستكون هناك حاجة إلى فهم نسب البيانات وتتبعها بشكل كامل.

مشاركة واحدة لن تنصف هذا الموضوع. ومع المخاطرة بتشويه الفكرة، فهذا يعني اتحادًا لمنتجات البيانات والبيانات يقوم مالكو منتجات النظام الأساسي بإنشاء وتنفيذ مجموعة عالمية من القواعد المطبقة على جميع منتجات البيانات و واجهات. ما هو مفقود هنا هو أنه يجب أن يكون هناك توفير للإدارة العليا عندما يتعلق الأمر بالسياسات والتفويضات على مستوى المؤسسة؛ تستنتج دهقاني ذلك (نأمل أن يصبح كتابها أكثر تحديدًا). في جوهر الأمر، يشير دهقاني إلى ما يحتمل أن يكون ممارسة غير رسمية اليوم، حيث يتم بالفعل اتخاذ الكثير من القرارات المخصصة بشأن الحكم على المستوى المحلي.

الحوكمة الحسابية الفيدرالية

الائتمان: أعمال الفكر

فهل يجب أن تجرب هذا في المنزل؟

لم تحظى موضوعات قليلة بقدر كبير من الاهتمام في عالم البيانات خلال العام الماضي مثل تشابك البيانات. أحد المحفزات هو أنه في عالم يعتمد بشكل متزايد على السحابة حيث تتحلل التطبيقات ومنطق الأعمال إلى خدمات صغيرة، لماذا لا نتعامل مع البيانات بنفس الطريقة؟

الجواب أسهل من الفعل. على سبيل المثال، في حين أن الأنظمة المتجانسة يمكن أن تكون جامدة وغير عملية، تقدم الأنظمة الموزعة تعقيداتها الخاصة، مرحباً بك أم لا. وهناك خطر خلق صوامع جديدة، ناهيك عن الفوضى، عندما لا يتم التفكير بالقدر الكافي في التمكين المحلي.

على سبيل المثال، من المفترض أن يكون تطوير خطوط أنابيب البيانات جزءًا من تعريف منتج البيانات، ولكن عندما يمكن إعادة استخدام خطوط الأنابيب هذه في مكان آخر، يجب توفير الترتيبات اللازمة لفرق منتجات البيانات لمشاركة بياناتها الملكية الفكرية. خلاف ذلك، هناك الكثير من الجهود المكررة. ويدعو دهقاني الفرق إلى العمل في بيئة اتحادية، ولكن هنا يكمن الخطر في الزحف على أرض شخص آخر.

قد يكون توزيع إدارة دورة حياة البيانات أمرًا تمكينيًا، ولكن في معظم المؤسسات، من المحتمل أن يكون هناك الكثير من الحالات التي ملكية البيانات ليست واضحة المعالم بالنسبة للسيناريوهات التي تتقاسم فيها مجموعات متعددة من أصحاب المصلحة الاستخدام أو حيث تكون البيانات مستمدة من بيانات شخص آخر بيانات. يقر دهقاني بذلك، مشيرًا إلى أن النطاقات عادةً ما تحصل على البيانات من مصادر متعددة، وفي بدورها، قد تقوم المجالات المختلفة بتكرار البيانات (وتحويلها بطرق مختلفة) لصالحها استهلاك.

تتشابك البيانات كمفاهيم قيد التقدم. تشير دهقاني في مقالتها الافتتاحية إلى نهج رئيسي لجعل البيانات قابلة للاكتشاف: من خلال ما تسميه "دلالات الوصف الذاتي". لكن وصفها مختصر الإشارة إلى أن استخدام "بناء الجملة الموصوف جيدًا" المصحوب بمجموعات البيانات النموذجية ومواصفات المخطط هي نقاط بداية جيدة - لمهندس البيانات، وليس للشركة المحلل. إنها نقطة نود أن نرى جسدها في كتابها القادم.

هناك متطلب رئيسي آخر، وهو الحوكمة "الحسابية" الفيدرالية، يمكن أن يكون نطقه لفظيًا، ولكن سيكون أكثر من ذلك للتنفيذ، كما توضح نظرة على الرسم البياني أعلاه. إن إضفاء الطابع المحلي على القرارات بالقرب من المصدر مع عولمة القرارات المتعلقة بقابلية التشغيل البيني سيتطلب قدرًا كبيرًا من التجربة والخطأ.

بعد كل ما قيل، هناك أسباب وجيهة وراء إجراء هذه المناقشة. هناك انقطاع في الاتصال بالبيانات، والعديد من المشكلات ليست جديدة. لا يمكن للبنية المركزية، مثل مستودع بيانات المؤسسة أو بحيرة البيانات أو بحيرة البيانات، أن تحقق العدالة في عالم متعدد اللغات. من ناحية أخرى، يمكن تقديم الحجج لصالح نهج نسيج البيانات الذي يؤكد على أن النهج الأكثر مركزية لإدارة البيانات الوصفية واكتشاف البيانات سيكون أكثر كفاءة. هناك أيضًا سبب يدعو إلى اتباع نهج هجين يستغل قوة البيانات الوصفية الموحدة يمكن استخدام إدارة نسيج البيانات كلوحة معززة منطقية للمجالات لبناء وامتلاك بياناتها منتجات.

نقطة الألم الأخرى هي أن عمليات التعامل مع البيانات في كل مرحلة من مراحل دورة حياتها غالبًا ما تكون منفصلة قد يتم فصل مهندسي البيانات أو مطوري التطبيقات الذين يقومون ببناء خطوط الأنابيب عن المؤسسات الخطية التي تقوم بنقل البيانات يخدم. أصبحت الخدمة الذاتية شائعة لدى محللي الأعمال من أجل التصور، ولدى علماء البيانات في تطوير نماذج تعلم الآلة ونقلها إلى الإنتاج. هناك سبب وجيه لتوسيع هذا الأمر ليشمل إدارة دورة حياة البيانات للفرق التي، بكل المنطق، يجب أن تمتلك البيانات.

لكن دعونا لا نتقدم على أنفسنا. هذه أشياء طموحة للغاية. عندما يتعلق الأمر بتوزيع إدارة وملكية أصول البيانات، كما ذكرنا سابقًا، فإن الشيطان يكمن في التفاصيل. وهناك الكثير من التفاصيل التي لا تزال بحاجة إلى تسويتها. لم نقتنع بعد بأن مثل هذه الأساليب التصاعدية لامتلاك البيانات سوف تتوسع عبر ملكية بيانات المؤسسة بأكملها، وهذا ربما ينبغي لنا أن نوجه أنظارنا بشكل أكثر تواضعًا: قصر الشبكة على أجزاء من المنظمة ذات صلة أو مترابطة المجالات.

كانت رؤية عدة مشاركات حيث العملاء يعلنون النصر قبل الأوان. ولكن كما هذا المشنور الحالات، لمجرد أن مؤسستك قامت بتنفيذ طبقة استعلام موحدة أو تقسيم بحيرات البيانات الخاصة بها، لا يؤدي ذلك إلى جعل نشرها عبارة عن شبكة بيانات. في هذه المرحلة، يجب التعامل مع تنفيذ شبكة البيانات بكل إدارتها الموزعة كدليل على المفهوم.

البيانات الكبيرة

كيفية معرفة ما إذا كنت متورطًا في عملية اختراق للبيانات (وماذا تفعل بعد ذلك)
تبدأ مكافحة التحيز في الذكاء الاصطناعي بالبيانات
توقعات عادلة؟ كيف يقدم 180 من خبراء الأرصاد الجوية بيانات الطقس "الجيدة بما فيه الكفاية"
تعتمد علاجات السرطان على كميات مذهلة من البيانات. وإليك كيفية فرزها في السحابة
  • كيفية معرفة ما إذا كنت متورطًا في عملية اختراق للبيانات (وماذا تفعل بعد ذلك)
  • تبدأ مكافحة التحيز في الذكاء الاصطناعي بالبيانات
  • توقعات عادلة؟ كيف يقدم 180 من خبراء الأرصاد الجوية بيانات الطقس "الجيدة بما فيه الكفاية"
  • تعتمد علاجات السرطان على كميات مذهلة من البيانات. وإليك كيفية فرزها في السحابة