يقوم كافكا بتوجيه خرطوم البيانات الضخمة

  • Oct 13, 2023

لقد برز كافكا كركيزة مفتوحة المصدر المفضلة لإدارة السيول الضخمة من الأحداث. ويتمثل التحدي في تحسين الأدوات ورفع مستوى الأمان بما يتجاوز المصادقة الأساسية.

خرطوم الإطفاء.jpg

كانت منصات Hadoop والبيانات الضخمة معروفة في الأصل بالحجم وليس السرعة. لكن وصول محركات الحوسبة عالية الأداء مثل Spark ومحركات البث مهد الطريق للجمع بين المعالجة المجمعة والمعالجة في الوقت الفعلي معًا.

ولكن ماذا يحدث عندما تمتد شهيتك للبيانات الضخمة إلى عشرات المصادر والكميات التي تعكس مستويات حركة المرور لموقع ويب عام؟ أو ماذا عن التعامل مع عالم إنترنت الأشياء؟ تم إعداد المرافق الحالية لمشروع Hadoop، مثل Flume، لاستيعاب التدفقات واحدًا تلو الآخر إلى HDFS كهدف مشترك.

واجهت LinkedIn هذه المشكلة مرة أخرى في عام 2009 عندما أرادت حلاً أكثر تفصيلاً وفي الوقت الفعلي لتتبع سلوك المستخدم على موقعها الإلكتروني. كانت المشكلة هي أن بدائل المراسلة مفتوحة المصدر الحالية تحب RabbitMQ و ActiveMQ فقط لم يكن حجمها. وبدلاً من ذلك، تحول موقع LinkedIn إلى تطور جديد في نمط تكنولوجي راسخ: النشر/الاشتراك (PubSub) المراسلة.

تعتبر أنظمة المراسلة PubSub، التي يعود تاريخها إلى أوائل التسعينات، بمثابة الغراء الذي سمح بذلك المؤسسات لربط أنظمة الواجهة الأمامية الجديدة بالعمود الفقري المالي أو المعاملات المالية القديمة غير المنقولة أنظمة. لقد تم اعتبارها عادةً أبسط من الناحية التشغيلية مقارنةً بالأكثر تفصيلاً

تكامل تطبيق المؤسسة المخططات. PubSub هي التكنولوجيا التي تدور حولها تيبكو ولد.

بالنسبة إلى لينكد إن، كافكا كانت النتيجة. يتطلب الأمر إرسال رسائل PubSub وتوسيع نطاقها على نطاق واسع؛ يمكنه الاحتفاظ بالرسائل وتوزيعها التي تصل إلى ملايين السجلات في الثانية. يتم تقسيم تدفقات البيانات إلى موضوعات تتعلق بأنواع محددة من الأنشطة أو الكيانات أو الفئات. على عكس أنظمة البث، لا يقوم كافكا بتصفية الرسائل أو السجلات، وعلى عكس أنظمة المراسلة القديمة مثل آي بي إم إم كيو، لا يقوم بالتوجيه. لكن إذا كان عليك التعامل مع خرطوم حريق، فإن كافكا هو طفلك.

حالة الاستخدام النموذجية لـ Kafka تدور حول المراقبة المباشرة، مثل تتبع نشاط موقع الويب وسلوك المستخدم. لكن حالة الاستخدام التي تفتح المجال مفتوحًا على مصراعيه لـ Kafka هي نفس الحالة التي جعلت البث أيضًا في المقدمة للعديد من المؤسسات: أي شيء يتعلق بإنترنت الأشياء. ويمكن أن يكون كافكا مفيدًا أيضًا في معالجة السجلات (أو الأحداث) في الوقت الفعلي لسيناريوهات تتراوح من تحسين سلسلة التوريد إلى حالات استخدامات القطاع العام مثل الامتثال الضريبي في الوقت الفعلي.

نظرًا لأن كافكا مرتبط بالبيانات المتحركة، فغالبًا ما يتم الخلط بينه وبين محركات التدفق. لكن كافكا يعمل كشرطي مرور، حيث يعمل كنقطة استيعاب من الدفق، أو نقطة نقل إلى الدفق.

لكن التحدي يكمن في أن كافكا، باعتبارها تكنولوجيا مفتوحة المصدر، مجرد عظام إلى حد ما. تفتقر التكنولوجيا الأساسية مفتوحة المصدر إلى نوع بيئات التطوير والتكوين والمراقبة المرئية التي قد تكون ضرورية لاعتماد المؤسسات على نطاق واسع.

مجتمع هو الاستثناء الذي يثبت القاعدة؛ فهو يوفر واجهة أمامية مرئية مصقولة ومركزًا للإدارة مخصصًا لاستهلاك المؤسسات. يتضمن إطار التكامل يتضمن موصلات معتمدة لعشرات قواعد البيانات ومحركات البث ومجموعات التخزين وواجهات برمجة التطبيقات لتطوير موصلات مخصصة؛ أ وحدة إدارة التي توفر رؤية أكثر تفصيلاً للعمليات مقارنةً بألواح Hadoop الزجاجية ذات الأغراض العامة؛ والخاصة بها واجهة برمجة التطبيقات المتدفقة، فقط في حالة رغبتك في الحصول على مركز واحد يتعامل مع كل عمليات التكامل ومعالجة الدفق.

في الواقع، منافسة كافكا ليست ناقلات رسائل أخرى، ولكن المنصات التي تؤدي المزيد من العمل النهائي لدمج وتوجيه تدفقات البيانات. منافسة Confluent بدورها هي المنصات التي تضيف الوظائف المحيطة للتكامل والتحليلات وتطوير التطبيقات إلى جزء الرسائل الأساسي.

لذلك، في حين أن معظم منصات Hadoop وقواعد بيانات NoSQL والخدمات السحابية تدعم كافكا، فإن الكثير منها يقدم خدمات مُدارة منافسة. أمازون حركة هي خدمة تدير عملية الاستيعاب وتوفر بيئة لتطوير تطبيقات البيانات المتدفقة وتشكيل استعلامات SQL. حتى لا يتفوق عليها، جوجل سحابة البيانات يوفر بيئة مُدارة لتوفير الخدمات اللازمة لدعم تطبيقات التدفق والدفعات التي يتم تنفيذها على خطوط أنابيب البيانات؛ ال أباتشي شعاع يأخذ المشروع واجهة برمجة التطبيقات (API) من تلك الخدمة للسماح لك بخلط المكونات المختلفة ومطابقتها، بما في ذلك المراسلة ضمن نموذج برمجة مشترك.

ومن ناحية هادوب، تيارات MapR One-ups Confluent عن طريق نقل وساطة الرسائل مباشرة إلى مجموعة Hadoop (التي تعمل MapR على تحويلها تدريجيًا إلى منصة أوسع لتخزين البيانات والتطبيقات). في أثناء، تدفق بيانات هورتونوركس لا يتنافس بشكل مباشر مع كافكا (يمكن تغذيته بواسطة كافكا)، ولكنه يوفر الأدوات المساعدة لإدارة تكامل وتدفق البيانات في اتجاه مجرى النهر

لقد اكتسب كافكا نظامًا بيئيًا واسعًا من الدعم التجاري، ووفقًا لشركة Confluent، فإن ما يقرب من ثلث Fortune 500 يستخدمه بالفعل. لكن لكي يكتسب كافكا جاذبية سائدة، فإنه يتطلب نظامًا بيئيًا أوسع للأدوات؛ وبصرف النظر عن عروض Confluent، فإن أدوات الإدارة بدائية. مثل تجربة نتفليكس كما يظهر، لا تزال هناك مشكلات في البداية إذا كنت تريد نشر كافكا على نطاق واسع في السحابة.

علاوة على ذلك، فإن الأمان، في شكل دعم المصادقة، لم يصل إلى كافكا إلا مؤخرًا. تمامًا كما قام موفرو Hadoop برفع مستوى لعبتهم من خلال الوصول الإضافي القائم على الأدوار والنسب، يتطلب كافكا إمكانات ذات مستوى أعلى من شأنها أن تجعل من الأسهل إدارة الأمن، خاصة مع توسع أعداد المستخدمين للاستفادة من تدفقات البيانات الضخمة التي يوفرها محرك PubSub الصغير الذي يمكنه يسلم.