The Ring Zero لمعالجة البيانات في الوقت الفعلي: تحصل Redpanda على تمويل بقيمة 50 مليون دولار من السلسلة B لتنمية منصة البث الخاصة بها

  • Sep 06, 2023

الحفاظ على التوافق مع معايير السوق الفعلية أثناء إعادة تنفيذها وتوسيع نطاقها. إن القول أسهل من الفعل، ولكن هذا ما تفعله Redpanda، ويبدو أنه يعمل.

تعد معالجة البيانات في الوقت الفعلي أمرًا ساخنًا. لقد كان الرواد مثل Netflix يقومون بذلك منذ سنوات وجني الفوائد. كبيرة على البيانات لقد كان على هذا لسنوات أيضا. والآن يبدو أن بقية العالم يلحق بالركب.

زد نت يوصي

أفضل خدمات بث الفيديو

هناك نوعان من خدمات البث المدفوعة: الفيديو حسب الطلب (Netflix وAmazon Prime) والبث التلفزيوني المباشر (Sling TV وYouTubeTV). إليك أفضل باقات VOD.

اقرا الان

من المتوقع أن يشهد سوق التحليلات المتدفقة (والتي قد تكون، حسب التعريفات، مجرد جزء واحد من معالجة البيانات في الوقت الفعلي) ستنمو من 15.4 مليار دولار أمريكي في عام 2021 إلى 50.1 مليار دولار أمريكي في عام 2026، بمعدل نمو سنوي مركب (CAGR) يبلغ 26.5% خلال الفترة المتوقعة حسب الأسواق والأسواق.

اليوم، بيانات ريدباندا أعلنت شركة Vectorized (المعروفة سابقًا باسم Vectorized) أنها جمعت 50 مليون دولار أمريكي من تمويل السلسلة B، بقيادة GV بمشاركة Lightspeed Venture Partners (LSVP) وHaystack VC. تم إصدار Redpanda في أوائل عام 2021، ويُوصف بأنه منصة بث حديثة تمنح المطورين تجربة مشاهدة ممتعة نظام تسجيل أبسط وأسرع وأكثر موثوقية وموحدًا للمؤسسات التاريخية في الوقت الفعلي بيانات.

لقد التقينا بمؤسس Redpanda ومديرها التنفيذي Alex Gallego لمناقشة أصول المنصة والمبدأ الرئيسي لها، بالإضافة إلى أساسيات الأعمال وخريطة الطريق.

التطور الطبيعي

شيء واحد يجب معرفته عن سوق معالجة البيانات في الوقت الفعلي هو أن هناك نوعًا من المعايير الفعلية هناك: Apache Kafka. لقد تابعنا كافكا وكونفلوينت، الشركة التي تقوم بتسويقها، منذ عام 2017. ZDNet كان توني باير وأندرو بروست مواكبين لذلك، حيث لخص باير تطور كافكا وكونفلوينت في أبريل 2021، عندما المتكدسة قدمت سرا للاكتتاب العام.

في عام 2019، اعتبر أكثر من 90% من الأشخاص الذين استجابوا لاستطلاع Confluent أن كافكا مهمة بالغة الأهمية للبنية التحتية لبياناتهم، وزادت الاستفسارات حول Stack Overflow بنسبة تزيد عن 50% خلال العام. على الرغم من أن كتاب Confluent قد يكون ناجحًا ومُعتمدًا على نطاق واسع مثل كافكا، إلا أن الحقيقة تظل ثابتة: تم وضع أسس كافكا في عام 2008.

مع تزايد اعتماد معالجة البيانات في الوقت الفعلي، أصبحت المخاطر أعلى، وأصبحت المتطلبات أكثر تطلبًا. عملت شركة Gallego في معالجة التدفق لمدة 13 عامًا تقريبًا قبل بدء العمل على محرك Redpanda. وفي عام 2016، باع شركة كونكورد، وهي شركة أخرى تعمل في مجال معالجة البيانات في الوقت الفعلي، لشركة أكاماي.

بدأ Redpanda باعتباره "التطور الطبيعي" لما اعتقد جاليجو أنه يجب أن يكون عليه البث المباشر. كان دافعه هو فهم الفجوة بين ما يمكن أن تفعله الأجهزة وما يمكن أن يفعله البرنامج:

"لقد قمت حرفيًا بتوصيل أجهزة الكمبيوتر الطرفية بالكابل من الخلف إلى الخلف فقط للتأكد من عدم وجود أي شيء بين هذين الكمبيوترين. وأردت فقط أن أقيس وأفهم: ما هو التطور الأساسي للأجهزة، وهل استفادت البرامج بالفعل من الأجهزة الحديثة؟" قال جاليجو.

تشير النتائج التي توصل إليها إلى أن الحلول الحالية، المصممة لأجهزة عمرها عقد من الزمن، كانت موجهة نحو معالجة ما كان يمثل قيودًا أساسية على الأجهزة في ذلك الوقت: القرص الدوار. ووجد أن القيد الجديد هو في الواقع تنسيق وحدة المعالجة المركزية.

Redpanda هو "التطور الطبيعي" لمعالجة البيانات في الوقت الفعلي، وفقًا لمؤسسها. الصورة: ريدباندا

في بعض الأحيان يتعين عليك إعادة اختراع العجلة عندما يتغير الطريق، هكذا لخص جاليجو النتائج التي توصل إليها. وفي عام 2017، شارك النتائج التي توصل إليها علنًا، وفي عام 2019، بدأ العمل على Redpanda. في الأصل كانت Redpanda عبارة عن منصة للخبراء على يد خبراء، وقال جاليجو: "لقد تم تصميمها للأشخاص مثلي: خبراء البث الذين يريدون شيئًا أكثر مع التخزين".

جاليجو ليس وحده مشيرا إلى أوجه القصور في كافكا. وقال جاليجو إن حوالي 40% من عملاء Redpanda هم خبراء في محركات البث المباشر. والأهم من ذلك، أن اختيار الحفاظ على التوافق مع Kafka API ونظام Kafka البيئي بأكمله قد تم اتخاذه في وقت مبكر. تمت كتابة محرك التخزين Redpanda قبل الشروع في بناء الشركة.

كان Redpanda في البداية مغلق المصدر. في أواخر عام 2020، تم توفير المصدر، باعتماد ترخيص BSL، مستوحى من CockroachDB. وقال جاليجو إن شركة Redpanda بدأت في عام 2021 بمئات العملاء. وبحلول منتصف العام، كانت أعدادهم بالآلاف، وانتهت العام بمئات الآلاف من مجموعات الباندا الحمراء.

الحلقة صفر لمعالجة البيانات في الوقت الحقيقي

وأشار جاليجو إلى أنه إلى جانب الخبراء، اجتذبت Redpanda أيضًا أشخاصًا لم يسمعوا قط عن البث المباشر من قبل. وفي الوقت نفسه، يشعر أن الفضل يعود إلى كافكا، بالإضافة إلى Pulsar وRabbitMQ وجميع أنظمة البث التي جاءت قبل Redpanda.

أيضًا: تنتقل البيانات إلى السحابة في الوقت الفعلي، وكذلك ScyllaDB 5.0

واعترف جاليجو بأن وسيط كافكا كان جزءًا أساسيًا في بناء البنية التحتية لتدفق البيانات. أقوى ما فعله كافكا هو أنه أنشأ نظامًا بيئيًا. حقيقة أن Kafka يتصل بشفافية بمنصات تتراوح من Spark Streaming وFlink وMaterialize إلى MongoDB وClickhouse يعني أن Redpanda تفعل ذلك أيضًا.

لا توجد قصص ترحيل للأبطال، ولا تغييرات في التعليمات البرمجية، فقط بعض التغييرات في التكوين، وكل شيء يعمل، هو الوعد. يبدو هذا بالتأكيد مقنعًا للجميع في قاعدة كافكا الكبيرة المثبتة. أصدرت Redpanda معيارًا يقارن منصتها بـ Kafka لدعم ادعاءات الأداء المتفوق.

تشمل حالات استخدام الحقول الخضراء والمساحات الخضراء في Redpanda شركات التكنولوجيا المالية والألعاب وشركات Adtech والسيارات الكهربائية الشركات المصنعة، وأكبر CDN في العالم، وبعض من أكبر البنوك، بالإضافة إلى أمثال Alpaca و سناب شات.

الميزة التي تميز Redpanda عن غيرها، ويعتقد Gallego أن هذا ساعد في تأهيل مستخدمين جدد للبث، هي حقيقة أنه يأتي في ملف ثنائي واحد، دون أي تبعيات خارجية على الإطلاق. ولكن هناك المزيد. بالنسبة للمبتدئين، حقيقة أن Redpanda تم تنفيذه في C++. هذه قصة رأيناها من قبل.. سيلا دي بي مقابل. كاساندرا يتبادر إلى الذهن.

تركز Redpanda على أن تصبح "Ring Zero" لتدفق البيانات: وجود نظام تدفق كمصدر للحقيقة

جورج اناديوتيس

الفرضية الرئيسية لـ Redpanda هي - محرك بسيط وسريع وموثوق ومتوافق مع Kafka. لكن جاليجو اختار التأكيد على شيء آخر: موحد، ويعني الوصول الموحد إلى البيانات. وقال جاليجو إن ذلك يسمح للمطورين ببناء فئة جديدة من التطبيقات التي لم يتمكنوا من إنشائها من قبل:

"بالنسبة للمطورين، فإن الاحتفاظ غير المحدود بالبيانات يعني أنه لا داعي للقلق بشأن التعافي من الكوارث، ولديهم الآن نسخة احتياطية. لا داعي للقلق مسبقًا بشأن قواعد البيانات أو الأنظمة النهائية الأخرى التي يحتاجون إلى تنفيذها. إنهم ببساطة يدفعون بياناتهم إلى Redpanda، ونحن هنا بشفافية، كما أن تخزين حتى بيتابايت من البيانات فعال من حيث التكلفة نسبيًا".

ما يركز عليه Redpanda، وفقًا لجاليجو، هو ما أسماه "Ring Zero": وجود نظام بث كمصدر للحقيقة، وهي ليست مشكلة محلولة، لكن Redpanda تتعامل معها بشكل مباشر. ومع ذلك، يجب أن نلاحظ أيضًا أن هناك بعض أجزاء أحجية البث التي لن يجدها المستخدمون في Redpanda، وهي المعالجة المعقدة أو واجهة SQL.

يقوم Gallego بتقسيم المعالجة النهائية إلى معالجة تدفق معقدة وتحويلات بسيطة. ادعى جاليجو أن التحولات البسيطة، مثل إخفاء المعلومات الخاصة والحساسة، يمكن إجراؤها بكفاءة أكبر باستخدام Redpanda. وذلك لأن التحويل يتم في Redpanda بدلاً من إرساله إلى محرك خارجي مثل Flink أو Spark.

للمضي قدما

أما بالنسبة لمعالجة التدفق المعقدة، سواء كانت SQL أو أي شيء آخر، فإن Redpanda يعتمد على النظام البيئي الشريك. يعتقد جاليجو أن وجود شركات تركز على طبقات محددة يؤدي إلى منتج أفضل. يمتد هذا المبدأ أيضًا إلى كيفية تعامل Redpanda مع التعلم الآلي في الوقت الفعلي.

بينما يعتقد جاليجو ذلك التعلم الآلي في الوقت الحقيقي آخذ في الارتفاع، فهو لا يرى أن Redpanda مناسب لهذه القصة فيما يتعلق بجزء خوارزميات التعلم الآلي. ويعترف بأن TensorFlows وSparkMLs في العالم قد غطت ذلك. ما يقدمه Redpanda إلى الطاولة هو صمام الضغط الخلفي القابل للتطوير والذي يسمح لخوارزمية التعلم الآلي بإعادة التشغيل.

يعد اكتشاف الاحتيال مثالًا نموذجيًا للتعلم الآلي في الوقت الفعلي. في السيناريو الذي يتم فيه اكتشاف التحيز في طلب درجة الائتمان، ستحتاج إلى العودة وإعادة معالجة السجل بأكمله، وهذا هو المكان الذي يتألق فيه Redpanda، كما قال جاليجو:

"يعني استخدام Redpanda أنك لست مضطرًا إلى تغيير طلبك لتتمكن من إعادة معالجة السجل الكامل لجميع الأحداث التي أدت إلى هذا القرار. ما يخلقه هذا حقًا هو محرك تسجيل جديد يسمح لخوارزميات التعلم الآلي بذلك إعادة معالجة البيانات، والحصول على عناصر تحكم في الوصول، وامتداد الضغط الخلفي إلى القرص في حالة حصولك على الكثير من البيانات حمولة".

وفيما يتعلق بمستقبل معالجة البيانات في الوقت الفعلي، يعتقد جاليجو أن كافكا وواجهة برمجة التطبيقات (API) الخاصة به هي قطعة أثرية تاريخية - بطريقة إيجابية. لقد انضم المطورون إلى النظام البيئي، وقاموا ببناء ملايين الأسطر من التعليمات البرمجية، ولكن المستقبل هو واجهة برمجة تطبيقات مختلفة، كما يعتقد جاليجو:

"أعتقد أن المستقبل بلا خادم. أعتقد أن المستقبل هو بروتوكول أقل ثقلاً من بروتوكول كافكا. أعتقد أن Redpanda هي شركة يمكنها منح الأشخاص كلا من A وB. "أ" هو التوافق مع هذا النظام البيئي الغني للغاية والذي سيكون مهمًا دائمًا، و"ب" لأننا أكثر ارتباطًا بتطور السوق من الدُفعة إلى الوقت الفعلي.

اليوم أصبح من الواضح أن Kafka API هي أفضل طريقة يمكننا من خلالها القيام بذلك. لكنني أعتقد أنها ستكون واجهة برمجة تطبيقات مختلفة في المستقبل، وستكون واجهة برمجة تطبيقات جديدة مصممة حقًا للطريقة التي يتم بها إنشاء التطبيقات الحديثة. "هكذا أرى قصة Redpanda".

ويبدو هذا وكأنه نهج يحاول المزاوجة بين البراغماتية والرؤية. لا يزال يتعين علينا أن نرى مدى قدرة Redpanda على تنمية قاعدة مستخدميها في الحقول الخضراء والمساحات الخضراء، ومع ذلك، تبدو علامات التبني مشجعة، كما تساعد إيماءة الثقة من المستثمرين.

ومن خلال أحدث ضخ لرأس المال، تمكنت Redpanda من جمع 76 مليون دولار حتى الآن وتخطط لتنمية فرقها الهندسية العالمية والذهاب إلى السوق مع تسارع تبني العملاء. بدأت الشركة عام 2021 مع أقل قليلاً من 20 موظفًا وانتهت العام بـ 60 موظفًا.

البيانات الكبيرة

كيفية معرفة ما إذا كنت متورطًا في عملية اختراق للبيانات (وماذا تفعل بعد ذلك)
تبدأ مكافحة التحيز في الذكاء الاصطناعي بالبيانات
توقعات عادلة؟ كيف يقدم 180 من خبراء الأرصاد الجوية بيانات الطقس "الجيدة بما فيه الكفاية"
تعتمد علاجات السرطان على كميات مذهلة من البيانات. وإليك كيفية فرزها في السحابة
  • كيفية معرفة ما إذا كنت متورطًا في عملية اختراق للبيانات (وماذا تفعل بعد ذلك)
  • تبدأ مكافحة التحيز في الذكاء الاصطناعي بالبيانات
  • توقعات عادلة؟ كيف يقدم 180 من خبراء الأرصاد الجوية بيانات الطقس "الجيدة بما فيه الكفاية"
  • تعتمد علاجات السرطان على كميات مذهلة من البيانات. وإليك كيفية فرزها في السحابة