الرسم البياني والتعلم الآلي والضجيج وما بعده: إصدارات قاعدة بيانات ArangoDB مفتوحة المصدر متعددة النماذج الإصدار 3.7

  • Sep 14, 2023

قاعدة بيانات فريدة ومتعددة النماذج ومفتوحة المصدر، مصممة من الألف إلى الياء ليتم توزيعها. يواكب ArangoDB العصر ويستخدم الرسم البياني والتعلم الآلي كنقاط دخول لعروضه.

لو المصدر المفتوح هو الوضع الطبيعي الجديد في برامج المؤسسة، فهذا بالتأكيد يحمل لقواعد البيانات، أيضاً. في هذا الخط من التفكير، جيثب هو المكان الذي يحدث فيه كل شيء. لذا، لكي تكون مفضلاً 10.000 مرة على Github، يجب أن تقول شيئًا عن المشروع. مفتوح المصدر ArangoDB، والذي يقدم أيضًا نسخة المؤسسة، لديه ضرب هذا المعلم في الآونة الأخيرة.

في أغسطس. في 27 أكتوبر، تعلن ArangoDB عن إصدارها الجديد 3.7، والذي يأتي مع ميزات جديدة مثيرة للاهتمام حول الرسم البياني. ننتهز الفرصة لمناقشة سوق قواعد البيانات والرسم البياني وما بعده، مع الرئيس التنفيذي والمؤسس المشارك كلوديوس واينبرجر ورئيس قسم الهندسة والتعلم الآلي يورج شاد.

السحابة والتعلم الآلي جاهزان

تأسست ArangoDB في كولونيا في عام 2014 على يد كلاوديوس واينبرجر وفرانك سيلر المخضرمين في OnVista. وقام الفريق عناوين الأخبار في عام 2019 مع 10 ملايين دولار في السلسلة A التمويل بقيادة Bow Capital. وكما أشار واينبرغر، فهو وشريكه المؤسس يعملان معًا لمدة 20 عامًا، ولم يكن قرار متابعة رؤيتهما فكرة وليدة اللحظة:

"الفكرة الرئيسية لـ ArangoDB، والتي لا تزال صالحة حتى اليوم، هي ما نسميه النهج الأصلي متعدد النماذج. وهذا يعني أننا وجدنا طريقة يمكننا من خلالها الجمع بين نموذج بيانات مستند JSON ونموذج الرسم البياني ونموذج القيمة الرئيسية في قاعدة بيانات أساسية واحدة ولغة استعلام واحدة."

اليوم ArangoDB هي شركة أمريكية ولها شركة ألمانية فرعية، لديها رئيس جديد للإيرادات، مات إيكستروم، ورئيس جديد للهندسة، شاد. انضم Schad إلى ArangoDB العام الماضي ولكنه كان يعمل مع ArangoDB على مدار السنوات الأربع الماضية. بفضل حصوله على درجة الدكتوراه في أنظمة قواعد البيانات، وتحليلات البيانات الموزعة، وأنظمة حاويات البنية التحتية واسعة النطاق، قام شاد بالتبديل بين قواعد البيانات.

هناك عاملان رئيسيان جعلاه ينضم إلى فريق ArangoDB: التوزيع في بيئة سحابية والتعلم الآلي (ML). لقد كان ArangoDB من أوائل المستخدمين لكليهما أباتشي ميسوس/DC/OS و كوبرنيتس. مؤخراً، سادت Kubernetes، ويأتي ArangoDB 3.7 مع التوفر العام لمشغل Kubernetes الخاص به، والذي تم تطويره على مدار السنوات الثلاث الماضية.

يعد مشغل Kubernetes الخاص بـ ArangoDB أيضًا الأساس لـ واحة الخدمة المدارة، متوفر في AWS وAzure وGCP. يتضمن الإصدار الجديد عددًا من التحسينات لاستبدال الخوادم وحركتها بشكل أسرع المراقبة وتحليل صحة المجموعة، والفحص المتقدم لأسباب فشل الكبسولة، وانخفاض الموارد بشكل عام الاستخدام. تنطبق أيضًا تحسينات قابلية التوسع للمجموعة للنشر المحلي.

يتم وصف ArangoDB كحل لتوحيد البيانات الوصفية عبر خطوط أنابيب التعلم الآلي

لقد تم الترويج لـ ArangoDB ArangoML: استخدام ArangoDB كبنية تحتية للفرق التي تستخدم ML. الفكرة هي أنه بالإضافة إلى بيانات التدريب، والتي تعد شرطًا أساسيًا لتدريب نماذج تعلم الآلة، فإن البيانات الوصفية مهمة أيضًا، واستخدام ArangoDB يعد تطابقًا جيدًا لذلك. لقد جادلنا منذ فترة طويلة من أجل أهمية البيانات الوصفية. ولكن لماذا ArangoDB وليس أي نظام آخر لإدارة البيانات؟

أشار شاد إلى خبرته في بناء مسارات التعلم الآلي لحالات استخدام التمويل والرعاية الصحية. أحد أكبر التحديات التي رآها كانت هناك مسارات تدقيق لـ CCPA أو اللائحة العامة لحماية البيانات، مما يجعل من الضروري الحصول على رؤية كاملة لخط الأنابيب بأكمله. وكان عليهم معرفة ما يحدث إذا سحب المرضى موافقتهم على استخدام بياناتهم، على سبيل المثال.

كان مجرد القدرة على تحديد نماذج التعلم الآلي المختلفة المنتشرة في الإنتاج أمرًا صعبًا للغاية لأنه كان عليهم ذلك قم بالاطلاع على عدد من مخازن البيانات التعريفية المختلفة - بالنسبة لجزء ML، وجزء تحويل ميزات البيانات، وما إلى ذلك على. لذلك أرادوا أن يكون لديهم طبقة مشتركة تحتوي على جميع البيانات التعريفية حيث سينتهي الأمر باستعلام واحد.

وقال شاد إن الأنظمة العلائقية ليست مناسبة. قد يتم اشتقاق ميزات التعلم الآلي من ميزات أخرى، مما يعني الحصول في النهاية على الكثير من الصلات، وخاصة الكثير من الصلات الذاتية. بصرف النظر عن كونها قبيحة في الكتابة والصيانة، فإن هذه الاستعلامات لا تؤدي أداءً جيدًا أيضًا. لذلك بدأ هذا يبدو وكأنه حالة لقاعدة بيانات الرسم البياني - هذه هي أنواع الاستعلامات قواعد بيانات الرسم البياني يمتاز في.

من الرسم البياني إلى النماذج المتعددة والعودة مرة أخرى

ولكن لا يزال: لماذا ArangoDB؟ ArangoDB ليست قاعدة بيانات رسم بياني تقليدية - إنها قاعدة بيانات متعددة النماذج تدعم أيضًا الرسم البياني. الميزة وفقًا لـSchad هي أن هذا يمكّن المستخدمين من الجمع بين المرونة المتمثلة في عدم وجود مخطط، الاستفادة من عرض مستند JSON للنماذج المتعددة، مع هيكل كيفية ربط الأشياء كرسم بياني:

"في النهاية، بالنظر إلى النماذج التي تأثرت والتي تم استخلاصها من مجموعة بيانات واحدة فقط، فهو مجرد اجتياز رسم بياني. لذا فقد تبين أنه نموذج سهل حقًا، ومرن وفعال للغاية من حيث صياغة هذا الاستعلام والعديد من الاستعلامات الأخرى أيضًا."

ومضى شاد ليضيف أن ArangoML لديه موصلات للأنظمة البيئية الشهيرة لتعلم الآلة مثل Tensorflow وPyTorch، وهم يعملون الآن على تكامل Kubeflow. يمكن تطوير عمليات التكامل المخصصة باستخدام Python API. يدعم ArangoDB العملاء في Java وJavaScript وNodeJS وGo وPython وElixir وR وRust.

ومع ذلك، فإن عدم وجود مخطط لا يعد دائمًا ميزة إضافية. يقدم ArangoDB 3.7 دعم مخطط JSONمما يتيح للمستخدمين خيار التحقق من صحة جميع البيانات الجديدة المكتوبة في قاعدة البيانات، بالإضافة إلى تحليل صحة البيانات الموجودة. بالنسبة لنا، يبدو هذا متأخرا. قد لا يكون مخطط JSON أقوى آلية للمخططات الموجودة، ولكن بالنسبة لقاعدة البيانات التي تركز على JSON، فهو خيار طبيعي.

الفرضية الأساسية لقواعد البيانات متعددة النماذج هي تقديم العديد من طرق العرض لنفس البيانات. بالنسبة إلى ArangoDB، الرسم البياني هو عرض واحد، والمستند والقيمة الرئيسية هما العرضان الآخران

غيتي إميجز / آي ستوك فوتو

على الرغم من أن ArangoDB لديه نهج فريد خاص به، فقد لاحظنا أنه في العام الماضي أو نحو ذلك، تحولت رسائله قليلاً من جانب النماذج المتعددة إلى التركيز على الرسم البياني. وأكد موظفوها ذلك، مشيرين إلى أنهم يشهدون طلبًا كبيرًا على الرسم البياني. يأتي العديد من المستخدمين مع حالة استخدام للرسم البياني ويتوسعون في حالات الاستخدام متعددة النماذج لاحقًا.

ومع ذلك، يعتقد فريق ArangoDB أن هناك حاجة إلى المزيد من نماذج البيانات لدعم حالات استخدام الرسم البياني الفعالة والناجحة. الرسم البياني وما بعده، حيث يكون الرسم البياني حالة استخدام مركزية. حتى وقت قريب، كان الضجيج يدور حول الرسم البياني أيضًا. لكن أولئك الذين انخرطوا في الرسم البياني قبل أن يصبح الأمر رائعًا كانوا يعرفون أن الضجيج يأتي ويذهب، وكانوا يتوقعون أن يهدأ الضجيج في مرحلة ما.

العلامة الأولى جاءت الأسبوع الماضي, مع دورة الضجيج من Gartner للتكنولوجيا الناشئة في عام 2020 نقل "الرسوم البيانية والوجودية" إلى قاع خيبة الأمل. بصرف النظر عن حقيقة ذلك إن الخلط بين الرسوم البيانية والأنطولوجيات ليس له معنى كبير بالنسبة لنا، نحن نعتبر هذه مرحلة طبيعية في تطور التكنولوجيا الجديدة، أو في هذه الحالة، ليست جديدة تمامًا ولكنها لا تزال موضع دعاية.

وأشار شاد إلى أنه على الرغم من أن حالات استخدام الرسم البياني آخذة في الارتفاع، إلا أنه لا يزال هناك الكثير من التجارب والخطأ. على الرغم من أن حالات الاستخدام أصبحت أكثر نضجًا، إلا أن هناك بعض خيبة الأمل فيما يتعلق بحدود قابلية التوسع. بالنسبة لواينبرجر، إنها علامة جيدة على أن قصة الرسم البياني الشاملة تتقدم، ولكن توقع القيام بكل شيء بشكل أسرع من قواعد البيانات الأخرى لا ينبغي أن يكون السبب الرئيسي وراء نظر الناس إلى الرسوم البيانية.

الاشعال

  • ما هو الذكاء الاصطناعي؟ كل ما تحتاج إلى معرفته
  • ما هو التعلم الآلي؟ كل ما تحتاج إلى معرفته
  • ما هو التعلم العميق؟ كل ما تحتاج إلى معرفته
  • ما هو الذكاء العام الاصطناعي؟ كل ما تحتاج إلى معرفته

الرسم البياني وما بعده

يأتي ArangoDB 3.7 مزودًا بعدد من التحسينات حول إمكانيات الرسم البياني. تقوم SmartGraphs المنفصلة بتقسيم الرسوم البيانية الهرمية الكبيرة إلى مجموعة وتقسيم كل فرع من الرسم البياني بدقة لتنفيذ الاستعلام المحلي. يطبق SmartGraphs أسلوبًا ذكيًا آلية التقاسم، حيث اعتمادًا على كيفية إعداد البيانات، يحاول ArangoDB تقسيمها بطريقة يكون فيها عدد القفزات في حده الأدنى بين العقد.

باستخدام Disjoint SmartGraphs، إذا كانت الرسوم البيانية الفرعية الناتجة مقسمة فرعيًا بحيث تكون منفصلة، يمكن أن يؤدي عدد من التحسينات على مُحسِّن الاستعلام إلى دفع المزيد من العمليات الحسابية إلى الأسفل الخوادم. يسير برنامج SatelliteGraphs في اتجاه مماثل: تكرار الرسوم البيانية لكل عقدة عنقودية للاستعلام المحلي تنفيذ استعلامات متعددة النماذج، باستخدام نهج تلقائي لتكرار البيانات التعريفية عبر مختلف العقد.

تختلف عمليات العبور المتوازية قليلاً. ما تفعله هذه الميزة هو أنها تتيح بدء عدد من عمليات اجتياز الرسم البياني بالتوازي، في الحالات التي تتطلب تحديد أنماط معينة عبر رسم بياني كبير. وقال شاد إن هذا يتطلب حاليًا توجيه المستخدم، بينما سيتم تقديم الموازاة التلقائية في المستقبل.

من الواضح أن تركيز هذه الميزات، بالإضافة إلى النهج العام لـ ArangoDB، ينصب على الاستعلامات والتحليلات البيانية. وهذا أكثر وضوحًا، مع الأخذ في الاعتبار أن بعض أشكال المخططات قد تم تقديمها الآن. في مقال حديث، أعرب ArangoDB عن الموقف القائل بأن قد يكون النهج متعدد النماذج مفيدًا للرسوم البيانية المعرفية.

في حين أن الحجة الرئيسية، أي أن وجود قدرات متعددة النماذج تساعد في تحويل البيانات، صحيحة، فمن الصعب علينا أن نتصور كيف يمكن الحديث عن الرسوم البيانية المعرفية بدون مخطط. علاوة على ذلك، لم نرى تقديم الكعكة ذات الطبقات، مما يعني أن ArangoDB يمكن أن يكون ركيزة لها الرسوم البيانية المعرفية، مدعومة على الأقل ببعض طبقات التشغيل البيني مع معايير الرسم البياني في هذا الشأن نقطة.

يعتبر ArangoDB النماذج المتعددة بمثابة نهج جيد لمعالجة بعض المشكلات المتعلقة بالرسوم البيانية المعرفية. يبدو ذلك جيدًا، لكن هناك قطعًا مفقودة من تلك الكعكة. الصورة: أرانغو دي بي

عند مناقشة هذا الأمر مع فريق ArangoDB، ذكروا ذلك AQL، لغة الاستعلام الخاصة بـ ArangoDB، وهو جزء لا يتجزأ من قدراته متعددة النماذج. بينما سباركل لا يعمل مع ArangoDB، وهو أمر منطقي بالنظر إلى أن نموذج ArangoDB يدعم الرسوم البيانية للخصائص، تشارك ArangoDB في جهود توحيد لغة استعلام GQL للرسوم البيانية للخصائص.

ومن المفهوم أن هذا قد يستغرق بعض الوقت. ومن المفهوم أيضًا أن فريق ArangoDB أعرب عن اقتناعه بأن AQL ستظل الطريقة المفضلة للوصول إلى البيانات في ArangoDB. قالوا أيضًا إن الوضوح بشأن عدم التوافق مع SQL يأتي مع المنطقة. ومع ذلك، فإن ما لا يمكن فهمه بالنسبة لنا هو عدم وجود دعم لقابلية التشغيل البيني على مستوى استيراد/تصدير بيانات الرسم البياني.

دعم استيراد/تصدير RDF، على سبيل المثال، والذي توفره قواعد بيانات الرسوم البيانية الأخرى، سيكون فائدة واضحة. لاحظ فريق ArangoDB أن هناك عملًا مجتمعيًا يجري في هذا المجال، لكنه لم يتم بعد فتح المصدر أو تضمينه في توزيع ArangoDB. فيما يتعلق بقدرات الرسم البياني، نرى ArangoDB كمنتج نموذجي في فئة الرسم البياني للخصائص: أكثر ملاءمة للتحليلات، وأقل ملاءمة لتكامل البيانات/المعرفة إدارة.

بشكل عام، فإن إمكانيات ArangoDB متعددة النماذج ونهج التوزيع الأول يجعلها عرضًا مثيرًا للاهتمام لعدد من حالات الاستخدام. إذا كنت على استعداد للتعمق في منهجه الفريد ولديك حالات استخدام تتوافق معه، فمن المؤكد أنه يستحق النظر فيه.

البيانات الكبيرة

كيفية معرفة ما إذا كنت متورطًا في عملية اختراق للبيانات (وماذا تفعل بعد ذلك)
تبدأ مكافحة التحيز في الذكاء الاصطناعي بالبيانات
توقعات عادلة؟ كيف يقدم 180 من خبراء الأرصاد الجوية بيانات الطقس "الجيدة بما فيه الكفاية"
تعتمد علاجات السرطان على كميات مذهلة من البيانات. وإليك كيفية فرزها في السحابة
  • كيفية معرفة ما إذا كنت متورطًا في عملية اختراق للبيانات (وماذا تفعل بعد ذلك)
  • تبدأ مكافحة التحيز في الذكاء الاصطناعي بالبيانات
  • توقعات عادلة؟ كيف يقدم 180 من خبراء الأرصاد الجوية بيانات الطقس "الجيدة بما فيه الكفاية"
  • تعتمد علاجات السرطان على كميات مذهلة من البيانات. وإليك كيفية فرزها في السحابة