يقوم منافس الذكاء الاصطناعي Cerebras بتجميع الكمبيوتر العملاق المعياري "Andromeda" لتسريع نماذج اللغات الكبيرة

  • Sep 04, 2023

إن أسلوب البناء الأساسي قادر على تقليل وقت الحوسبة بشكل كبير مقارنة بوحدات معالجة الرسومات بما يتناسب بشكل مباشر مع عدد الأجهزة التي تم ضمها معًا.

أبواب المخ أندروميدا مغلقة 2022

Andromeda عبارة عن مجموعة مكونة من 16 جهاز كمبيوتر CS-2 AI من Cerebras تم ربطها عبر مفتاح نسيج مخصص ويشرف عليها جهاز ذاكرة يقوم بتحديث إعدادات الشبكة العصبية. يقول سيريبراس إن برمجة الجهاز لتشغيل نماذج لغوية كبيرة هي بداية موجة من الحوسبة العنقودية في الذكاء الاصطناعي.

أنظمة سيريبراس

الرواج الحالي ل التعلم الالي إن البرامج التي تتعامل مع كميات هائلة من مدخلات اللغة الطبيعية تدفع حدود الحوسبة، وتعزز نوعًا خاصًا بها من سباق التسلح في الحواسيب الفائقة.

حيث كانت أجهزة الكمبيوتر العملاقة في السابق مخصصة للمشكلات العلمية فقط، أصبح تطوير برامج الذكاء الاصطناعي يُعرف باسم اللغة الكبيرة تدفع النماذج، أو LLMs، الشركات إلى البحث عن نفس القدرة الحصانية التي تمتلكها أفضل مختبرات الأبحاث في العالم.

على سبيل المثال، أعلنت شركة Nvidia، الشركة الرائدة في مجال رقائق الذكاء الاصطناعي، في سبتمبر/أيلول الماضي منشأة الحوسبة السحابية مخصصة لنماذج اللغات الكبيرة التي سيتم تأجيرها كخدمة من قبل المؤسسات.

الاثنين، أنظمة المخ, الشركة الناشئة التي يبلغ عمرها 6 سنوات، والتي يقع مقرها في سانيفيل بولاية كاليفورنيا، والتي تعد من بين مجموعة من الشركات التي تتحدى هيمنة نفيديا، كشفت النقاب عن حاسوب عملاق يسمى أندروميدا الذي ينفذ كوادريليون عملية حسابية على الفاصلة العائمة في الثانية، بقدر ما يفعله أفضل حاسوب عملاق في العالم، حدود، ويمكن أن يحقق ذلك تسريعًا كبيرًا في مهام مثل LLMs بما يتجاوز قدرة الآلاف من شرائح GPU.

أيضًا:يقول الفيلسوف ديفيد تشالمرز إن الذكاء الاصطناعي يمكن أن يتمتع بفرصة الوعي بنسبة 20% خلال 10 سنوات

خاصية مميزة

الاتجاهات التقنية التي يجب مراقبتها في عام 2023

تعرف على اتجاهات التكنولوجيا الرائدة التي سيعتمدها العالم خلال الأشهر الـ 12 المقبلة وكيف ستؤثر على حياتك وعملك.

اقرا الان

على عكس أجهزة الكمبيوتر العملاقة المصممة لهذا الغرض والتي يستغرق تجميعها سنوات من قبل صانعي الأنظمة مثل Hewlett Packard Enterprise وIBM، تتخذ آلة Andromeda منهجًا أساسيًا يجعلها معيارية وقابلة للتجميع في مكان واحد فقط أيام.

"ما استغرقهم سنوات، وقفنا في ثلاثة أيام، وما كلفهم 600 مليون دولار، يكلفنا أقل من 30 دولارا" قال أندرو فيلدمان، المؤسس المشارك والرئيس التنفيذي لشركة Cerebras، وهو يقارن أندروميدا بفرونتير في مقابلة: "مليون دولار" عبر التكبير.

وقال فيلدمان: "في غضون 10 دقائق من تجميع مجرة ​​أندروميدا بالكامل، "تمكنا من إظهار القياس الخطي دون تغيير سطر من التعليمات البرمجية". ويعني القياس الخطي أنه مع إضافة المزيد من الأجهزة الفردية إلى المجموعة، فإن الوقت المستغرق لإجراء العمليات الحسابية ينخفض ​​بشكل مباشر.

أيضًا:Cerebras تكشف النقاب عن خدمة سحابية كبيرة الحجم تعمل بالذكاء الاصطناعي بنظام "الدفع لكل نموذج" مع Cirrascale وJasper

على سبيل المثال، العلماء في مختبر أرجون الوطني التابع لوزارة الطاقة، كانوا يعملون مع آلة أندروميدا في وقت مبكر مراحل، خفض الوقت اللازم لتدريب نموذج لغوي كبير من 4.1 ساعة إلى 2.4 ساعة عن طريق مضاعفة عدد الآلات من اثنتين إلى أربعة.

سيتم تقديم آلة أندروميدا يوم الاثنين بواسطة فيلدمان من Cerebras في مؤتمر SC22، وهو تجمع لتقنيي الكمبيوتر العملاق يعقد هذا الأسبوع في دالاس، تكساس. ويعرض أيضًا علماء مختبرات أرجون ورقة بحثهم وصف باستخدام آلة Cerebras.

مجموعة أندروميدا عبارة عن مزيج من أجهزة كمبيوتر Cerebras CS-2، وآلات مخصصة للذكاء الاصطناعي بحجم ثلاجة في صالة نوم مشتركة. كل شريحة من آلات CS-2، محرك الويفر، أكبر أشباه الموصلات في العالم، يحتوي على 850.000 مركز حسابي يعمل بالتوازي ويتم تغذيته بواسطة 40 جيجابايت من ذاكرة SRAM السريعة الموجودة على الشريحة.

أيضًا: حصلت شركة Cerebras الناشئة لشرائح الذكاء الاصطناعي على جولة من السلسلة F بقيمة 250 مليون دولار بتقييم يزيد عن 4 مليارات دولار

تجمع مجموعة أندروميدا 16 من CS-2 بإجمالي 13.5 مليون نواة حسابية، أي أكثر بنسبة 60% من نظام Frontier. تؤدي ملايين النوى بالتوازي عمليات الجبر الخطي المضاعف اللازمة لتحويل عينات البيانات في كل طبقة من الشبكة العصبية. يحصل كل CS-2 على جزء من بيانات تدريب الشبكة العصبية للعمل عليها.

يتم ربط طائرات CS-2 معًا بواسطة محول بيانات خاص قدمته شركة Cerebras العام الماضي، يسمى Swarm-X، الذي يربط CS-2s بجهاز ثالث، Memory-X. تعمل Memory-X كمستودع مركزي لـ "الأوزان" أو المعلمات العصبية، التي يتم بثها إلى كل CS-2. يتم بعد ذلك تمرير نتيجة ضرب المصفوفة في كل CS-2 مرة أخرى عبر Swarm-X إلى Memory-X كملف تحديث متدرج للأوزان، ويقوم Memory-X بعمل إعادة حساب الأوزان، وتبدأ الدورة مرة أخرى.

تم تجميع أندروميدا بطريقة مكعبات البناء من خلال الجمع بين 16 جهاز كمبيوتر من نوع CS-2 AI من Cerebras مترابطة بواسطة مفتاح يسمى Swarm-X، يتواصل مع كمبيوتر تنسيق مركزي يقوم بتحديث الأوزان العصبية التي تسمى Memory-X.

أنظمة سيريبراس

تم تثبيت مجموعة أندروميدا كآلة متاحة في السحابة من قبل شركة سانتا كلارا، كاليفورنيا كولوفوروالتي تنافس في السوق على خدمات الاستضافة أمثال Equinix.

يكمن سر التصميم المعياري في إمكانية تنسيق أجهزة CS-2 كنظام واحد دون الحاجة إلى جهد البرمجة المتوازي الغريب المطلوب عادةً للكمبيوتر العملاق. يمكن لـ 192 طائرة CS-2 كحد أقصى أن تعمل معًا في وقت واحد، ويعتني برنامج Cerebras بالمستوى المنخفض وظائف توزيع الحساب على كل CS-2 وإدارة الوزن وحركة التدرج عبر Swarm-X قماش.

أيضًا: تستعد شركة Cerebras لعصر الشبكات العصبية ذات 120 تريليون معلمة

"على عكس أجهزة الكمبيوتر العملاقة التقليدية، يمكنك إرسال عملك كما لو كان مهمة واحدة على وحدة معالجة مركزية واحدة،" قال فيلدمان، مباشرة من دفتر ملاحظات Jupyter. "كل ما عليك فعله هو تحديد أربعة أشياء: ما هو النموذج وما هي المعلمات؛ كم عدد CS-2s من الـ 16 التي تريد استخدامها؛ المكان الذي تريد إرسال النتائج عند الانتهاء منه؛ والمدة التي تريد أن يستمر تشغيل النموذج خلالها - هذا كل شيء، لا توجد برمجة متوازية، ولا أعمال حوسبة موزعة."

تؤكد شركة Cerebras على سهولة تجميع وحدات CS-2 الخاصة بها، والتي لا تتطلب كتابة تعليمات برمجية موزعة ومتوازية غريبة.

أنظمة سيريبراس

أثبت المستخدمون الأوائل، مثل فريق أرجون، أن نهج أندروميدا يمكنه التغلب على بعض أجهزة الكمبيوتر العملاقة التي تستخدمه الآلاف من وحدات معالجة الرسومات Nvidia، وحتى أداء بعض المهام التي لا يمكن تشغيلها على أجهزة الكمبيوتر العملاقة بسبب الذاكرة محددات.

الذكاء الاصطناعي

  • 7 نصائح متقدمة للكتابة السريعة في ChatGPT تحتاج إلى معرفتها
  • أفضل 10 ملحقات ChatGPT لعام 2023 (وكيفية تحقيق أقصى استفادة منها)
  • لقد اختبرت الكثير من أدوات الذكاء الاصطناعي للعمل. هذه هي المفضلة لدي 5 حتى الآن
  • الإنسان أو بوت؟ تضع لعبة اختبار تورينج هذه مهاراتك في اكتشاف الذكاء الاصطناعي تحت الاختبار

يُعد بحث أرجون تطورًا جديدًا في نماذج اللغة الكبيرة: نموذج لغة بيولوجية، لا يتنبأ بمجموعات الكلمات في الجمل، بل بالمركبات البيولوجية في التسلسل الجيني. وعلى وجه الخصوص، ابتكروا طريقة للتنبؤ بالتسلسلات الجينية لمتغيرات الحمض النووي الفيروسي SARS-CoV-2 لكوفيد-19.

باستخدام نهج نموذج اللغة الكبير GPT-2 الذي أنشأته شركة OpenAI الناشئة، قام المؤلف الرئيسي مكسيم زفياجين وزملاؤه ببناء برنامج للتنبؤ بترتيب قواعد الأحماض النووية الأربعة في DNA و RNA، الأدينين (A)، السيتوزين (C)، الجوانين (G)، الثايمين (ت).

من خلال تغذية برنامج GPT-2 بتسلسلات أكثر من 110 مليون تسلسل جيني بدائيات النواة، ومن ثم "الضبط الدقيق" بـ 1.5 مليون تسلسل. جينومات مختلفة لـ SARS-CoV-2، طور البرنامج القدرة على التنبؤ بالطفرات المختلفة التي ظهرت في متغيرات كوفيد-19.

والنتيجة هي "نموذج لغة على نطاق الجينوم"، أو GenSLM، كما يسمي زفياجين وفريقه برنامجهم. ويمكن استخدامه للمراقبة الفيروسية، لتوقع ظهور متغيرات جديدة من فيروس كورونا كنوع من نظام الإنذار المبكر.

أيضًا: أعلن الرئيس التنفيذي لشركة Nvidia، Jensen Huang، عن توفر وحدة معالجة الرسومات "Hopper"، والخدمة السحابية لنماذج لغات الذكاء الاصطناعي الكبيرة

"نحن نقترح نظامًا يتعلم كيفية نمذجة أنماط تطور الجينوم الكامل باستخدام LLMs بناءً على البيانات المرصودة، ويمكّن من تتبع المركبات العضوية المتطايرة (المتغيرات المثيرة للقلق) بناءً على مقاييس اللياقة البدنية والهروب المناعي". يكتب.

اختبر المؤلفون برنامج GenSLM على حاسوبين عملاقين، Polaris، وهو مجموعة تضم أكثر من ألفي وحدة معالجة رسوميات Nvidia A100؛ وسيلين، وهي مجموعة تضم أكثر من 4000 طائرة من طراز A100. هذان الجهازان هما رقم 14 ورقم 8 في أسرع أجهزة الكمبيوتر العملاقة في العالم. لقد أداروا أيضًا العمل على أندروميدا لمعرفة كيفية تكديسه.

قام نظام أندروميدا بتقليص وقت التدريب من أكثر من أسبوع إلى أيام، حيث كتبوا:

[T] تستغرق هذه الدورات التدريبية في كثير من الأحيان أكثر من أسبوع واحد على موارد GPU المخصصة (مثل Polaris@ALCF). لتمكين تدريب النماذج الأكبر حجمًا على طول التسلسل الكامل (10,240 رمزًا)، استفدنا من مسرعات أجهزة الذكاء الاصطناعي مثل حصلت Cerebras CS-2، سواء في الوضع المستقل أو كمجموعة مترابطة، على GenSLMs التي تتقارب في أقل من يوم واحد.

هناك نسخة واحدة من مهمة GenSLM لا يمكن تشغيلها حتى على أجهزة Polaris وSelene، كما كتب Zvyagin وزملاؤه.

يأخذ نموذج اللغة كمدخلات عددًا معينًا من الحروف أو الكلمات أو "الرموز" الأخرى التي يجب اعتبارها جنبًا إلى جنب كتسلسل. في حالة مهام اللغة الطبيعية، مثل التنبؤ بالكلمة التالية، قد يكون تسلسلًا بطول خمسمائة أو ألف كلمة كافيًا.

أيضًا:اختبار تورينج الجديد: هل أنت إنسان؟

لكن الشفرة الجينية، مثل تسلسلات قاعدة الحمض النووي، يجب أن تؤخذ في الاعتبار عبر آلاف الرموز المميزة، المعروفة باسم "إطار القراءة المفتوحة"، وأطولها هو 10240 رمزًا. نظرًا لأن المزيد من الرموز المميزة للإدخال تشغل الذاكرة على الشريحة، لم تتمكن وحدات معالجة الرسومات في Polaris وSelene من معالجة سلاسل الرموز المميزة البالغ عددها 10240 بالنسبة لنماذج اللغة التي تتجاوز حجمًا معينًا، لأن ذاكرة الوزن ورموز الإدخال استنفدت وحدات معالجة الرسومات المتاحة ذاكرة.

يقول أندرو فيلدمان، الرئيس التنفيذي لشركة Cerebras، إن السوق مهيأ للحوسبة المجمعة. "نماذج اللغات الكبيرة، وصلنا إلى النقطة التي يريدها الناس سريع،" هو يقول. "لو قمنا ببناء مجموعة كبيرة قبل عام، لكان الجميع سيتساءلون: ماذا؟ لكن في الوقت الحالي، يتوق الناس إلى تدريب GPT-3 على ثلاثة عشر مليار معلمة."

أنظمة سيريبراس

"نلاحظ أنه بالنسبة لأحجام النماذج الأكبر حجمًا" البالغة 2.5 مليار وزن أو معلمة عصبية، و25 مليار وزن عصبي، "يتم التدريب على 10240 طولًا" كانت بيانات SARS-CoV-2 غير ممكنة على مجموعات وحدة معالجة الرسومات بسبب أخطاء نفاد الذاكرة أثناء حساب الانتباه." ومع ذلك، تمكنت آلة أندروميدا من التعامل مع تسلسل 10240 رمزًا بفضل الذاكرة العملاقة التي تبلغ سعتها 40 جيجابايت في كل شريحة CS-2 باستخدام نماذج يصل عددها إلى 1.3 مليار حدود.

وفقًا لفيلدمان، بينما تصف ورقة أرجون فقط نسختين وأربع عقد من أندروميدا، يُظهر العرض التقديمي هذا الأسبوع في SC22 أن الوقت اللازم للحساب يستمر في الانخفاض مع زيادة عدد الأجهزة وأضاف. نفس الـ 10.4 ساعة التي تحتاجها أندروميدا رباعية الاتجاهات لتدريب GenSLM على 10240 رمز إدخال مع 1.3 مليار وزن يمكن تقليلها إلى 2.7 ساعة عند استخدام جميع الآلات الستة عشر.

وبعيدًا عن السرعة والنطاق، فإن ورقة GenSLM، كما رأى فيلدمان، تشير إلى شيء عميق يظهر في مزيج البيانات البيولوجية مع نماذج اللغة.

أيضًا:ربما لم يعد الهدف الحقيقي للذكاء الاصطناعي هو الذكاء

وقال فيلدمان: "لقد وضعنا جينوم كوفيد بأكمله في نافذة التسلسل تلك، وكل جين قمنا بتحليله في سياق الجينوم بأكمله".

"لماذا هذا رائع؟ وهذا أمر رائع لأن ما تعلمناه على مدار الثلاثين عامًا الماضية هو أنه تمامًا مثل الكلمات، تعبر الجينات عن نفسها بشكل مختلف بناءً على هوية جيرانها.

وقال فيلدمان، من وجهة نظر الأعمال، إن السوق مهيأ للقدرة الحصانية لتشغيل نماذج لغوية كبيرة.

"نماذج اللغات الكبيرة، وصلنا إلى النقطة التي يريدها الناس سريع،" هو قال. "لو قمنا ببناء مجموعة كبيرة قبل عام، لكان الجميع سيتساءلون: ماذا؟ لكن في الوقت الحالي، يتوق الناس إلى تدريب GPT-3 على ثلاثة عشر مليار معلمة، أو GPT-Neo، وهو نموذج مكون من 20 مليار معلمة."

واقترح أن تكون المجموعات هي أحدث التقنيات للمضي قدمًا في المعالجة المتوازية لمهمة واحدة، وفي سيناريوهات المستخدمين المتعددين داخل المؤسسة.

"أعتقد أن هناك سوقًا ناشئة حيث يريد الناس وقتًا في مجموعة كبيرة، ويريدون الدخول إلى SSH، ولا يريدون أي شيء فاخر. إنهم يريدون فقط تسليم بياناتهم والذهاب".