يدمج نظام NVIDIA GB200 NVL72 الآن جدولة Slurm المدركة للطوبولوجيا للتعامل مع تحميلات الذكاء الاصطناعي بأداء بمستوى الإكسا. تستهدف هذه الخطوة الحاجة المتزايدة إلى تخصيص الموارد بكفاءة في عناقيد التدريب الضخمة للذكاء الاصطناعي.
لماذا الطوبولوجيا مهمة للذكاء الاصطناعي
تأخذ جدولة Slurm في الاعتبار التخطيط المادي لعقد الحوسبة وروابط الشبكة. بالنسبة لنظام GPU كثيف مثل GB200 NVL72، يعني ذلك وضع الوظائف لتقليل زمن الانتقال في الاتصال بين وحدات GPU. تقلل الجدولة المدركة للطوبولوجيا من الاختناقات عند تدريب النماذج الموزعة عبر مئات أو آلاف المسرعات. يساعد هذا النهج في تجنب المواقف التي تكون فيها وحدات GPU لوظيفة ما موزعة عبر محولات مختلفة أو عقد متباعدة، مما قد يعيق نقل البيانات.
إطلاق العنان لإنتاجية بمستوى الإكسا
من خلال الجمع بين جدولة Slurm وهندسة GB200 NVL72، تقول NVIDIA إن النظام يمكنه تحقيق أداء بمستوى الإكسا - أي العمل بمعدل 10^18 عملية فاصلة عائمة في الثانية. هذا المقياس مخصص عادة لأكبر الحواسيب العملاقة. بالنسبة للذكاء الاصطناعي، يعني ذلك دورات تدريب أسرع للنماذج التي تتطلب قوة حوسبة هائلة. كما يعزز هذا الاقتران كفاءة الطاقة من خلال حزم المزيد من العمل في عدد أقل من العقد وتقليل وقت الخمول.
لم تعلن NVIDIA عن جداول زمنية محددة لنشر نظام GB200 NVL72 مع تكامل Slurm. من المتوقع أن تعرض الشركة الإعداد في مؤتمرات الحوسبة عالية الأداء القادمة، على الرغم من عدم تأكيد أي تواريخ. سيراقب الباحثون ومزودو الخدمات السحابية الذين يديرون وظائف ذكاء اصطناعي واسعة النطاق المعايير التي تظهر المكاسب الحقيقية مقارنة بطرق الجدولة الحالية.



