NVIDIA GB200 NVL72, Exascale AI İş Yükleri İçin Slurm Topolojiye Duyarlı Planlamayı Kullanıyor

NVIDIA'nın GB200 NVL72 sistemi, exascale performansta AI iş yüklerini işlemek için artık Slurm'ın topolojiye duyarlı planlamasını entegre ediyor. Bu adım, devasa AI eğitim kümelerinde verimli kaynak tahsisi için artan ihtiyacı hedefliyor.

AI İçin Topolojinin Önemi

Slurm'ın planlayıcısı, işlem düğümlerinin ve ağ bağlantılarının fiziksel düzenini dikkate alır. GB200 NVL72 gibi yoğun bir GPU sistemi için bu, işlerin GPU'lar arasındaki iletişim gecikmesini en aza indirecek şekilde yerleştirilmesi anlamına gelir. Topolojiye duyarlı planlama, yüzlerce veya binlerce hızlandırıcı arasında dağıtılan modellerin eğitilmesi sırasında darboğazları azaltır. Bu yaklaşım, bir işin GPU'larının farklı anahtarlarda veya uzak düğümlerde dağılması gibi durumları önleyerek veri aktarımlarının durmasını engeller.

Exascale Verimliliğin Kilidini Açmak

Slurm'ın planlamasını GB200 NVL72 mimarisiyle birleştirerek NVIDIA, sistemin exascale performansı elde edebileceğini, yani saniyede 10^18 kayan nokta işlemi yapabileceğini belirtiyor. Bu ölçek, genellikle en büyük süperbilgisayarlar için ayrılmıştır. AI için, bu, devasa hesaplama gerektiren modellerin daha hızlı eğitim döngüleri anlamına gelir. Bu birleşim ayrıca daha az düğümde daha fazla iş yerleştirerek ve bekleme sürelerini azaltarak enerji verimliliğini artırır.

NVIDIA, Slurm entegrasyonuyla birlikte GB200 NVL72 için belirli bir dağıtım zamanlaması açıklamadı. Şirketin yaklaşan Yüksek Performanslı Hesaplama konferanslarında bu yapıyı sergilemesi bekleniyor, ancak tarihler henüz doğrulanmadı. Büyük ölçekli AI işleri yürüten araştırmacılar ve bulut sağlayıcılar, mevcut planlama yöntemlerine göre gerçek dünya kazanımlarını gösteren kıyaslama sonuçlarını takip edecek.

AI İçin Topolojinin Önemi

Exascale Verimliliğin Kilidini Açmak

İlgili Haberler