NVIDIAのGB200 NVL72システムは、Slurmのトポロジー対応スケジューリングを統合し、エクサスケールのパフォーマンスでAIワークロードを処理するようになりました。この動きは、大規模なAIトレーニングクラスタにおける効率的なリソース割り当ての需要の高まりに対応するものです。
AIにとってトポロジーが重要な理由
Slurmのスケジューラは、計算ノードとネットワークリンクの物理的な配置を考慮します。GB200 NVL72のような高密度GPUシステムでは、ジョブがGPU間の通信レイテンシを最小化するように配置されます。トポロジー対応スケジューリングは、数百または数千のアクセラレータにまたがるモデルをトレーニングする際のボトルネックを軽減します。このアプローチは、ジョブのGPUが異なるスイッチや離れたノードに散在し、データ転送が停滞する状況を回避するのに役立ちます。
エクサスケールのスループットを実現
SlurmのスケジューリングとGB200 NVL72のアーキテクチャを組み合わせることで、NVIDIAはシステムがエクサスケールのパフォーマンス(1秒間に10^18回の浮動小数点演算)を達成できると述べています。この規模は通常、最大級のスーパーコンピュータに限定されます。AIにとっては、膨大な計算を必要とするモデルのトレーニングサイクルを高速化することを意味します。また、この組み合わせにより、より少ないノードで多くの作業を詰め込み、アイドル時間を削減することでエネルギー効率も向上します。
NVIDIAは、Slurm統合を備えたGB200 NVL72の具体的な展開スケジュールを発表していません。同社は今後のHPCカンファレンスでこのセットアップをデモンストレーションする予定ですが、日程は未確定です。大規模AIジョブを実行している研究者やクラウドプロバイダーは、既存のスケジューリング手法と比較した実際の利益を示すベンチマークを注視することになるでしょう。



