NVIDIA 的 GB200 NVL72 系统现已集成 Slurm 的拓扑感知调度功能,以百亿亿次级性能处理 AI 工作负载。此举旨在满足大规模 AI 训练集群对高效资源分配日益增长的需求。
拓扑结构为何对 AI 至关重要
Slurm 的调度器会考虑计算节点和网络链路的物理布局。对于像 GB200 NVL72 这样的密集 GPU 系统,这意味着作业会被放置以最小化 GPU 之间的通信延迟。当训练模型分布在成百上千个加速器上时,拓扑感知调度可减少瓶颈。该方法有助于避免作业的 GPU 分散在不同交换机或相距甚远的节点上,从而防止数据传输停滞。
解锁百亿亿次级吞吐量
通过将 Slurm 调度与 GB200 NVL72 的架构相结合,NVIDIA 表示该系统可实现百亿亿次级性能——每秒执行 10^18 次浮点运算。这一规模通常只有最大的超级计算机才能达到。对 AI 而言,这意味着对计算需求巨大的模型训练周期更快。这种组合还能通过将更多工作打包到更少的节点上并减少空闲时间,从而提高能源效率。
NVIDIA 尚未公布 GB200 NVL72 与 Slurm 集成的具体部署时间表。该公司预计将在即将举行的 HPC 会议上演示该设置,但具体日期尚未确认。运行大规模 AI 作业的研究人员和云提供商将密切关注相关基准测试,以展示其相较现有调度方法的实际优势。



