Loading market data...

Anyscale 推出新仪表盘,为 Ray 带来数据持久化与调试功能

Anyscale 推出新仪表盘,为 Ray 带来数据持久化与调试功能

Anyscale 为其 Ray 分布式计算框架推出了新的集群和执行器仪表盘。这些工具为跨集群运行 AI 工作负载的开发者提供了完整的数据持久化和增强的调试功能。

为何数据持久化对分布式 AI 至关重要

在分布式系统中,追踪数千个节点上发生的情况可能是一场噩梦。日志丢失,指标消失。Anyscale 表示,新仪表盘通过保留数据——不仅存储在内存中,还持久化到磁盘——解决了这一问题。这意味着开发者可以在数小时甚至数天后回溯并检查集群或执行器的状态,而无需在实时中捕捉转瞬即逝的错误。

深入解析集群与执行器仪表盘

集群仪表盘提供整个 Ray 集群的概览:包括在线节点数量、资源使用情况以及任务队列位置。执行器仪表盘则聚焦于单个执行器——分布式 AI 作业中执行任务的轻量级进程。现在,两个仪表盘均支持完整数据持久化,即使作业结束,相关信息仍会保留。

Anyscale 还强调了调试功能的重要性。在分布式训练或强化学习循环中出现问题时,通常难以准确定位原因。持久化仪表盘使开发者能够回放事件时间线——就像分布式系统的‘数字录像机’(DVR)。

对 Ray 用户的意义

Ray 目前已广泛应用于机器学习流程、模型服务和大规模模拟。新仪表盘旨在减少工程师排查错误所花费的时间。开发者无需整合数十台机器的日志,只需调取单一仪表盘即可查看作业全生命周期中执行器的状态变化。

对于运行复杂 AI 工作负载的团队而言,这意义重大。借助数据持久化,他们无需为每次新实验重建基础设施,即可识别瓶颈、发现失败任务并理解资源使用模式。

随着越来越多组织将 Ray 用于生产级 AI,Anyscale 推出此次更新。新仪表盘现已上线,公司表示这是其更广泛努力的一部分,旨在让非系统专家的开发者更轻松地使用分布式计算。