Anyscaleは、分散コンピューティングフレームワークRay向けに、新しいクラスターダッシュボードとアクターダッシュボードをリリースしました。これらのツールは、クラスタ全体で実行されるAIワークロードを開発するために、完全なデータ永続性と強化されたデバッグ機能を約束します。
分散AIにおける永続性の重要性
分散システムでは、数千のノードにわたって何が起こったかを追跡することは悪夢になる可能性があります。ログは失われ、メトリクスは消えてしまいます。Anyscaleによると、新しいダッシュボードはデータをメモリだけでなくディスク上に永続的に保持することで、この問題を解決します。つまり、開発者はリアルタイムで一瞬のエラーを捉えようとする代わりに、数時間後や数日後にクラスタやアクターの状態を振り返って調査できるのです。
クラスターダッシュボードとアクターダッシュボードの詳細
クラスターダッシュボードは、Rayクラスタ全体の概要を提供します。起動しているノードの数、使用中のリソース、タスクがキューイングされている場所などが表示されます。アクターダッシュボードは、分散AIジョブで作業を実行する軽量プロセスである個々のアクターに焦点を当てています。両方のダッシュボードは完全なデータ永続性を備えているため、ジョブが終了した後も情報が保持されます。
Anyscaleはデバッグの側面も強調しています。分散トレーニング実行や強化学習ループで何か問題が発生した場合、原因を特定するのはしばしば困難です。永続的なダッシュボードにより、開発者はイベントのタイムラインを再生できます。まるで分散システム用のDVRのようなものです。
Rayユーザーにとっての意味
Rayは、機械学習パイプライン、モデルサービング、大規模シミュレーションにすでに広く使われています。新しいダッシュボードは、エンジニアがバグを探すのに費やす時間を削減することを目的としています。数十台のマシンからログをつなぎ合わせる代わりに、ジョブのライフサイクル全体にわたるアクターの状態変化を示す単一のダッシュボードを呼び出すことができます。
これは、複雑なAIワークロードを実行するチームにとって大きな意味を持ちます。永続的なデータにより、新しい実験ごとにインフラを再構築することなく、ボトルネックを特定し、失敗したタスクを見つけ、リソース使用パターンを理解できます。
Anyscaleのアップデートは、より多くの組織が本番AIにRayを採用する中で行われました。新しいダッシュボードは現在利用可能であり、同社はこれが分散コンピューティングをシステム専門家でない開発者にも容易にするための広範な取り組みの一部であると述べています。




