Together、Hugging Faceモデルを高速デプロイするコンテナサービスを発表

Together AIは、開発者がHugging Faceの任意のモデルを数分でデプロイできるサービス「Dedicated Container Inference（DCI）」をリリースしました。このサービスはGooseと呼ばれるツールを使用してデプロイプロセスを処理し、NetflixのVoid-Modelがデプロイ可能な例として紹介されています。

デプロイプロセスの仕組み

DCIはコンテナ化された推論を基盤としています。開発者はHugging Faceのモデルをパッケージ化してサービスにプッシュし、その後Gooseが処理を引き継ぎます。Gooseは、専用コンテナ内でモデルを実行するために必要な手順を自動化します。Together社によると、全体のプロセスは数分で完了し、数時間や数日はかかりません。

同社は一般提供の価格や具体的なリリース日を発表していませんが、初期テスターはNetflixのVoid-Modelなどのモデルを実行するためにこのサービスを利用しています。NetflixがHugging Faceでオープンソース化したこのモデルは、特定のビデオ関連タスク向けに設計されていますが、その機能の詳細は発表の範囲外です。

Gooseが重要な理由

Gooseは、Hugging Face上のモデルとTogetherのインフラ上で動作するコンテナとの間のギャップを埋めるツールです。開発者はサーバーを手動で設定する代わりに、Gooseに目的のモデルを指定するだけで、残りの処理を自動で行います。これには、モデルの取得、環境のセットアップ、エンドポイントの公開が含まれます。

すでにHugging Faceを利用している開発者にとって、この統合によりDevOps作業の大部分を省略できます。少なくとも理論上は、コンテナイメージ、スケーリング、負荷分散について心配する必要はありません。Together社は、このシンプルさがデプロイインフラに悩まされている開発者に受け入れられると確信しています。

NetflixのVoid-Modelをショーケースとして

NetflixのVoid-Modelは典型的なデモではなく、Netflixがすでに本番環境でデプロイしている実際のプロダクションモデルです。このモデルをHugging Faceで利用可能にし、DCI上で実行できることを示すことで、Together社はこのサービスが単なるおもちゃの例ではなく、本格的なモデルでも機能することを証明しようとしています。

両社とも、Netflix自体がTogetherのDCIを本番環境で使用しているかどうかは明らかにしていません。発表ではVoid-Modelはあくまでサービスが処理できる例として位置づけられています。そのため、Netflixが顧客なのか、単にリファレンスモデルの提供者なのかは未解決のままです。

Together社は、このサービスが現在の限定アクセス段階を離れる日付を設定していません。DCIを試したい開発者は、Togetherのウェブサイトからアクセスをリクエストできます。同社は、本格的に公開する前に、初期ユーザーがデプロイパイプラインをどのように扱うかを注視しているとみられます。

未解決の疑問の一つは、DCIがReplicateやAWS SageMakerなどの競合他社のコンテナベース推論サービスとどのように比較されるかです。Together社は発表でベンチマークや価格を提供していません。これらの数字が出るまで、開発者は速度の主張（数分）だけを判断材料にせざるを得ません。

デプロイプロセスの仕組み

Gooseが重要な理由

NetflixのVoid-Modelをショーケースとして

関連記事