Together AI a lancé Dedicated Container Inference (DCI), un service qui permet aux développeurs de déployer n'importe quel modèle provenant de Hugging Face en quelques minutes. L'offre utilise un outil appelé Goose pour gérer le processus de déploiement, et le Void-Model de Netflix est présenté comme un exemple de ce qui peut être déployé.
Comment fonctionne le processus de déploiement
DCI est construit autour de l'inférence conteneurisée — les développeurs empaquettent un modèle Hugging Face et le poussent vers le service, où Goose prend le relais. Goose automatise les étapes nécessaires pour faire fonctionner le modèle dans un conteneur dédié. Together affirme que l'ensemble prend quelques minutes, et non des heures ou des jours.
L'entreprise n'a pas encore publié de tarifs ni de date de lancement spécifique pour la disponibilité générale, mais les premiers testeurs ont utilisé le service pour exécuter des modèles comme le Void-Model de Netflix. Ce modèle, que Netflix a open-sourcé sur Hugging Face, est conçu pour une tâche spécifique liée à la vidéo — les détails exacts de sa fonction ne font pas partie de l'annonce.
Pourquoi Goose est important
Goose est l'outil qui comble le fossé entre un modèle sur Hugging Face et un conteneur en cours d'exécution sur l'infrastructure de Together. Au lieu de configurer manuellement des serveurs, les développeurs pointent Goose vers le modèle souhaité, et il s'occupe du reste. Cela inclut le téléchargement du modèle, la configuration de l'environnement et l'exposition d'un point de terminaison.
Pour les développeurs qui travaillent déjà avec Hugging Face, l'intégration signifie qu'ils peuvent sauter la plupart du travail DevOps. Ils n'ont pas à se soucier des images de conteneurs, de la mise à l'échelle ou de l'équilibrage de charge — du moins en théorie. Together parie que cette simplicité séduira les développeurs fatigués de lutter contre l'infrastructure de déploiement.
Le Void-Model de Netflix comme vitrine
Le Void-Model de Netflix n'est pas une démo typique — c'est un modèle de production réel que Netflix a déjà déployé. En le rendant disponible sur Hugging Face et en montrant qu'il peut fonctionner sur DCI, Together tente de prouver que le service fonctionne avec des modèles sérieux, pas seulement des exemples jouets.
Aucune des deux entreprises n'a indiqué si Netflix utilise elle-même le DCI de Together en production. L'annonce ne présente Void-Model que comme un exemple de ce que le service peut gérer. Cela laisse en suspens la question de savoir si Netflix est un client ou simplement un fournisseur de modèle de référence.
Together n'a pas fixé de date pour que le service quitte son stade actuel d'accès limité. Les développeurs qui souhaitent essayer DCI peuvent demander l'accès via le site Web de Together. L'entreprise observe probablement comment les premiers utilisateurs gèrent le pipeline de déploiement avant d'ouvrir les vannes.
Une question en suspens est de savoir comment DCI se compare aux autres services d'inférence conteneurisée de concurrents comme Replicate ou AWS SageMaker. Together n'a fourni ni benchmarks ni tarifs dans l'annonce. Jusqu'à ce que ces chiffres soient publiés, les développeurs ne disposent que de l'affirmation de rapidité — quelques minutes — pour juger.



