Together AI ha lanzado Dedicated Container Inference (DCI), un servicio que permite a los desarrolladores desplegar cualquier modelo de Hugging Face en cuestión de minutos. La oferta utiliza una herramienta llamada Goose para gestionar el proceso de despliegue, y se presenta Void-Model de Netflix como ejemplo de lo que se puede implementar.
Cómo funciona el proceso de despliegue
DCI se basa en inferencia contenerizada: los desarrolladores empaquetan un modelo de Hugging Face y lo envían al servicio, donde Goose toma el control. Goose automatiza los pasos necesarios para poner el modelo en funcionamiento dentro de un contenedor dedicado. Together afirma que todo el proceso toma minutos, no horas o días.
La compañía no ha revelado precios ni una fecha de lanzamiento específica para la disponibilidad general, pero los primeros evaluadores han estado utilizando el servicio para ejecutar modelos como Void-Model de Netflix. Ese modelo, que Netflix publicó como código abierto en Hugging Face, está diseñado para una tarea específica relacionada con video; los detalles exactos de su función no forman parte del anuncio.
Por qué Goose es importante
Goose es la herramienta que tiende un puente entre un modelo en Hugging Face y un contenedor en ejecución en la infraestructura de Together. En lugar de configurar servidores manualmente, los desarrolladores apuntan a Goose hacia el modelo deseado, y esta se encarga del resto. Esto incluye obtener el modelo, configurar el entorno y exponer un punto de conexión.
Para los desarrolladores que ya trabajan con Hugging Face, la integración significa que pueden saltarse la mayor parte del trabajo de DevOps. En teoría, no tienen que preocuparse por imágenes de contenedores, escalado o balanceo de carga. Together apuesta a que la simplicidad conquistará a los desarrolladores cansados de lidiar con la infraestructura de despliegue.
Void-Model de Netflix como demostración
Void-Model de Netflix no es una demostración típica: es un modelo de producción real que Netflix ya ha desplegado. Al ponerlo a disposición en Hugging Face y mostrar que puede ejecutarse en DCI, Together intenta demostrar que el servicio funciona con modelos serios, no solo con ejemplos simples.
Ninguna de las dos compañías ha dicho si Netflix utiliza DCI de Together en producción. El anuncio presenta Void-Model solo como un ejemplo de lo que el servicio puede manejar. Esto deja abierta la pregunta de si Netflix es un cliente o solo un proveedor de modelos de referencia.
Together no ha fijado una fecha para que el servicio salga de su etapa actual de acceso limitado. Los desarrolladores que quieran probar DCI pueden solicitar acceso a través del sitio web de Together. Es probable que la compañía esté observando cómo los primeros usuarios manejan el proceso de despliegue antes de abrir las compuertas.
Una pregunta sin resolver es cómo se compara DCI con otros servicios de inferencia basados en contenedores de competidores como Replicate o AWS SageMaker. Together no proporcionó puntos de referencia ni precios en el anuncio. Hasta que se publiquen esos datos, los desarrolladores solo tienen la afirmación de velocidad —minutos— para juzgar.



