Together AI đã phát hành Dedicated Container Inference (DCI), một dịch vụ cho phép các nhà phát triển triển khai bất kỳ mô hình nào từ Hugging Face trong vài phút. Dịch vụ này sử dụng một công cụ có tên Goose để xử lý quá trình triển khai, và Void-Model của Netflix được đưa ra làm ví dụ về những gì có thể triển khai.
Cách thức hoạt động của quá trình triển khai
DCI được xây dựng dựa trên suy luận được đóng gói trong container (containerized inference) — các nhà phát triển đóng gói một mô hình Hugging Face và đẩy lên dịch vụ, nơi Goose tiếp quản. Goose tự động hóa các bước cần thiết để đưa mô hình chạy trong một container chuyên dụng. Together cho biết toàn bộ quá trình chỉ mất vài phút, thay vì hàng giờ hay hàng ngày.
Công ty chưa công bố giá cả hoặc ngày ra mắt cụ thể cho phiên bản chính thức, nhưng những người thử nghiệm ban đầu đã sử dụng dịch vụ để chạy các mô hình như Void-Model của Netflix. Mô hình này, được Netflix phát hành mã nguồn mở trên Hugging Face, được thiết kế cho một tác vụ liên quan đến video cụ thể — chi tiết chính xác về chức năng của nó không nằm trong thông báo.
Tại sao Goose lại quan trọng
Goose là công cụ kết nối giữa một mô hình trên Hugging Face và một container đang chạy trên cơ sở hạ tầng của Together. Thay vì phải cấu hình máy chủ thủ công, các nhà phát triển chỉ cần trỏ Goose vào mô hình họ muốn, và nó sẽ xử lý phần còn lại. Điều này bao gồm việc tải mô hình, thiết lập môi trường và công khai một endpoint.
Đối với các nhà phát triển đã làm việc với Hugging Face, sự tích hợp này có nghĩa là họ có thể bỏ qua hầu hết các công việc DevOps. Về mặt lý thuyết, họ không cần lo lắng về hình ảnh container, mở rộng quy mô hay cân bằng tải. Together đang đặt cược rằng sự đơn giản sẽ thu hút các nhà phát triển đã chán ngấy với việc vật lộn với cơ sở hạ tầng triển khai.
Void-Model của Netflix như một minh chứng
Void-Model của Netflix không phải là một bản demo điển hình — đó là một mô hình sản xuất thực tế mà Netflix đã triển khai. Bằng cách đưa nó lên Hugging Face và chứng minh rằng nó có thể chạy trên DCI, Together đang cố gắng chứng minh dịch vụ này hoạt động với các mô hình nghiêm túc, không chỉ là những ví dụ nhỏ.
Cả hai công ty đều không cho biết liệu Netflix có sử dụng DCI của Together trong sản xuất hay không. Thông báo chỉ coi Void-Model là một ví dụ về những gì dịch vụ có thể xử lý. Điều này để ngỏ câu hỏi liệu Netflix có phải là khách hàng hay chỉ là nhà cung cấp mô hình tham khảo.
Together chưa ấn định ngày để dịch vụ rời khỏi giai đoạn truy cập hạn chế hiện tại. Các nhà phát triển muốn dùng thử DCI có thể yêu cầu quyền truy cập qua trang web của Together. Công ty có khả năng đang theo dõi cách những người dùng đầu tiên xử lý quy trình triển khai trước khi mở rộng cửa.
Một câu hỏi chưa được giải đáp là DCI so sánh thế nào với các dịch vụ suy luận dựa trên container khác từ các đối thủ như Replicate hay AWS SageMaker. Together đã không cung cấp điểm chuẩn hay giá cả trong thông báo. Cho đến khi những con số đó được công bố, các nhà phát triển chỉ có thể đánh giá dựa trên tuyên bố về tốc độ — vài phút.



