Các công nhân Ấn Độ đang đeo điện thoại thông minh gắn trên đầu và quay phim các thói quen hàng ngày của họ — nấu ăn, dọn dẹp, đi bộ, mua sắm — với mức lương khoảng 250 rupee (2,40 USD) một giờ. Những thước phim này được sử dụng để huấn luyện các hệ thống trí tuệ nhân tạo, đặc biệt là robot hình người cần hiểu cách con người di chuyển và tương tác với thế giới.
Cách thức thu thập cảnh quay
\nCác công nhân đeo một chiếc điện thoại thông minh gắn trên băng đô hoặc dây đeo, ghi lại video góc nhìn thứ nhất của các công việc thông thường. Mức lương — khoảng 2,40 USD mỗi giờ — thấp theo tiêu chuẩn toàn cầu nhưng cạnh tranh ở một số khu vực của Ấn Độ, nơi tiền công cho các công việc tương tự dao động từ 150 đến 300 rupee một giờ. Các công nhân không được nêu tên trong các báo cáo, nhưng họ là một phần của lực lượng lao động đang phát triển cung cấp nguyên liệu thô cho việc huấn luyện AI.
Cách tiếp cận gắn trên đầu ghi lại cái gọi là cảnh quay góc nhìn thứ nhất: video từ góc nhìn của người đeo. Điều này khác với video góc nhìn thứ ba, vốn cho thấy toàn bộ cơ thể. Dữ liệu góc nhìn thứ nhất giúp các mô hình AI học cách camera của robot sẽ nhìn thế giới nếu nó được gắn trên thân hoặc đầu của robot hình người.
Các công ty xử lý dữ liệu
\nHai công ty được biết đến là có liên quan đến việc chuyển đổi video thô này thành dữ liệu huấn luyện có thể sử dụng. Objectways, có trụ sở tại Mỹ nhưng hoạt động tại Ấn Độ, chuyên về chú thích dữ liệu cho AI. Humyn Lab, có trụ sở tại Bangalore, tập trung vào thu thập và gắn nhãn dữ liệu lấy con người làm trung tâm. Cả hai công ty đều lấy cảnh quay góc nhìn thứ nhất và thêm siêu dữ liệu — hộp giới hạn, nhãn hành động, thẻ đối tượng — mà các mô hình học máy cần để học hỏi.
Công việc này rất tỉ mỉ. Mỗi giây video có thể cần vài phút chú thích thủ công để xác định điều gì đang xảy ra: một bàn tay với lấy cốc, một bàn chân bước qua ngưỡng cửa, một người mở cửa. Các bộ dữ liệu kết quả sau đó được bán hoặc cấp phép cho các nhà phát triển AI đang xây dựng robot và trợ lý ảo.
Các đánh giá của nhà đầu tư dự báo thị trường robot hình người sẽ đạt 38 tỷ USD vào năm 2035. Sự tăng trưởng đó phụ thuộc vào những robot có thể di chuyển trong môi trường của con người — nhà ở, văn phòng, nhà máy — mà không va vào đồ đạc hoặc hiểu sai cử chỉ. Việc huấn luyện những robot đó đòi hỏi một lượng lớn video góc nhìn thứ nhất cho thấy cách con người thực sự hành xử, không chỉ là các hành động dàn dựng trong phòng thí nghiệm.
Cảnh quay của các công nhân Ấn Độ lấp đầy một khoảng trống. Hầu hết các bộ dữ liệu góc nhìn thứ nhất hiện có đến từ các nhà nghiên cứu hoặc tình nguyện viên ở các nước giàu. Dữ liệu Ấn Độ bổ sung thêm sự đa dạng: các ngôi nhà khác nhau, các đồ vật khác nhau, các thói quen văn hóa khác nhau. Sự đa dạng đó giúp các hệ thống AI khái quát hóa tốt hơn, mặc dù nó cũng đặt ra câu hỏi về điều kiện lao động và sự đồng ý.
Công việc vẫn tiếp tục. Nhu cầu về dữ liệu huấn luyện không hề chậm lại, và các công ty liên quan có khả năng sẽ tiếp tục tuyển dụng. Hiện tại, các công nhân quay phim, những người chú thích gắn nhãn, và các robot học hỏi — từng giờ một với giá 250 rupee.




