Los trabajadores indios se colocan teléfonos inteligentes montados en la cabeza y filman sus rutinas diarias — cocinar, limpiar, caminar, comprar — por aproximadamente 250 rupias (2,40 dólares) la hora. Las grabaciones se utilizan para entrenar sistemas de inteligencia artificial, especialmente para robots humanoides que necesitan comprender cómo las personas se mueven e interactúan con el mundo.
Cómo se recopilan las grabaciones
Los trabajadores usan un teléfono inteligente sujeto con una diadema o un arnés, grabando video en primera persona de tareas comunes. El pago — aproximadamente 2,40 dólares por hora — es bajo según los estándares globales, pero competitivo en partes de la India donde los salarios para trabajos similares por encargo oscilan entre 150 y 300 rupias por hora. Los trabajadores no son nombrados en los informes, pero forman parte de una fuerza laboral creciente que suministra la materia prima para el entrenamiento de IA.
El enfoque con cámara en la cabeza captura lo que se denomina grabación egocéntrica: video desde el punto de vista de quien lo lleva. Esto es diferente del video en tercera persona, que muestra el cuerpo completo. Los datos egocéntricos ayudan a los modelos de IA a aprender cómo vería el mundo la cámara de un robot si estuviera montada en el torso o la cabeza de un humanoide.
Empresas que procesan los datos
Se sabe que dos empresas participan en la conversión de este video en bruto en datos de entrenamiento utilizables. Objectways, con sede en EE. UU. pero con operaciones en la India, se especializa en la anotación de datos para IA. Humyn Lab, con sede en Bangalore, se centra en la recopilación y el etiquetado de datos centrados en humanos. Ambas empresas toman las grabaciones egocéntricas y añaden metadatos — cuadros delimitadores, etiquetas de acciones, etiquetas de objetos — que los modelos de aprendizaje automático necesitan para aprender.
El trabajo es minucioso. Cada segundo de video puede requerir varios minutos de anotación humana para identificar lo que ocurre: una mano que alcanza una taza, un pie que cruza un umbral, una persona que abre una puerta. Los conjuntos de datos resultantes se venden o licencian a desarrolladores de IA que construyen robots y asistentes virtuales.
Las evaluaciones de inversores proyectan que el mercado de robots humanoides alcanzará los 38 mil millones de dólares para 2035. Ese crecimiento depende de robots que puedan navegar en entornos humanos — hogares, oficinas, fábricas — sin chocar con muebles ni malinterpretar un gesto. Entrenar esos robots requiere enormes cantidades de video en primera persona que muestren cómo se comportan realmente las personas, no solo acciones escenificadas en un laboratorio.
Las grabaciones de los trabajadores indios llenan un vacío. La mayoría de los conjuntos de datos egocéntricos existentes provienen de investigadores o voluntarios en países ricos. Los datos indios aportan variedad: diferentes hogares, diferentes objetos, diferentes rutinas culturales. Esa diversidad ayuda a los sistemas de IA a generalizar mejor, aunque también plantea preguntas sobre las condiciones laborales y el consentimiento.
El trabajo continúa. La demanda de datos de entrenamiento no se desacelera, y es probable que las empresas involucradas sigan contratando. Por ahora, los trabajadores filman, los anotadores etiquetan y los robots aprenden — una hora de 250 rupias a la vez.




