Indiase werknemers bevestigen een smartphone op hun hoofd en filmen hun dagelijkse routine — koken, schoonmaken, wandelen, winkelen — voor ongeveer 250 roepie ($2,40) per uur. Het beeldmateriaal wordt gebruikt om kunstmatige-intelligentiesystemen te trainen, met name voor humanoïde robots die moeten begrijpen hoe mensen bewegen en met de wereld omgaan.
Hoe het beeldmateriaal wordt verzameld
Werknemers dragen een smartphone op een hoofdband of in een harnas en nemen eerste-persoonsvideo's op van alledaagse taken. Het loon — ongeveer $2,40 per uur — is laag naar wereldwijde maatstaven, maar concurrerend in delen van India waar de lonen voor vergelijkbaar kluswerk variëren van 150 tot 300 roepie per uur. De werknemers worden in de rapporten niet bij naam genoemd, maar ze maken deel uit van een groeiende beroepsbevolking die de grondstof levert voor AI-training.
De hoofdmontagebenadering legt zogeheten egocentrisch beeldmateriaal vast: video vanuit het gezichtspunt van de drager. Dit verschilt van derde-persoonsvideo, die het hele lichaam toont. Egocentrische gegevens helpen AI-modellen te leren hoe de camera van een robot de wereld zou zien als deze op een humanoïde romp of hoofd zou zijn gemonteerd.
Bedrijven die de data verwerken
Er zijn twee bedrijven bekend die deze ruwe video omzetten in bruikbare trainingsdata. Objectways, gevestigd in de VS maar met activiteiten in India, is gespecialiseerd in data-annotatie voor AI. Humyn Lab, gevestigd in Bangalore, richt zich op mensgerichte dataverzameling en -labeling. Beide bedrijven voegen metadata toe aan de egocentrische beelden — begrenzingskaders, actielabels, objecttags — die machine learning-modellen nodig hebben om ervan te leren.
Het werk is nauwgezet. Elke seconde video kan enkele minuten menselijke annotatie vereisen om te identificeren wat er gebeurt: een hand die naar een kopje reikt, een voet die over een drempel stapt, een persoon die een deur opent. De resulterende datasets worden vervolgens verkocht of in licentie gegeven aan AI-ontwikkelaars die robots en virtuele assistenten bouwen.
Investeerdersschattingen voorspellen dat de markt voor humanoïde robots in 2035 $38 miljard zal bedragen. Die groei hangt af van robots die door menselijke omgevingen kunnen navigeren — huizen, kantoren, fabrieken — zonder tegen meubels te botsen of een gebaar verkeerd te interpreteren. Het trainen van die robots vereist enorme hoeveelheden eerste-persoonsvideo die laten zien hoe mensen zich daadwerkelijk gedragen, niet alleen geënsceneerde handelingen in een laboratorium.
Het beeldmateriaal van de Indiase werknemers vult een gat. De meeste bestaande egocentrische datasets zijn afkomstig van onderzoekers of vrijwilligers in rijke landen. De Indiase data voegt variatie toe: andere huizen, andere objecten, andere culturele routines. Die diversiteit helpt AI-systemen beter te generaliseren, hoewel het ook vragen oproept over arbeidsomstandigheden en toestemming.
Het werk gaat door. De vraag naar trainingsdata neemt niet af en de betrokken bedrijven zullen waarschijnlijk blijven werven. Voor nu filmen de werknemers, labelen de annotators en leren de robots — één uur van 250 roepie per keer.




