Des travailleurs indiens attachent un smartphone sur leur tête à l'aide d'un bandeau et filment leurs routines quotidiennes — cuisiner, nettoyer, marcher, faire les courses — pour environ 250 roupies (2,40 $) de l'heure. Ces images servent à entraîner des systèmes d'intelligence artificielle, en particulier des robots humanoïdes qui doivent comprendre comment les gens se déplacent et interagissent avec le monde.
Comment les images sont collectées
Les travailleurs portent un smartphone monté sur un bandeau ou un harnais, enregistrant une vidéo à la première personne de tâches ordinaires. La rémunération — environ 2,40 $ de l'heure — est faible selon les standards mondiaux, mais compétitive dans certaines régions de l'Inde où les salaires pour un travail à la tâche similaire varient de 150 à 300 roupies de l'heure. Les travailleurs ne sont pas nommés dans les rapports, mais ils font partie d'une main-d'œuvre croissante qui fournit la matière première pour l'entraînement de l'IA.
L'approche avec caméra frontale capture ce qu'on appelle des images égocentriques : une vidéo du point de vue de la personne qui la porte. Cela diffère de la vidéo à la troisième personne, qui montre le corps entier. Les données égocentriques aident les modèles d'IA à apprendre comment la caméra d'un robot verrait le monde si elle était montée sur un torse ou une tête humanoïde.
Les entreprises qui traitent les données
Deux entreprises sont connues pour transformer ces vidéos brutes en données d'entraînement exploitables. Objectways, basée aux États-Unis mais avec des opérations en Inde, se spécialise dans l'annotation de données pour l'IA. Humyn Lab, basée à Bangalore, se concentre sur la collecte et l'étiquetage de données centrées sur l'humain. Les deux sociétés prennent les images égocentriques et ajoutent des métadonnées — boîtes englobantes, étiquettes d'action, balises d'objet — dont les modèles d'apprentissage automatique ont besoin pour apprendre.
Le travail est minutieux. Chaque seconde de vidéo peut nécessiter plusieurs minutes d'annotation humaine pour identifier ce qui se passe : une main qui attrape une tasse, un pied qui franchit un seuil, une personne qui ouvre une porte. Les ensembles de données qui en résultent sont ensuite vendus ou sous licence aux développeurs d'IA qui construisent des robots et des assistants virtuels.
Les évaluations des investisseurs prévoient que le marché des robots humanoïdes atteindra 38 milliards de dollars d'ici 2035. Cette croissance dépend de robots capables de naviguer dans des environnements humains — maisons, bureaux, usines — sans heurter des meubles ni mal interpréter un geste. L'entraînement de ces robots nécessite d'énormes quantités de vidéos à la première personne montrant comment les gens se comportent réellement, et pas seulement des actions mises en scène en laboratoire.
Les images des travailleurs indiens comblent un vide. La plupart des ensembles de données égocentriques existants proviennent de chercheurs ou de bénévoles dans les pays riches. Les données indiennes apportent de la variété : différents foyers, différents objets, différentes routines culturelles. Cette diversité aide les systèmes d'IA à mieux généraliser, bien qu'elle soulève également des questions sur les conditions de travail et le consentement.
Le travail continue. La demande de données d'entraînement ne ralentit pas, et les entreprises impliquées continueront probablement à embaucher. Pour l'instant, les travailleurs filment, les annotateurs étiquettent, et les robots apprennent — une heure à 250 roupies à la fois.




