Indische Arbeiter befestigen Smartphones mit einem Kopfband an ihrem Kopf und filmen ihren Alltag – Kochen, Putzen, Gehen, Einkaufen – für etwa 250 Rupien (2,40 Dollar) pro Stunde. Das Filmmaterial wird verwendet, um Systeme der künstlichen Intelligenz zu trainieren, insbesondere humanoide Roboter, die verstehen müssen, wie Menschen sich bewegen und mit der Welt interagieren.
Wie das Filmmaterial gesammelt wird
Die Arbeiter tragen ein Smartphone, das auf einem Kopfband oder einem Geschirr montiert ist, und nehmen aus der Ich-Perspektive Videos von alltäglichen Aufgaben auf. Die Bezahlung – etwa 2,40 Dollar pro Stunde – ist nach globalen Maßstäben niedrig, aber in Teilen Indiens wettbewerbsfähig, wo die Löhne für ähnliche Gig-Arbeit zwischen 150 und 300 Rupien pro Stunde liegen. Die Arbeiter werden in den Berichten nicht namentlich genannt, sind aber Teil einer wachsenden Arbeitskraft, die das Rohmaterial für KI-Training liefert.
Der kopfmontierte Ansatz erfasst sogenanntes egozentrisches Filmmaterial: Video aus der Sicht des Trägers. Dies unterscheidet sich von Aufnahmen aus der dritten Person, die den ganzen Körper zeigen. Egozentrische Daten helfen KI-Modellen zu lernen, wie die Kamera eines Roboters die Welt sehen würde, wenn sie auf einem humanoiden Rumpf oder Kopf montiert wäre.
Unternehmen, die die Daten verarbeiten
Zwei Unternehmen sind dafür bekannt, dieses Rohvideo in nutzbare Trainingsdaten umzuwandeln. Objectways mit Sitz in den USA, aber mit Niederlassungen in Indien, ist auf Datenannotation für KI spezialisiert. Humyn Lab mit Sitz in Bangalore konzentriert sich auf menschenzentrierte Datenerfassung und -kennzeichnung. Beide Firmen versehen das egozentrische Filmmaterial mit Metadaten – Begrenzungsrahmen, Aktionsetiketten, Objekt-Tags – die maschinelle Lernmodelle benötigen, um daraus zu lernen.
Die Arbeit ist mühsam. Jede Sekunde Video kann mehrere Minuten menschlicher Annotation erfordern, um zu identifizieren, was passiert: eine Hand, die nach einer Tasse greift, ein Fuß, der über eine Schwelle tritt, eine Person, die eine Tür öffnet. Die resultierenden Datensätze werden dann an KI-Entwickler verkauft oder lizenziert, die Roboter und virtuelle Assistenten bauen.
Investorenschätzungen zufolge wird der Markt für humanoide Roboter bis 2035 ein Volumen von 38 Milliarden Dollar erreichen. Dieses Wachstum hängt von Robotern ab, die sich in menschlichen Umgebungen – Häusern, Büros, Fabriken – zurechtfinden, ohne gegen Möbel zu stoßen oder eine Geste falsch zu deuten. Das Training dieser Roboter erfordert riesige Mengen an Videomaterial aus der Ich-Perspektive, das zeigt, wie Menschen sich tatsächlich verhalten, nicht nur inszenierte Handlungen im Labor.
Das Filmmaterial der indischen Arbeiter schließt eine Lücke. Die meisten vorhandenen egozentrischen Datensätze stammen von Forschern oder Freiwilligen in wohlhabenden Ländern. Die indischen Daten bringen Vielfalt: verschiedene Häuser, verschiedene Gegenstände, verschiedene kulturelle Abläufe. Diese Vielfalt hilft KI-Systemen, besser zu generalisieren, wirft aber auch Fragen zu Arbeitsbedingungen und Einwilligung auf.
Die Arbeit geht weiter. Die Nachfrage nach Trainingsdaten lässt nicht nach, und die beteiligten Unternehmen werden wahrscheinlich weiterhin einstellen. Vorerst filmen die Arbeiter, die Annotatoren kennzeichnen, und die Roboter lernen – eine 250-Rupien-Stunde nach der anderen.




