印度工人将头戴式智能手机固定在脸上,拍摄日常活动——做饭、打扫、走路、购物——每小时约250卢比(2.40美元)。这些视频素材用于训练人工智能系统,特别是需要理解人类如何移动和与世界互动的人形机器人。
视频素材如何收集
工人佩戴装有智能手机的头带或背带,以第一人称视角录制普通任务。报酬约为每小时2.40美元,按全球标准较低,但在印度部分地区具有竞争力,当地类似零工工作的时薪在150至300卢比之间。报道中未提及工人姓名,但他们是提供AI训练原始材料的日益增长的劳动力的一部分。
头戴式方法捕捉的是所谓的“自我中心视角”视频:即佩戴者视角的影像。这与显示全身的第三人称视频不同。自我中心数据有助于AI模型学习机器人摄像头如果安装在人形躯干或头部上会如何观察世界。
处理数据的公司
已知有两家公司参与将原始视频转化为可用的训练数据。总部位于美国但在印度有业务的Objectways专门从事AI数据标注。位于班加罗尔的Humyn Lab专注于以人为中心的数据收集和标注。两家公司都为自我中心视频添加元数据——边界框、动作标签、对象标签——机器学习模型需要这些来学习。
这项工作非常繁琐。每秒钟的视频可能需要几分钟的人工标注来识别发生了什么:手伸向杯子、脚跨过门槛、人开门。生成的数据集随后出售或授权给构建机器人和虚拟助手的AI开发者。
投资者评估预测,人形机器人市场到2035年将达到380亿美元。这一增长取决于机器人能否在人类环境中导航——家庭、办公室、工厂——而不会撞到家具或误读手势。训练这些机器人需要大量第一人称视角视频,展示人类的实际行为,而不仅仅是实验室中的预设动作。
印度工人的视频填补了空白。现有的自我中心数据集大多来自富裕国家的研究人员或志愿者。印度数据增加了多样性:不同的家庭、不同的物品、不同的文化习惯。这种多样性有助于AI系统更好地泛化,但也引发了关于劳动条件和同意的问题。
工作仍在继续。对训练数据的需求没有放缓,相关公司可能会继续招聘。目前,工人拍摄,标注员标注,机器人学习——一次250卢比一小时。




