Human Archive 启动印度实景数据采集助力机器人模型训练

YC W26 入选项目 Human Archive 在印度雇佣零工戴上摄像头帽子采集第一视角数据，目标是给物理 AI 和机器人模型提供真实世界的训练素材，已建成超过 10 万人的采集网络。

当外卖小哥的头盔成了机器人的眼睛

5 月 26 日，TechCrunch 报道了一家叫 Human Archive 的初创公司——由伯克利和斯坦福背景的研究者创办、刚拿到 YC W26 入场券——正在印度大规模招募零工，让他们戴着装有摄像头的帽子和传感器装置上街、进店、回家，把日常生活中的每一次抓取、走动、操作录下来，卖给全球的 AI 实验室和机器人公司。

这听起来有点科幻，但生意逻辑相当朴素：机器人模型缺的从来不是参数，是数据，尤其是第一视角的、长时序的、覆盖各种鸡毛蒜皮场景的数据。互联网上的视频喂饱了 GPT 和 Sora，却喂不饱要去厨房洗碗、去酒店铺床的具身智能。Human Archive 看到的就是这个缺口。

印度零工戴着配备摄像头的帽子在街头采集第一视角数据

为什么是印度，为什么是现在

选址印度不是一时兴起。印度有全球最庞大、最便宜、也最组织化的零工经济基础设施——Swiggy、Zomato、Urban Company、Dunzo 这一票本地服务平台已经把数百万劳动力训练成了"按订单跑流程"的标准化执行单元。Human Archive 的做法几乎是直接借用了这套基础设施：通过和印度本地的服务类创业公司合作，把数据采集任务嵌进零工已有的工作流里。送一单餐顺便录一段从骑车到爬楼梯到敲门交付的连续动作，钱照拿，数据也有了。

这套打法和 Scale AI 当年靠肯尼亚标注工撑起整个 RLHF 行业是一个路数，区别在于：Scale 卖的是文字和图片标签，Human Archive 卖的是真实世界里的物理因果链——一只手怎么拧开瓶盖，一个人怎么从沙发起身绕过茶几去开门，鞋底踩在湿瓷砖上重心怎么调整。这些东西仿真器再逼真也很难造出来，Sim2Real 的鸿沟就卡在这。

时间点也踩得准。过去半年，物理 AI（Physical AI）和世界模型（World Model）从论文话题变成融资关键词，英伟达 GR00T、Figure 02、Tesla Optimus、1X、Physical Intelligence 都在抢真人示范数据。各家自建采集场地的成本高得吓人，斯坦福那种实验室几十个人录几个月也就出几百小时素材。Human Archive 走的是众包路线，靠规模碾压精度。

HA-Multi：把规模做成壁垒

根据 YC 的 launch 页面和 Human Archive 自己的披露，他们已经放出了一个叫 HA-Multi 的数据集，号称是目前世界上最大的多模态机器人数据集。官方数字是这样的：

超过 10 万名贡献者组成的采集网络
500+ 行业合作伙伴覆盖家庭、酒店、零售、餐饮等场景
数据维度包括 视频、传感器读数、音频、长时序行为序列
配套提供标注流水线，支持客户提需求做定制采集

这个体量是什么概念？做个对比：开源社区里被广泛使用的 Open X-Embodiment 数据集合并了几十个机器人实验室的数据，总共大概 100 万条 episode；Meta 的 Ego4D 拍了 3670 小时第一视角视频，已经被认为是该领域的里程碑。Human Archive 想做的是把 Ego4D 的规模扩大一到两个数量级，并且把场景从"日常生活记录"细化到"具体任务执行"。

戴在头上的那套硬件

报道里没披露设备的完整规格，但从公开信息和类似产品推测，采集套件大概包含：

帽子前端的 RGB 摄像头（很可能是双目，用来恢复深度）
IMU 和运动传感器，记录头部姿态和身体运动
麦克风阵列，捕捉环境音和语音指令
可能还有手腕端的传感器或手套，记录抓握力度和手指关节角度

这种"穿戴式数据采集"的思路其实不新，Meta 的 Project Aria 眼镜、斯坦福的 ALOHA、Toyota Research 的 Universal Manipulation Interface（UMI）都是同一族技术。Human Archive 的差异化不在硬件本身，而在于把硬件当作一次性消耗品发出去——设备简化到能让没受过任何训练的零工戴着干活，数据收回来再清洗。这是把研究范式工程化的关键一步。

数据飞轮怎么转

仔细看 Human Archive 的商业模式，会发现它实际上在搭一个三边市场：

采集端是印度零工，按任务领钱，门槛低、激励直接。对他们来说，这就是多一份外快，戴个帽子不影响送单。

需求端是全球的机器人公司、自动驾驶公司、世界模型团队。他们能下单定制场景——比如"我要 1000 小时北印度家庭厨房做饭的第一视角数据"——也可以直接买现货数据集。

中间层是 Human Archive 自己，做的事情是任务调度、质量控制、隐私脱敏、标注、分发。

这种结构最像的不是 Scale AI，而是早年的 Mechanical Turk 加上一层垂直深耕。一旦贡献者网络和合作伙伴生态搭起来，规模效应会非常明显：采集成本随贡献者增加而摊薄，数据多样性随合作场景增加而扩大，下游客户越多，反过来又能补贴更高的采集报酬。

几个绕不开的问题

热闹归热闹，这件事真要做成，有几个坑必须趟过去。

第一个是隐私。第一视角摄像头扫到的不只是采集者自己，还有他服务的客户、路过的行人、家里的老人小孩。印度的数据保护法（DPDP Act）2023 年才落地，执行尺度还在摸索。脱敏得做得多干净，才能让数据合规出境给海外客户用？这是个法律和工程的双重难题。

第二个是数据偏差。印度场景的数据，能不能训练出在东京公寓或者旧金山办公室也能用的机器人？答案是部分能。物理规律、人体动作模式确实是普适的，但生活习惯、家具布局、餐具样式差异巨大。Human Archive 后续大概率得开多个国家的采集线，单押印度只是起点。

第三个是劳动伦理。给零工付的钱够不够公平、采集过程中的工伤怎么算、数据卖给军用客户怎么办，这些 Scale AI 一路上踩过的坑，Human Archive 一个都躲不开。报道里没提具体的薪酬数字，但参考印度零工平均时薪，和数据最终在欧美市场的售价之间，差价大概率是惊人的。

第四个是数据质量。零工不是研究员，他们不会刻意做"教学示范"。一段送外卖路上的视频里，真正对机器人训练有用的可能只有几十秒。怎么从海量原始素材里捞出有价值的片段，靠的就是 Human Archive 那套自动标注和筛选流水线——这才是他们真正的技术护城河，比硬件重要得多。

这是物理 AI 的"ImageNet 时刻"吗

业内已经有人把 Human Archive 这类项目类比成 2009 年的 ImageNet——那个让深度学习起飞的关键数据集。这个说法有道理，但也有点夸张。

ImageNet 的伟大在于它定义了一个清晰的任务（图像分类）和评测标准。物理 AI 现在还没到那个阶段，连"任务"本身都没收敛——是端到端的 VLA（Vision-Language-Action）模型，还是分层的世界模型加策略网络，业界路线图都没统一。在这种局面下，谁先把数据规模做起来，谁就掌握了下个阶段的话语权。

更现实的对标可能是早期的 Common Crawl 之于大语言模型：未必直接决定胜负，但所有玩家都绕不开。Human Archive 想成为的就是这个角色——物理世界的 Common Crawl。

写在最后

Human Archive 的故事让人想起一个反复被验证的规律：每一波 AI 浪潮，最赚钱的往往不是模型公司，而是数据公司和卖铲子的。GPU 时代有英伟达，标注时代有 Scale，现在轮到具身智能时代，会不会跑出一个 Human Archive 量级的数据巨头，值得盯着看。

对开发者来说，更实际的影响是：未来一两年，开源社区可能会陆续看到从 HA-Multi 这类数据集衍生出的预训练 VLA 模型，机器人和具身智能的入门门槛会显著降低。当一个领域的数据基础设施开始成熟，应用层的创新窗口才会真正打开。

这件事的另一层暗线是地缘——把全球 AI 训练数据的采集环节放在印度，等于把印度从"AI 服务外包国"升级成了"AI 原料出口国"。这个角色变化未来会以什么形式反噬到模型版图，现在下结论太早，但绝对值得开发者把它列进未来一年的观察清单。

参考来源

Reddit r/singularity 关于 Human Archive 的讨论 — 海外开发者社区对该项目数据规模和训练效果的分析
Hugging Face Datasets — 物理 AI 和机器人相关开源数据集索引，可对比 HA-Multi 的体量
GitHub - Awesome Embodied AI — 具身智能相关项目和数据集汇总，了解技术全景的参考入口

Human Archive 进军印度，让外卖小哥替机器人采数据