当外卖小哥的头盔成了机器人的眼睛
5 月 26 日,TechCrunch 报道了一家叫 Human Archive 的初创公司——由伯克利和斯坦福背景的研究者创办、刚拿到 YC W26 入场券——正在印度大规模招募零工,让他们戴着装有摄像头的帽子和传感器装置上街、进店、回家,把日常生活中的每一次抓取、走动、操作录下来,卖给全球的 AI 实验室和机器人公司。
这听起来有点科幻,但生意逻辑相当朴素:机器人模型缺的从来不是参数,是数据,尤其是第一视角的、长时序的、覆盖各种鸡毛蒜皮场景的数据。互联网上的视频喂饱了 GPT 和 Sora,却喂不饱要去厨房洗碗、去酒店铺床的具身智能。Human Archive 看到的就是这个缺口。

为什么是印度,为什么是现在
选址印度不是一时兴起。印度有全球最庞大、最便宜、也最组织化的零工经济基础设施——Swiggy、Zomato、Urban Company、Dunzo 这一票本地服务平台已经把数百万劳动力训练成了"按订单跑流程"的标准化执行单元。Human Archive 的做法几乎是直接借用了这套基础设施:通过和印度本地的服务类创业公司合作,把数据采集任务嵌进零工已有的工作流里。送一单餐顺便录一段从骑车到爬楼梯到敲门交付的连续动作,钱照拿,数据也有了。
这套打法和 Scale AI 当年靠肯尼亚标注工撑起整个 RLHF 行业是一个路数,区别在于:Scale 卖的是文字和图片标签,Human Archive 卖的是真实世界里的物理因果链——一只手怎么拧开瓶盖,一个人怎么从沙发起身绕过茶几去开门,鞋底踩在湿瓷砖上重心怎么调整。这些东西仿真器再逼真也很难造出来,Sim2Real 的鸿沟就卡在这。
时间点也踩得准。过去半年,物理 AI(Physical AI)和世界模型(World Model)从论文话题变成融资关键词,英伟达 GR00T、Figure 02、Tesla Optimus、1X、Physical Intelligence 都在抢真人示范数据。各家自建采集场地的成本高得吓人,斯坦福那种实验室几十个人录几个月也就出几百小时素材。Human Archive 走的是众包路线,靠规模碾压精度。
HA-Multi:把规模做成壁垒
根据 YC 的 launch 页面和 Human Archive 自己的披露,他们已经放出了一个叫 HA-Multi 的数据集,号称是目前世界上最大的多模态机器人数据集。官方数字是这样的:
- 超过 10 万名贡献者组成的采集网络
- 500+ 行业合作伙伴覆盖家庭、酒店、零售、餐饮等场景
- 数据维度包括 视频、传感器读数、音频、长时序行为序列
- 配套提供标注流水线,支持客户提需求做定制采集
这个体量是什么概念?做个对比:开源社区里被广泛使用的 Open X-Embodiment 数据集合并了几十个机器人实验室的数据,总共大概 100 万条 episode;Meta 的 Ego4D 拍了 3670 小时第一视角视频,已经被认为是该领域的里程碑。Human Archive 想做的是把 Ego4D 的规模扩大一到两个数量级,并且把场景从"日常生活记录"细化到"具体任务执行"。
戴在头上的那套硬件
报道里没披露设备的完整规格,但从公开信息和类似产品推测,采集套件大概包含:
- 帽子前端的 RGB 摄像头(很可能是双目,用来恢复深度)
- IMU 和运动传感器,记录头部姿态和身体运动
- 麦克风阵列,捕捉环境音和语音指令
- 可能还有手腕端的传感器或手套,记录抓握力度和手指关节角度
这种"穿戴式数据采集"的思路其实不新,Meta 的 Project Aria 眼镜、斯坦福的 ALOHA、Toyota Research 的 Universal Manipulation Interface(UMI)都是同一族技术。Human Archive 的差异化不在硬件本身,而在于把硬件当作一次性消耗品发出去——设备简化到能让没受过任何训练的零工戴着干活,数据收回来再清洗。这是把研究范式工程化的关键一步。
数据飞轮怎么转
仔细看 Human Archive 的商业模式,会发现它实际上在搭一个三边市场:
采集端是印度零工,按任务领钱,门槛低、激励直接。对他们来说,这就是多一份外快,戴个帽子不影响送单。
需求端是全球的机器人公司、自动驾驶公司、世界模型团队。他们能下单定制场景——比如"我要 1000 小时北印度家庭厨房做饭的第一视角数据"——也可以直接买现货数据集。
中间层是 Human Archive 自己,做的事情是任务调度、质量控制、隐私脱敏、标注、分发。
这种结构最像的不是 Scale AI,而是早年的 Mechanical Turk 加上一层垂直深耕。一旦贡献者网络和合作伙伴生态搭起来,规模效应会非常明显:采集成本随贡献者增加而摊薄,数据多样性随合作场景增加而扩大,下游客户越多,反过来又能补贴更高的采集报酬。
几个绕不开的问题
热闹归热闹,这件事真要做成,有几个坑必须趟过去。
第一个是隐私。第一视角摄像头扫到的不只是采集者自己,还有他服务的客户、路过的行人、家里的老人小孩。印度的数据保护法(DPDP Act)2023 年才落地,执行尺度还在摸索。脱敏得做得多干净,才能让数据合规出境给海外客户用?这是个法律和工程的双重难题。
第二个是数据偏差。印度场景的数据,能不能训练出在东京公寓或者旧金山办公室也能用的机器人?答案是部分能。物理规律、人体动作模式确实是普适的,但生活习惯、家具布局、餐具样式差异巨大。Human Archive 后续大概率得开多个国家的采集线,单押印度只是起点。
第三个是劳动伦理。给零工付的钱够不够公平、采集过程中的工伤怎么算、数据卖给军用客户怎么办,这些 Scale AI 一路上踩过的坑,Human Archive 一个都躲不开。报道里没提具体的薪酬数字,但参考印度零工平均时薪,和数据最终在欧美市场的售价之间,差价大概率是惊人的。
第四个是数据质量。零工不是研究员,他们不会刻意做"教学示范"。一段送外卖路上的视频里,真正对机器人训练有用的可能只有几十秒。怎么从海量原始素材里捞出有价值的片段,靠的就是 Human Archive 那套自动标注和筛选流水线——这才是他们真正的技术护城河,比硬件重要得多。
这是物理 AI 的"ImageNet 时刻"吗
业内已经有人把 Human Archive 这类项目类比成 2009 年的 ImageNet——那个让深度学习起飞的关键数据集。这个说法有道理,但也有点夸张。
ImageNet 的伟大在于它定义了一个清晰的任务(图像分类)和评测标准。物理 AI 现在还没到那个阶段,连"任务"本身都没收敛——是端到端的 VLA(Vision-Language-Action)模型,还是分层的世界模型加策略网络,业界路线图都没统一。在这种局面下,谁先把数据规模做起来,谁就掌握了下个阶段的话语权。
更现实的对标可能是早期的 Common Crawl 之于大语言模型:未必直接决定胜负,但所有玩家都绕不开。Human Archive 想成为的就是这个角色——物理世界的 Common Crawl。
写在最后
Human Archive 的故事让人想起一个反复被验证的规律:每一波 AI 浪潮,最赚钱的往往不是模型公司,而是数据公司和卖铲子的。GPU 时代有英伟达,标注时代有 Scale,现在轮到具身智能时代,会不会跑出一个 Human Archive 量级的数据巨头,值得盯着看。
对开发者来说,更实际的影响是:未来一两年,开源社区可能会陆续看到从 HA-Multi 这类数据集衍生出的预训练 VLA 模型,机器人和具身智能的入门门槛会显著降低。当一个领域的数据基础设施开始成熟,应用层的创新窗口才会真正打开。
这件事的另一层暗线是地缘——把全球 AI 训练数据的采集环节放在印度,等于把印度从"AI 服务外包国"升级成了"AI 原料出口国"。这个角色变化未来会以什么形式反噬到模型版图,现在下结论太早,但绝对值得开发者把它列进未来一年的观察清单。
参考来源
- Reddit r/singularity 关于 Human Archive 的讨论 — 海外开发者社区对该项目数据规模和训练效果的分析
- Hugging Face Datasets — 物理 AI 和机器人相关开源数据集索引,可对比 HA-Multi 的体量
- GitHub - Awesome Embodied AI — 具身智能相关项目和数据集汇总,了解技术全景的参考入口