虎嗅网

机器人开始“吃数据”：从印度数据工厂到百亿美元人形机器人的隐秘生产链

作者42号电波©

2026年6月13日 11:19

本文来自微信公众号： 42号电波，作者：兰博，编辑：James，原文标题：《机器人开始「吃数据」：从印度数据工厂到百亿美元人形机器人的隐秘生产链》

在印度的某个服装加工厂中，工人们正在像往常一样整理布料，但这次不同的是，他们的头上多了一个摄像头，用来拍摄自己工作时的第一视角视频。

这些视频，将会在处理之后成为数据资产，出售给那些需要大量数据来训练机器人的具身智能公司。

类似的生意从今年开始，正在加速形成一条新的产业链，而这条产业链的兴起，就源于具身智能行业目前所遇到的最大卡点：数据。

「今年需求明显起来了。」一位从事机器人数据采集的业内人士告诉42号电波，自己团队所服务的欧美机器人公司，正在大量采购人类工作数据。目前团队已经有近百名采集员参与到机器人训练数据生产中，一个月能稳定产出数千小时人类第一视角视频数据。

采集员需要按照标准流程，完成整理衣服、厨房归纳、抓取物品等任务，过程中佩戴头部摄像头，有些任务还要用数据手套记录更精细的手部动作。

「以前行业都在聊模型、聊硬件，现在越来越多人开始问，数据能不能稳定供给？」

大家开始清晰地意识到，模型能力迟迟无法突破，数据规模不足就是最大的问题。

而在具身模型巨大的数据缺口下，数据采集这门新的生意，也开始迅速形成。

机器人为什么开始缺数据？

如果把时间拨回三年前，机器人更像传统自动化产业。

多数机器人被固定在工厂里，工作流程高度结构化：焊接、搬运、喷涂、装配。它们不需要理解复杂环境，也不需要学习泛化能力，只需要在既定轨迹里重复动作。

而现在，许多公司想做的，已经不是传统工业机器人。从特斯拉、Figure再到PI，行业正在尝试让机器人像大模型一样，被训练出来，并且具备通用能力。

所以具身模型所走的路也开始越来越像大语言模型（LLM），只不过具身模型所走的路，比LLM更加艰难，尤其是在数据领域。

对于LLM来说，互联网本身就是一个天然的数据金矿，数十年来积累下来的网页、书籍、论文、代码仓库等，构成了海量的训练语料，模型公司通常只需要解决如何筛选和清洗数据的问题，很少需要从零开始创造数据。

但具身模型不同，它面对的是物理世界，是一片数据荒漠。机器人的动作数据不会凭空产生，即便互联网中有许多人类工作视频，可对于机器人来说，这样的数据量级仍然不够，并且整体质量也不够高。

如果说LLM出生在图书馆，机器人更像出生在一片荒漠当中。

所以当AI已经进入算力竞争和推理优化的阶段时，具身智能行业仍然被困在最基础的问题上：数据从哪里来。

这也是为什么，即便如今的模型架构越来越复杂，机器人距离真正进入家庭和复杂场景，依然很远。

因为模型缺少足够多的现实经验。

此前，Figure创始人Brett Adcock曾抛出过一个很直接的观点：「如果打个响指，真正需要的海量数据就能塞进Helix模型的话，我们立刻就能搞定通用机器人。」

可问题在于，数据从哪里来？

一小时数据，是怎么生产出来的？

今年2月，一个研究结果开始让行业兴奋起来。

英伟达团队发布了EgoScale，通过超2万小时带动作标注的人类第一视角视频预训练模型，再用少量机器人数据微调，就可以让Sharpa Wave 22自由度灵巧手完成拧瓶盖、叠衣服等任务。

更重要的是，研究发现，随着人类数据规模增加，模型表现会稳定提升，这种提升是可预测的。

这项研究对于具身行业来说非常重要，毕竟一条可以Scaling的数据路线，意味着机器人能力的增长，有机会像大模型一样，进入一个「更多数据，带来更强能力」的正循环。

过去很长时间里，具身行业一直有一种焦虑，即便投入更多资金，模型能力的提升依然高度不可预测。因为真实世界数据太少、成本太高，很少有人敢在数据领域投入巨大资金。

但EgoScale某种程度上证明了一件事，至少在人类第一视角数据（Ego Data）上，规模确实能够给灵巧手操作带来稳定收益。

与此同时也有越来越多机器人公司开始走向大量人类数据+少量机器人本体数据的路径。

人类第一视角视频，负责告诉模型人是怎么完成任务的，机器人数据，则负责让模型学会自己的身体应该怎么做。

所以Ego Data的主要价值是作为一种更容易规模化的先验知识，让机器人先理解物理世界，再通过少量真机数据完成适配。

于是，围绕Ego Data的新产业链，也开始在今年明显加速。

人类在头部或者胸前戴上一个摄像头，然后执行具体任务，比如整理衣物、收纳厨房、分拣包裹时，摄像头会记录人类工作时的第一视角视频。

从某种程度上说，人类本身就是世界上最成熟的通用机器人。进入厨房时，人会自然判断先放什么、后放什么，空间不够时，会腾出另一只手。碰到易碎品时，会下意识调整力度。

这些看似本能的动作背后，实际上隐藏着大量空间理解、任务规划和物体交互逻辑。

而过去，机器人几乎从未系统获得过这些经验。

但Ego Data并不是随便拍视频，并且拍足够规模的视频也不是最大难点，关键在于如何把这些经验，变成一种可以被模型真正使用的数据产品。

一位在今年开始加速布局Ego数据的从业者告诉42号电波，真正的数据采集，通常从客户发来的一份任务specification（规格文档）开始。

这类文档里，并不会简单写一句「采厨房整理数据」，往往都会有明确的规定：

任务类型是什么、双手是否必须完整进入画面、摄像头需要位于头部还是胸前、动作是否允许中断、环境需要多少种变化、需不需要失败样本、最终交付格式是否要兼容训练框架。

例如同样是整理厨房，客户可能要求：连续完成打开柜门、寻找容器、腾挪空间、取放物品、关门等多个步骤，中间不能跳帧，也不能出现严重遮挡。

某种程度上说，这更像是在生产一种工业品，采集现场的整个过程也远比想象中更「工厂化」。

在一些数采中心里，采集员会轮流进入被布置好的厨房、衣帽间、货架区，按照统一SOP重复执行任务。

有人负责整理衣物，有人反复练习抓取不同尺寸的物品，也有人专门采集厨房归纳和搬运的数据。

同一个动作，往往还需要由不同身高、不同惯用手、不同操作习惯的人重复完成，试图穷尽物理世界中可能出现的各种情况，毕竟机器人最终面对的是复杂现实世界，不是单一标准答案。

同样是把杯子放进柜子里，有的人先腾空间，有的人会换一只手，有的人习惯先打开柜门，这些细微差异，恰恰构成了机器人泛化能力的一部分。

所以对许多具身模型来说，它们需要学习的，就是「人类通常会怎么完成这件事」的逻辑。

这类数据相比较真机数据，更容易达成批量生产，在行业巨大的需求面前，只要规模跟得上、人力成本低，就有了盈利的基础，也相对容易产生现金流。

但如果数据不符合客户要求的话，就需要返工，真正客户验收通过的数据，远少于原始拍摄时长，可直接进入训练流程的有效时长更重要。

从这里开始，行业逐渐出现了越来越明显的分层。因为不同数据，价值差异极大，从成本、价值等综合角度看，大致可以形成一座「数据金字塔」。

不同类型的数据，价值差异巨大

在「数据金字塔」中，最底层是互联网数据，几乎没有什么采集成本的同时，也有不小的规模。

机器人可以从中学习物体长什么样、厨房的大致布局。但问题也很明显，它只能帮助机器人「知道」，很难帮助机器人「做到」。现实世界真正困难的地方，是动作，摩擦力、重量、材质变化、空间限制、碰撞风险，这些都无法只靠普通视频学会。

再往上是更高一层的人类数据，Ego Data就是其中最重要的部分，它可以从第一视角告诉模型人是怎么操作的，这部分的视频数据可以大规模用于预训练，就像EgoScale中所做的那样。

但机器人最终还要解决自己的身体应该怎么做的问题。同样是拧瓶盖，人手轻松完成，机器人却可能反复失败。

于是，数据手套带来的感知数据开始越来越重要，普通的Ego Data只能告诉模型人看到了什么、完成了什么任务。可机器人最终还需要知道什么时候该加大力度，什么时候需要放松。

这些细微动作，很难仅靠视频推断出来，所以越来越多公司开始尝试把手部动作捕捉、姿态估计、关节轨迹与视觉数据进行对齐。

视频负责提供空间理解，手套负责提供动作细节，而遥操的真机数据则进一步帮助机器人理解自己的身体该如何执行。

不过目前行业还存在一个很现实的问题，手套标准仍然很不统一。不同设备的采样频率、关节定义、精度和动作表达方式差异很大，如何把人类动作稳定映射到不同机器人身体，还是一个不小的卡点。

所以如果不戴数据手套，只用头戴摄像头拍摄，这时候Ego Data的价格并不算太高，可一旦加上数据手套，价格就会迅速上升。

金字塔再往上去就是仿真数据，通过数字孪生环境，机器人可以在虚拟世界中高速训练，反复经历数百万次抓取、导航和避障。现实中一个月才能完成的数据量，在仿真环境里可能几天就能跑完。

不过仿真终究不是现实世界，虽然量大且成本低，但现实中的摩擦力、材质变化、反光等各种偶然因素，很难被完全复刻，这也是行业里常提到的「Sim-to-Real Gap」，机器人在仿真中学得很好，一旦走入真实环境，能力往往会大打折扣。

而金字塔的顶层，就是质量最高、也最贵最稀缺的真机数据，主要是靠操作员遥操等方式，控制机器人完成具体任务，机器人会同步记录视觉、动作、控制信号和传感器状态。

与人类数据不同，它天然就在机器人的动作空间里，模型不用再费力理解人类动作如何映射到机器人身体。另外真机数据也包含其在应用时所产出的自主工作数据，但现在的机器人普遍还没有大规模应用，所产出的数据同样稀少。

而且真机数据的关键问题就是生产效率非常低，要想提高数据规模的话，就需要增加更多的机器人和操作员，并且还有高昂的场地和设备损耗成本，都会迅速推高价格。

多位业内人士给出的价格情况大概是，最简单的Ego Data往往只需要几十元一小时，而涉及遥操的机器人本体数据，价格通常会上升到数百甚至上千元一小时。

在不同厂商机器人模型的训练过程中，数据金字塔的各层所发挥的作用也各不相同，因此整个行业也涌现出了仿真、人类第一视角数据等侧重点各不相同的上游数据公司。

谁在交易这些数据？

当一个规模巨大的行业兴起时，最先盈利的往往是上游「卖水人」。

具身智能行业同样如此，过去一两年内，全球范围内涌现出了非常多的机器人初创公司，各行各业的人才都在往这个领域聚集。

几乎每天都有新的公司宣布完成融资，国内百亿估值的公司开始越来越多，一些公司甚至走上了IPO的道路，目光转到国外，Figure在去年完成C轮融资后，估值已经达到了390亿美元，位列人形机器人公司第一。

大家都想做通用人形机器人，又都需要需要海量数据，同时因为资本的不断涌入，整个赛道还处于并不缺钱的状态。

所以在这些有强烈数据需求、又有充足研发资金的公司背后，机器人产业上游的「卖水人」越来越多，因此逐渐形成了机器人产业的数据生产链。

而且随着行业发展，围绕机器人训练所需的数据，这些上游公司也开始形成了明显的分层，从目前的行业结构来看，大致可以分成五类玩家。

第一类是低成本数据工厂，采集的重点是Ego Data，在印度、泰国等地，已经有越来越多的团队开始组织低成本劳动力，搭建数据采集网络。

比如近期就有一家叫Neocambrian AI的初创公司，已经在印度启动了一项机器人数据工厂项目，为具身模型收集人类动作数据，尤其是Ego Data，其创始人也特别强调了印度拥有庞大的劳动力，也是其发展物理AI数据集的一大优势。

数据采集员戴上头部摄像设备、动作捕捉手套，按照任务流程完成工作，再由后端团队进行清洗、标注、验收，最后交付给机器人公司。

从商业模式看，它们和早年服务大模型的数据标注公司很像，只是过去标的是文本、图片和语音，现在开始生产物理世界经验。

一位行业人士也告诉我们，过去一年里，明显感觉到海外客户需求在增加。尤其是欧美机器人公司，「他们对数据规格会更明确，知道自己要什么。」

因为机器人数据并不是「拍视频」那么简单，许多客户真正需要是一套可以直接进入训练管线的数据，包括时间序列、多视角画面、动作轨迹、传感器状态、手部姿态、环境metadata，以及最终适配的训练格式。

在这个过程中，越来越多公司也发现，仅仅依赖低成本人力，其实很难形成长期壁垒。未来这些低成本数据工厂，最大的竞争壁垒还是要看交付的数据能不能更容易地被直接使用。

而且问题也很现实，这种业务天然容易商品化，一个团队能做，另一个团队理论上也能做，价格逐渐透明后，利润空间往往会被压缩。

所以低成本交付能力，是它们最大的优势，但也可能成为天花板。

第二类是动作采集与对齐层，比起单纯采视频，这类玩家试图解决「动作如何被机器真正理解」的问题，它们的重点不只是数据量，动作表达更加重要。

比如数据手套、动捕、手部追踪、动作重定向、操作采集接口。

因为机器人真正困难的部分，很多时候不是看不看得懂，而是怎么动。同样是抓一个杯子，不同机器人灵巧手的自由度不同、指节结构不同、力控能力不同。

这就会产生一个关键问题，人类动作，如何稳定映射到不同机器人身体？

所以越来越多公司开始更加关注动作重定向，在这个过程中，视频负责告诉机器人的是人类做了什么，动作层，则进一步回答机器人自己该怎么做。

这一层真正的价值，往往不是硬件本身，更稳定地完成「动作翻译」是核心。

第三类则是Robot-Native数据层，一般是第三方遥操和真机数据服务商，这类玩家最核心的特点在于离机器人本体更近，甚至很多时候，本身就需要和机器人公司深度绑定。

因为相比其他数采细分来说，真机数据高度依赖大量具体的机器人，而不同公司机器人的硬件不一样，自由度、动作空间、控制接口有很大差异，同样是一份抓取任务，换一个机器人可能就需要重新采。

在过程中，他们会提供、遥操员、场地和真机采集能力，帮助机器人公司快速积累训练数据，尤其是在模型早期验证阶段，当机器人公司自己还没有足够团队和场地时，外部服务商往往能够更快启动。

第四类则是仿真合成数据公司，他们不只卖数据，重点在于尝试打造一种更完整的数据能力。

在产出数据的同时，也帮助客户回答机器人为什么任务失败，以及下一批数据该怎么采的问题，这是今天许多公司正在走的新路线。

逻辑很简单，机器人训练一天，可能只够积累几个小时的有效轨迹。但在仿真世界里，同样的时间机器人可以失败几百万次，抓取失败、路径规划错误、碰撞、跌倒，都可以被无限重复。

所以行业也开始逐渐形成一种新的组合方式，真实数据负责锚定现实，仿真合成数据负责规模扩张。

英伟达在GR00T路线中也多次强调，机器人基础模型不仅需要人类示范数据，也需要大量合成数据。开发者可以先通过真实世界采集获得先验，再借助仿真扩展任务规模。

模型在仿真中失败越多，越知道缺什么数据，而谁能最快生产这些数据，谁就更有机会占据优势。

第五类玩家更偏向于数据标准与平台层，在扩张数据规模的同时，探索如何让数据供给本身变得更标准、更容易流通。

因为机器人公司开始越来越多，数据也变得高度碎片化，采集方式不同、动作表达不同、格式标准不同，同一份数据，很多时候甚至难以直接复用。

在这种背景下，今年来围绕具身数据标准化、协同采集的尝试也开始明显增加。

对于当下的机器人行业来说，缺乏数据只是其中一个问题，数据能不能持续稳定地产生，更容易进入训练流程，同样非常关键。

不过不管是人类数据、真机数据还是仿真等各类数据玩家，最终都要回答这样一个问题：机器人公司会不会把这些核心能力交给外部供应商？

毕竟对于今天的大多数具身公司来说，数据不仅是成本，也是壁垒。

机器人公司，到底该买数据还是自己采？

进入到今年后，数据在机器人行业中的地位举足轻重，所有人都知道机器人缺数据。

而相较于从前，今天市场上的数据供给选择开始越来越多，不同的数据类型都有其供应商可选，对于机器人公司来说，买数据开始变得越来越容易。

但现实情况却有些不同，一边是越来越多机器人公司开始采购数据，另一边是头部公司又在拼命搭建自己的数据团队。

如果往下拆，会发现不同数据，决定了完全不同的组织方式。

某种程度上机器人公司真正形成的是，「分层采购」逻辑。

其中第一层是基础通用数据，这是最容易被外包的一层。

例如厨房收纳、整理桌面、基础抓取、分拣、搬运等行为，这类数据有一个共同特点，不管机器人长什么样，最终都需要理解人类是如何完成任务的。

比如一个机器人进入厨房后，什么时候先腾出一只手，什么时候先整理大物体，再整理小物体，物品太多时，空间如何重新规划？

这些能力本质上属于通用物理世界认知，不是某一家机器人的独占能力。

类似这类的Ego数据如果自己从零开始采，需要搭起团队，管理成本比较高。

相比之下，外部团队可以在东南亚、印度等地区快速扩张采集规模，一个月就能稳定产出数千小时。

对于机器人公司来说，很多时候先买，比自己建团队更划算。因为在这一阶段目标不是让机器人稳定干活，而是先理解世界。

所以这类数据外包是合理的，甚至是效率更高的选择。

第二层则是具身适配数据，机器人公司会比较倾向于自己采。

在通过大量基础数据进行预训练后，这时训练就开始涉及到机器人真正部署的核心环节，任务对齐。

所以逻辑就开始出现了变化，因为每家公司机器人的本体都有很大差异，自由度不同、灵巧手不同，关节等方面的能力也不同。机器人最终需要学习的动作逻辑，也会有很大的区别。

越靠近动作执行层，数据越难通用。所以很多公司虽然大量采购Ego Data，但仍然在内部搭建数采团队，进行真机数据的采集。因为这一层，已经开始接近模型真正的竞争力。

第三层则是部署数据与失败数据，这是相当关键的一层，往往产生在实际部署之后。

在机器人被部署到实际的应用场景后，其工作的真实环境中往往会遇到中各种各样的偶发情况，这些真实场景中产生的部署数据，不论是成功还是失败，都极具价值，并且在前置的数据采集中很少遇到，难以被提前设计，只能在真实环境中一点一点积累。

而且很多公司也难以将自己的机器人大量部署到真实场景中，所以真实部署数据就无从谈起了。

部署过程中，机器人在多变环境下不断积累，哪怕是失败数据，也有助于团队针对性的找出原因，并做出对策，以此来优化模型，进而再促进机器人的规模落地。

这些属于头部机器人公司的核心数据，也是他们区别于竞争对手的壁垒。

这在一定程度上也也限制了数据公司的天花板，它们能帮助机器人「入门」，真正决定能力上限的数据，许多头部公司最终还是会选择自己掌握。

所以数据行业分化出的两种不同路径也有迹可循，一种是数据工厂，另一种是数据引擎。

数据工厂是目前行业里出现最快、数量最多，也更容易形成现金流的一类公司。

其中，低成本数据工厂更看重人类行为数据，依赖低成本的劳动力优势，按小时收费、追求规模和交付能力，现金流可能很快转正，但壁垒有限，入局的竞争者正在迅速增多，尤其是在EgoScale之后，大量初创公司开始涌入人类数据。

更高复杂度的数据工厂，在覆盖人类行为数据的基础上，批量部署机器人，通过遥操或本体自主运行的方式，大量采集真机数据。

另一种路径，试图做的是数据引擎，梳理任务分类体系、搭建数据结构、实现动作重定向、接入仿真平台、落地模型评测，并依托模型失效样本迭代反向生产数据集。

换句话说，他们在做的事情不只是出售数据，重点是让机器人拥有持续变聪明的能力。

机器人版Scale AI，会出现吗？

把今天的机器人行业，放回到2022年的大模型里，会发现一种相似感。

当时的行业也发现，真正决定模型能力上限的东西，是数据。

于是，围绕数据清洗、RLHF、评测、后训练这些领域，一批新的公司也开始迅速崛起，最经典的就是Scale AI。

这家公司在早期阶段帮自动驾驶公司标数据，从2019年开始，Scale AI在GPT-2阶段就深度绑定了OpenAI，承接RLHF人类反馈标注、大模型评测、红队测试、边缘案例反向造数据。

在ChatGPT爆火后，Meta Llama、Anthropic、微软Azure等迅速接入，大模型对高质量标注、测评、合成数据的需求暴涨，这家公司的营收3年翻了4倍以上。

后来，这家公司也开始逐渐走向更深的基础设施层，数据管理、模型评测、AI workflow。

因为Scale AI的成功经验，很多人也在憧憬，机器人行业，会不会也出现一家类似的公司？

从目前数据的短缺程度来看，很有可能会，但也不会完全复制。

因为机器人所需的数据比文本要复杂许多，对于大模型来说，一个答案对错相对容易判断。但机器人世界里，一个动作是否成功，往往充满模糊性。

杯子拿起来了，但角度不对。东西放回去了，但碰倒了其他物体，而且很多时候完成任务本身就存在多种正确路径。

所以机器人行业真正需要的，并不是一个简单的数据平台，重点是一整套采集、标注、动作映射、仿真扩增、模型评测、失败反馈的数据闭环。

机器人真正缺的不只是数据，持续生产有效经验的能力更为稀缺。

所以越来越多的公司开始把竞争焦点，从机器人本体、模型架构转向数据体系。

今年以来，无论是Figure、1X、PI，还是NVIDIA所推动的GR00T路线，都在反复强调一个共同方向，机器人的能力增长，硬件升级只是一部分，更多的数据和更有效训练开始成为主角。

从某种程度上说，在机器人行业量产落地阶段开启后，大家也正在从「造机器」进入到「喂机器」的新时期。

在机器人还站不起来、走不了路的阶段，具身公司最大的竞争力是能不能把硬件和运动控制做好。

可当机器人能跑能跳，在许多比赛上的成绩可以超越人类时候，自主工作的能力又成了行业最大的目标，在这个目标的驱使下，行业的主旋律就变成了大规模的高质量数据。

机器人要想在复杂现实世界里持续成功，就需要见过足够多物理空间中真实存在的任务，知道杯子可能打翻、衣服可能缠住、空间可能不够，这些经验，不会天然存在于互联网里，它只能被一点点生产出来。

所以这条数据产业链，也在这两年的机器人热潮背后，悄悄成型。

在链条一端，是印度工厂里戴着摄像头的人类，是仿真中不断摔倒的机器人。

另一端，是估值数十亿、百亿、甚至上千亿的机器人公司，他们正试图让机器人真正进入家庭、进入工厂。

从印度的数据工厂、仿真中的机器人，再到全球各大机器人公司，一条新的生产链已经开始形成，只是这一次，被生产的不再是零部件，而是数据。

阅读视图