阅读视图

机器人开始“吃数据”:从印度数据工厂到百亿美元人形机器人的隐秘生产链

本文来自微信公众号: 42号电波 ,作者:兰博,编辑:James,原文标题:《机器人开始「吃数据」:从印度数据工厂到百亿美元人形机器人的隐秘生产链》


在印度的某个服装加工厂中,工人们正在像往常一样整理布料,但这次不同的是,他们的头上多了一个摄像头,用来拍摄自己工作时的第一视角视频。


这些视频,将会在处理之后成为数据资产,出售给那些需要大量数据来训练机器人的具身智能公司。


类似的生意从今年开始,正在加速形成一条新的产业链,而这条产业链的兴起,就源于具身智能行业目前所遇到的最大卡点:数据。


「今年需求明显起来了。」一位从事机器人数据采集的业内人士告诉42号电波,自己团队所服务的欧美机器人公司,正在大量采购人类工作数据。目前团队已经有近百名采集员参与到机器人训练数据生产中,一个月能稳定产出数千小时人类第一视角视频数据。


采集员需要按照标准流程,完成整理衣服、厨房归纳、抓取物品等任务,过程中佩戴头部摄像头,有些任务还要用数据手套记录更精细的手部动作。


「以前行业都在聊模型、聊硬件,现在越来越多人开始问,数据能不能稳定供给?」


大家开始清晰地意识到,模型能力迟迟无法突破,数据规模不足就是最大的问题。


而在具身模型巨大的数据缺口下,数据采集这门新的生意,也开始迅速形成。


机器人为什么开始缺数据?


如果把时间拨回三年前,机器人更像传统自动化产业。


多数机器人被固定在工厂里,工作流程高度结构化:焊接、搬运、喷涂、装配。它们不需要理解复杂环境,也不需要学习泛化能力,只需要在既定轨迹里重复动作。


而现在,许多公司想做的,已经不是传统工业机器人。从特斯拉、Figure再到PI,行业正在尝试让机器人像大模型一样,被训练出来,并且具备通用能力。


所以具身模型所走的路也开始越来越像大语言模型(LLM),只不过具身模型所走的路,比LLM更加艰难,尤其是在数据领域。


对于LLM来说,互联网本身就是一个天然的数据金矿,数十年来积累下来的网页、书籍、论文、代码仓库等,构成了海量的训练语料,模型公司通常只需要解决如何筛选和清洗数据的问题,很少需要从零开始创造数据。


但具身模型不同,它面对的是物理世界,是一片数据荒漠。机器人的动作数据不会凭空产生,即便互联网中有许多人类工作视频,可对于机器人来说,这样的数据量级仍然不够,并且整体质量也不够高。


如果说LLM出生在图书馆,机器人更像出生在一片荒漠当中。


所以当AI已经进入算力竞争和推理优化的阶段时,具身智能行业仍然被困在最基础的问题上:数据从哪里来。


这也是为什么,即便如今的模型架构越来越复杂,机器人距离真正进入家庭和复杂场景,依然很远。


因为模型缺少足够多的现实经验。


此前,Figure创始人Brett Adcock曾抛出过一个很直接的观点:「如果打个响指,真正需要的海量数据就能塞进Helix模型的话,我们立刻就能搞定通用机器人。」


可问题在于,数据从哪里来?


一小时数据,是怎么生产出来的?


今年2月,一个研究结果开始让行业兴奋起来。


英伟达团队发布了EgoScale,通过超2万小时带动作标注的人类第一视角视频预训练模型,再用少量机器人数据微调,就可以让Sharpa Wave 22自由度灵巧手完成拧瓶盖、叠衣服等任务。



更重要的是,研究发现,随着人类数据规模增加,模型表现会稳定提升,这种提升是可预测的。


这项研究对于具身行业来说非常重要,毕竟一条可以Scaling的数据路线,意味着机器人能力的增长,有机会像大模型一样,进入一个「更多数据,带来更强能力」的正循环。


过去很长时间里,具身行业一直有一种焦虑,即便投入更多资金,模型能力的提升依然高度不可预测。因为真实世界数据太少、成本太高,很少有人敢在数据领域投入巨大资金。


但EgoScale某种程度上证明了一件事,至少在人类第一视角数据(Ego Data)上,规模确实能够给灵巧手操作带来稳定收益。



与此同时也有越来越多机器人公司开始走向大量人类数据+少量机器人本体数据的路径。


人类第一视角视频,负责告诉模型人是怎么完成任务的,机器人数据,则负责让模型学会自己的身体应该怎么做。


所以Ego Data的主要价值是作为一种更容易规模化的先验知识,让机器人先理解物理世界,再通过少量真机数据完成适配。


于是,围绕Ego Data的新产业链,也开始在今年明显加速。


人类在头部或者胸前戴上一个摄像头,然后执行具体任务,比如整理衣物、收纳厨房、分拣包裹时,摄像头会记录人类工作时的第一视角视频。


从某种程度上说,人类本身就是世界上最成熟的通用机器人。进入厨房时,人会自然判断先放什么、后放什么,空间不够时,会腾出另一只手。碰到易碎品时,会下意识调整力度。


这些看似本能的动作背后,实际上隐藏着大量空间理解、任务规划和物体交互逻辑。


而过去,机器人几乎从未系统获得过这些经验。



但Ego Data并不是随便拍视频,并且拍足够规模的视频也不是最大难点,关键在于如何把这些经验,变成一种可以被模型真正使用的数据产品。


一位在今年开始加速布局Ego数据的从业者告诉42号电波,真正的数据采集,通常从客户发来的一份任务specification(规格文档)开始。


这类文档里,并不会简单写一句「采厨房整理数据」,往往都会有明确的规定:


任务类型是什么、双手是否必须完整进入画面、摄像头需要位于头部还是胸前、动作是否允许中断、环境需要多少种变化、需不需要失败样本、最终交付格式是否要兼容训练框架。


例如同样是整理厨房,客户可能要求:连续完成打开柜门、寻找容器、腾挪空间、取放物品、关门等多个步骤,中间不能跳帧,也不能出现严重遮挡。


某种程度上说,这更像是在生产一种工业品,采集现场的整个过程也远比想象中更「工厂化」。


在一些数采中心里,采集员会轮流进入被布置好的厨房、衣帽间、货架区,按照统一SOP重复执行任务。


有人负责整理衣物,有人反复练习抓取不同尺寸的物品,也有人专门采集厨房归纳和搬运的数据。


同一个动作,往往还需要由不同身高、不同惯用手、不同操作习惯的人重复完成,试图穷尽物理世界中可能出现的各种情况,毕竟机器人最终面对的是复杂现实世界,不是单一标准答案。


同样是把杯子放进柜子里,有的人先腾空间,有的人会换一只手,有的人习惯先打开柜门,这些细微差异,恰恰构成了机器人泛化能力的一部分。


所以对许多具身模型来说,它们需要学习的,就是「人类通常会怎么完成这件事」的逻辑。


这类数据相比较真机数据,更容易达成批量生产,在行业巨大的需求面前,只要规模跟得上、人力成本低,就有了盈利的基础,也相对容易产生现金流。


但如果数据不符合客户要求的话,就需要返工,真正客户验收通过的数据,远少于原始拍摄时长,可直接进入训练流程的有效时长更重要。


从这里开始,行业逐渐出现了越来越明显的分层。因为不同数据,价值差异极大,从成本、价值等综合角度看,大致可以形成一座「数据金字塔」。


不同类型的数据,价值差异巨大


在「数据金字塔」中,最底层是互联网数据,几乎没有什么采集成本的同时,也有不小的规模。


机器人可以从中学习物体长什么样、厨房的大致布局。但问题也很明显,它只能帮助机器人「知道」,很难帮助机器人「做到」。现实世界真正困难的地方,是动作,摩擦力、重量、材质变化、空间限制、碰撞风险,这些都无法只靠普通视频学会。


再往上是更高一层的人类数据,Ego Data就是其中最重要的部分,它可以从第一视角告诉模型人是怎么操作的,这部分的视频数据可以大规模用于预训练,就像EgoScale中所做的那样。


但机器人最终还要解决自己的身体应该怎么做的问题。同样是拧瓶盖,人手轻松完成,机器人却可能反复失败。


于是,数据手套带来的感知数据开始越来越重要,普通的Ego Data只能告诉模型人看到了什么、完成了什么任务。可机器人最终还需要知道什么时候该加大力度,什么时候需要放松。


这些细微动作,很难仅靠视频推断出来,所以越来越多公司开始尝试把手部动作捕捉、姿态估计、关节轨迹与视觉数据进行对齐。


视频负责提供空间理解,手套负责提供动作细节,而遥操的真机数据则进一步帮助机器人理解自己的身体该如何执行。



不过目前行业还存在一个很现实的问题,手套标准仍然很不统一。不同设备的采样频率、关节定义、精度和动作表达方式差异很大,如何把人类动作稳定映射到不同机器人身体,还是一个不小的卡点。


所以如果不戴数据手套,只用头戴摄像头拍摄,这时候Ego Data的价格并不算太高,可一旦加上数据手套,价格就会迅速上升。


金字塔再往上去就是仿真数据,通过数字孪生环境,机器人可以在虚拟世界中高速训练,反复经历数百万次抓取、导航和避障。现实中一个月才能完成的数据量,在仿真环境里可能几天就能跑完。


不过仿真终究不是现实世界,虽然量大且成本低,但现实中的摩擦力、材质变化、反光等各种偶然因素,很难被完全复刻,这也是行业里常提到的「Sim-to-Real Gap」,机器人在仿真中学得很好,一旦走入真实环境,能力往往会大打折扣。


而金字塔的顶层,就是质量最高、也最贵最稀缺的真机数据,主要是靠操作员遥操等方式,控制机器人完成具体任务,机器人会同步记录视觉、动作、控制信号和传感器状态。


与人类数据不同,它天然就在机器人的动作空间里,模型不用再费力理解人类动作如何映射到机器人身体。另外真机数据也包含其在应用时所产出的自主工作数据,但现在的机器人普遍还没有大规模应用,所产出的数据同样稀少。


而且真机数据的关键问题就是生产效率非常低,要想提高数据规模的话,就需要增加更多的机器人和操作员,并且还有高昂的场地和设备损耗成本,都会迅速推高价格。


多位业内人士给出的价格情况大概是,最简单的Ego Data往往只需要几十元一小时,而涉及遥操的机器人本体数据,价格通常会上升到数百甚至上千元一小时。


在不同厂商机器人模型的训练过程中,数据金字塔的各层所发挥的作用也各不相同,因此整个行业也涌现出了仿真、人类第一视角数据等侧重点各不相同的上游数据公司。


谁在交易这些数据?


当一个规模巨大的行业兴起时,最先盈利的往往是上游「卖水人」。


具身智能行业同样如此,过去一两年内,全球范围内涌现出了非常多的机器人初创公司,各行各业的人才都在往这个领域聚集。


几乎每天都有新的公司宣布完成融资,国内百亿估值的公司开始越来越多,一些公司甚至走上了IPO的道路,目光转到国外,Figure在去年完成C轮融资后,估值已经达到了390亿美元,位列人形机器人公司第一。


大家都想做通用人形机器人,又都需要需要海量数据,同时因为资本的不断涌入,整个赛道还处于并不缺钱的状态。


所以在这些有强烈数据需求、又有充足研发资金的公司背后,机器人产业上游的「卖水人」越来越多,因此逐渐形成了机器人产业的数据生产链。


而且随着行业发展,围绕机器人训练所需的数据,这些上游公司也开始形成了明显的分层,从目前的行业结构来看,大致可以分成五类玩家。



第一类是低成本数据工厂,采集的重点是Ego Data,在印度、泰国等地,已经有越来越多的团队开始组织低成本劳动力,搭建数据采集网络。


比如近期就有一家叫Neocambrian AI的初创公司,已经在印度启动了一项机器人数据工厂项目,为具身模型收集人类动作数据,尤其是Ego Data,其创始人也特别强调了印度拥有庞大的劳动力,也是其发展物理AI数据集的一大优势。


数据采集员戴上头部摄像设备、动作捕捉手套,按照任务流程完成工作,再由后端团队进行清洗、标注、验收,最后交付给机器人公司。


从商业模式看,它们和早年服务大模型的数据标注公司很像,只是过去标的是文本、图片和语音,现在开始生产物理世界经验。


一位行业人士也告诉我们,过去一年里,明显感觉到海外客户需求在增加。尤其是欧美机器人公司,「他们对数据规格会更明确,知道自己要什么。」


因为机器人数据并不是「拍视频」那么简单,许多客户真正需要是一套可以直接进入训练管线的数据,包括时间序列、多视角画面、动作轨迹、传感器状态、手部姿态、环境metadata,以及最终适配的训练格式。


在这个过程中,越来越多公司也发现,仅仅依赖低成本人力,其实很难形成长期壁垒。未来这些低成本数据工厂,最大的竞争壁垒还是要看交付的数据能不能更容易地被直接使用。


而且问题也很现实,这种业务天然容易商品化,一个团队能做,另一个团队理论上也能做,价格逐渐透明后,利润空间往往会被压缩。


所以低成本交付能力,是它们最大的优势,但也可能成为天花板。


第二类是动作采集与对齐层,比起单纯采视频,这类玩家试图解决「动作如何被机器真正理解」的问题,它们的重点不只是数据量,动作表达更加重要。


比如数据手套、动捕、手部追踪、动作重定向、操作采集接口。


因为机器人真正困难的部分,很多时候不是看不看得懂,而是怎么动。同样是抓一个杯子,不同机器人灵巧手的自由度不同、指节结构不同、力控能力不同。


这就会产生一个关键问题,人类动作,如何稳定映射到不同机器人身体?


所以越来越多公司开始更加关注动作重定向,在这个过程中,视频负责告诉机器人的是人类做了什么,动作层,则进一步回答机器人自己该怎么做。


这一层真正的价值,往往不是硬件本身,更稳定地完成「动作翻译」是核心。


第三类则是Robot-Native数据层,一般是第三方遥操和真机数据服务商,这类玩家最核心的特点在于离机器人本体更近,甚至很多时候,本身就需要和机器人公司深度绑定。


因为相比其他数采细分来说,真机数据高度依赖大量具体的机器人,而不同公司机器人的硬件不一样,自由度、动作空间、控制接口有很大差异,同样是一份抓取任务,换一个机器人可能就需要重新采。


在过程中,他们会提供、遥操员、场地和真机采集能力,帮助机器人公司快速积累训练数据,尤其是在模型早期验证阶段,当机器人公司自己还没有足够团队和场地时,外部服务商往往能够更快启动。


第四类则是仿真合成数据公司,他们不只卖数据,重点在于尝试打造一种更完整的数据能力。



在产出数据的同时,也帮助客户回答机器人为什么任务失败,以及下一批数据该怎么采的问题,这是今天许多公司正在走的新路线。


逻辑很简单,机器人训练一天,可能只够积累几个小时的有效轨迹。但在仿真世界里,同样的时间机器人可以失败几百万次,抓取失败、路径规划错误、碰撞、跌倒,都可以被无限重复。


所以行业也开始逐渐形成一种新的组合方式,真实数据负责锚定现实,仿真合成数据负责规模扩张。


英伟达在GR00T路线中也多次强调,机器人基础模型不仅需要人类示范数据,也需要大量合成数据。开发者可以先通过真实世界采集获得先验,再借助仿真扩展任务规模。


模型在仿真中失败越多,越知道缺什么数据,而谁能最快生产这些数据,谁就更有机会占据优势。


第五类玩家更偏向于数据标准与平台层,在扩张数据规模的同时,探索如何让数据供给本身变得更标准、更容易流通。


因为机器人公司开始越来越多,数据也变得高度碎片化,采集方式不同、动作表达不同、格式标准不同,同一份数据,很多时候甚至难以直接复用。


在这种背景下,今年来围绕具身数据标准化、协同采集的尝试也开始明显增加。


对于当下的机器人行业来说,缺乏数据只是其中一个问题,数据能不能持续稳定地产生,更容易进入训练流程,同样非常关键。


不过不管是人类数据、真机数据还是仿真等各类数据玩家,最终都要回答这样一个问题:机器人公司会不会把这些核心能力交给外部供应商?


毕竟对于今天的大多数具身公司来说,数据不仅是成本,也是壁垒。


机器人公司,到底该买数据还是自己采?


进入到今年后,数据在机器人行业中的地位举足轻重,所有人都知道机器人缺数据。


而相较于从前,今天市场上的数据供给选择开始越来越多,不同的数据类型都有其供应商可选,对于机器人公司来说,买数据开始变得越来越容易。


但现实情况却有些不同,一边是越来越多机器人公司开始采购数据,另一边是头部公司又在拼命搭建自己的数据团队。



如果往下拆,会发现不同数据,决定了完全不同的组织方式。


某种程度上机器人公司真正形成的是,「分层采购」逻辑。


其中第一层是基础通用数据,这是最容易被外包的一层。


例如厨房收纳、整理桌面、基础抓取、分拣、搬运等行为,这类数据有一个共同特点,不管机器人长什么样,最终都需要理解人类是如何完成任务的。


比如一个机器人进入厨房后,什么时候先腾出一只手,什么时候先整理大物体,再整理小物体,物品太多时,空间如何重新规划?


这些能力本质上属于通用物理世界认知,不是某一家机器人的独占能力。


类似这类的Ego数据如果自己从零开始采,需要搭起团队,管理成本比较高。


相比之下,外部团队可以在东南亚、印度等地区快速扩张采集规模,一个月就能稳定产出数千小时。


对于机器人公司来说,很多时候先买,比自己建团队更划算。因为在这一阶段目标不是让机器人稳定干活,而是先理解世界。


所以这类数据外包是合理的,甚至是效率更高的选择。


第二层则是具身适配数据,机器人公司会比较倾向于自己采。


在通过大量基础数据进行预训练后,这时训练就开始涉及到机器人真正部署的核心环节,任务对齐。


所以逻辑就开始出现了变化,因为每家公司机器人的本体都有很大差异,自由度不同、灵巧手不同,关节等方面的能力也不同。机器人最终需要学习的动作逻辑,也会有很大的区别。


越靠近动作执行层,数据越难通用。所以很多公司虽然大量采购Ego Data,但仍然在内部搭建数采团队,进行真机数据的采集。因为这一层,已经开始接近模型真正的竞争力。


第三层则是部署数据与失败数据,这是相当关键的一层,往往产生在实际部署之后。


在机器人被部署到实际的应用场景后,其工作的真实环境中往往会遇到中各种各样的偶发情况,这些真实场景中产生的部署数据,不论是成功还是失败,都极具价值,并且在前置的数据采集中很少遇到,难以被提前设计,只能在真实环境中一点一点积累。


而且很多公司也难以将自己的机器人大量部署到真实场景中,所以真实部署数据就无从谈起了。


部署过程中,机器人在多变环境下不断积累,哪怕是失败数据,也有助于团队针对性的找出原因,并做出对策,以此来优化模型,进而再促进机器人的规模落地。


这些属于头部机器人公司的核心数据,也是他们区别于竞争对手的壁垒。


这在一定程度上也也限制了数据公司的天花板,它们能帮助机器人「入门」,真正决定能力上限的数据,许多头部公司最终还是会选择自己掌握。


所以数据行业分化出的两种不同路径也有迹可循,一种是数据工厂,另一种是数据引擎。


数据工厂是目前行业里出现最快、数量最多,也更容易形成现金流的一类公司。


其中,低成本数据工厂更看重人类行为数据,依赖低成本的劳动力优势,按小时收费、追求规模和交付能力,现金流可能很快转正,但壁垒有限,入局的竞争者正在迅速增多,尤其是在EgoScale之后,大量初创公司开始涌入人类数据。


更高复杂度的数据工厂,在覆盖人类行为数据的基础上,批量部署机器人,通过遥操或本体自主运行的方式,大量采集真机数据。


另一种路径,试图做的是数据引擎,梳理任务分类体系、搭建数据结构、实现动作重定向、接入仿真平台、落地模型评测,并依托模型失效样本迭代反向生产数据集。


换句话说,他们在做的事情不只是出售数据,重点是让机器人拥有持续变聪明的能力。


机器人版Scale AI,会出现吗?


把今天的机器人行业,放回到2022年的大模型里,会发现一种相似感。


当时的行业也发现,真正决定模型能力上限的东西,是数据。


于是,围绕数据清洗、RLHF、评测、后训练这些领域,一批新的公司也开始迅速崛起,最经典的就是Scale AI。


这家公司在早期阶段帮自动驾驶公司标数据,从2019年开始,Scale AI在GPT-2阶段就深度绑定了OpenAI,承接RLHF人类反馈标注、大模型评测、红队测试、边缘案例反向造数据。


在ChatGPT爆火后,Meta Llama、Anthropic、微软Azure等迅速接入,大模型对高质量标注、测评、合成数据的需求暴涨,这家公司的营收3年翻了4倍以上。


后来,这家公司也开始逐渐走向更深的基础设施层,数据管理、模型评测、AI workflow。


因为Scale AI的成功经验,很多人也在憧憬,机器人行业,会不会也出现一家类似的公司?


从目前数据的短缺程度来看,很有可能会,但也不会完全复制。


因为机器人所需的数据比文本要复杂许多,对于大模型来说,一个答案对错相对容易判断。但机器人世界里,一个动作是否成功,往往充满模糊性。


杯子拿起来了,但角度不对。东西放回去了,但碰倒了其他物体,而且很多时候完成任务本身就存在多种正确路径。


所以机器人行业真正需要的,并不是一个简单的数据平台,重点是一整套采集、标注、动作映射、仿真扩增、模型评测、失败反馈的数据闭环。


机器人真正缺的不只是数据,持续生产有效经验的能力更为稀缺。


所以越来越多的公司开始把竞争焦点,从机器人本体、模型架构转向数据体系。


今年以来,无论是Figure、1X、PI,还是NVIDIA所推动的GR00T路线,都在反复强调一个共同方向,机器人的能力增长,硬件升级只是一部分,更多的数据和更有效训练开始成为主角。


从某种程度上说,在机器人行业量产落地阶段开启后,大家也正在从「造机器」进入到「喂机器」的新时期。


在机器人还站不起来、走不了路的阶段,具身公司最大的竞争力是能不能把硬件和运动控制做好。


可当机器人能跑能跳,在许多比赛上的成绩可以超越人类时候,自主工作的能力又成了行业最大的目标,在这个目标的驱使下,行业的主旋律就变成了大规模的高质量数据。


机器人要想在复杂现实世界里持续成功,就需要见过足够多物理空间中真实存在的任务,知道杯子可能打翻、衣服可能缠住、空间可能不够,这些经验,不会天然存在于互联网里,它只能被一点点生产出来。


所以这条数据产业链,也在这两年的机器人热潮背后,悄悄成型。


在链条一端,是印度工厂里戴着摄像头的人类,是仿真中不断摔倒的机器人。


另一端,是估值数十亿、百亿、甚至上千亿的机器人公司,他们正试图让机器人真正进入家庭、进入工厂。


从印度的数据工厂、仿真中的机器人,再到全球各大机器人公司,一条新的生产链已经开始形成,只是这一次,被生产的不再是零部件,而是数据。

  •