出品|虎嗅科技组
作者|陈伊凡
编辑|苗正卿
头图|AI生成
“具身智能,还处于乱世。”
这是与CyberOrigin(下称:赛源)创始人殷鹏见面时,他对我说的第一句话。赛源是特斯拉、英伟达等公司在人形机器人领域的合作商之一。而其所在的珠三角,是世界机器人供应链的核心,那是殷鹏真正的“战场”——全球任何一家机器人相关的公司,都必须到珠三角寻找硬件供应链,如今,还包括数据。在机器人圈,这些为特斯拉、英伟达人形机器人提供关键训练数据的公司,往往被视为巨头背后的“卖水人”。
和此前十余年“卖水人”多为生产制造环节相关公司不同,AI纪元下,数据类“卖水人”正在异军突起。一批诸如赛源,开始聚焦于提供机器人与真实物理交互的数据。以殷鹏的公司为例,它的客户名单中,包括英伟达、特斯拉、OpenAI的人形机器人;也包括谷歌和斯坦福李飞飞的机器人模型训练实验室,也是赛源能够与其他机器人数据公司拉开差距的地方。
但对于这些“卖水人”而言,2025年以来警报声不时响起。
近期,据媒体报道,特斯拉被曝暂停人形机器人的研发,调整设计。殷鹏在四月份已知道这个消息,暂停的主要原因,仍然在数据问题——特斯拉需要更多机器人数据以训练模型。这对于赛源这样的数据提供商而言,是个好消息,真实物理交互数据,而非本体,正在成为这场具身智能军备竞赛中的核心弹药——“机器人是引擎,数据是石油。没油,发动机运不了。” 殷鹏说,“我们需要成长为特斯拉最大的数据端供应商。”
当虎嗅于六月在上海见到殷鹏时,他穿了一身运动打扮,黑色迪桑特polo衫和运动鞋,倔强的刘海,时不时在说话间甩到前额,他再利落地把它撇开。见面时,他正经历一场短期出差,还带有一丝风尘仆仆,他需要在晚上飞回深圳,也是大量“卖水人”的基地所在。
作为赛源的CEO,殷鹏的另一个身份是香港城市大学助理教授,他曾师从SLAM和规划界传奇人物,JiZhang教授,他开创了实时 3D 激光雷达 SLAM 的先河,并将其商业化。这一技术,是机器人、自动驾驶车辆的“导航大脑”,如果没有它,扫地机器人、车辆自动驾驶将无法存在。而殷鹏在此后曾深度参与NASA(美国国家航空航天局)、DARPA(美国国防部高级研究计划局)和英伟达的课题,其第一篇国际顶刊文章,成为NASA火星降落的参考方案之一,殷鹏也是NASA火星登陆项目的高级顾问;在DARPA的地下机器人挑战赛上,殷鹏和团队开发出了首个超大规模多机协作定位建模系统,这个成果也发了第二篇国际顶刊论文。
图为殷鹏在实验室 图片由殷鹏提供
在与虎嗅的交流中,殷鹏不断提及马斯克——特斯拉的创立者,他强调“第一性原理”的方法论,他读马斯克的自传,拆解这位硅谷“钢铁侠”的创业逻辑、商业故事,他称马斯克为“老马”,“第一性原理非常可怕,他能把一件在旁人看来不可能实现的事情变成可能。”殷鹏说。
2024年,殷鹏选择创立赛源。在创业之初,殷鹏请教过不少前辈,其中包括香港科技大学教授李泽湘与高秉强,前者建议充分利用大湾区的资源。后者则建议做海外市场,以及思考C端的生意。高秉强不仅是导师,也是殷鹏最早的天使投资人,这位在硬科技领域投资了不少上市企业的前辈告诉他,当下时点,找一个切口去创业,再层层迭代。
面对虎嗅,殷鹏分享了自己对具身智能的看法和创业的想法,从学者转化为企业CEO,殷鹏很坚决,因为学术已经很难满足他需要的资源,他需要到业界、到一线去获得更快更真实的数据反馈。这也是为什么他没有选择做CTO,而直接选择做CEO的原因。
“如果认准了身位,那就义无反顾。”殷鹏说。
机器人的ChatGPT时刻
虎嗅:很明显的行业趋势是,ChatGPT出现之后,出现了Emboied AI的概念,随即特斯拉、英伟达、亚马逊等大公司开始发布其各自的通用人形机器人计划。这个飞跃在过去机器人历史中极为少见。Transformer架构究竟做了什么,让这个行业出现这样质的飞跃?
殷鹏:Transformer架构最大的提升在于发明了一种可以Scaling Law的模式。过去我们强调强化学习的效果能达到多少,训练数据集和测试数据集相差不大,因为场景很多,一定无法涵盖所有场景,那么模型要不断重新训练。但这种基于监督学习的方式,在未知领域发展很慢。Transformer架构可以输入足够多的数据,在足够多的数据下再进行微调和提升。
这个策略架构最早是谷歌提出来,但真正用起来的是特斯拉的那群人,将Transformer架构运用在自动驾驶上。因为研究人员发现,Transformer的核心是当数据量到一定数量级时,会出现涌现。这让具身智能在空间理解方面有了很大进步。
首先,它实现了空间理解能力的质变:传统强化学习在有限场景中只能进行局部探索,而借助Transformer的自注意力机制,机器人能够对整个三维空间进行全局感知,并通过同时处理视觉、语言与动作等多模态信息,形成统一的空间认知模型;其次,它在泛化能力上取得了突破,传统方法在训练集和测试集场景相似时表现尚可,但一旦场景变化就需重新训练,而Transformer模型通过大规模数据训练后,能够在未见过的场景中自主推理与适应;第三,这一架构推动了从规则驱动到数据驱动的范式转变,彻底告别了基于IF-ELSE的人工规则系统,实现了从感知到动作的端到端学习,极大地减少了中间环节的信息损失。
此外,Transformer擅长时序建模,其注意力机制让机器人不仅理解动作间的先后关系,还能进行复杂动作序列的长期规划;更重要的是,它支持多任务学习:在世界模型中,视觉、语言与操作被整合于同一模型;在分层架构中,上层负责高层推理与决策,下层则承担精确执行,两者兼顾;在数据效率方面,尽管依然需要大量数据,但与传统方法相比,Transformer能用更少的任务特定示教数据完成复杂任务,并将学到的知识迁移到相关任务;同时,其在线学习能力使机器人在执行过程中不断学习与调整,并对光照、物体位置等环境变化具有更高的鲁棒性;最后,它实现了语言理解与执行的统一,不仅能理解复杂的自然语言指令,还能结合视觉信息进行多模态推理并转化为具体动作。
这种从“专用AI”向“通用AI”的转变,让机器人从只能执行预设任务的工具,进化为具备环境理解、技能学习与新场景适应能力的智能体,这一技术进展正是“通用机器人成为可能”的根本驱动力,也是当前人形机器人热潮的核心所在。
虎嗅:你刚才说最早将Transformer发扬光大的是特斯拉的无人车,让大家看到一个重要的实现路径,可以展开说说吗?
殷鹏:特斯拉无人车将Transformer”发扬光大”的关键在于他们率先将Transformer架构应用于自动驾驶的视觉感知系统,实现了从多个摄像头输入到驾驶决策输出的端到端学习。
这打破了传统自动驾驶依赖激光雷达和复杂传感器融合的技术路线,证明了纯视觉方案的可行性。特斯拉拥有全球最大的自动驾驶数据收集网络,每天有数百万辆车在路上收集数据,他们率先验证了Transformer架构在大规模真实世界数据下的”涌现”效应,当数据量达到一定规模时,模型性能会出现质的飞跃。
特斯拉的Transformer模型能够同时处理8个摄像头的实时画面、车辆运动轨迹和历史状态、以及3D环境理解和路径规划,这种统一的多模态处理能力为后来的具身智能提供了重要借鉴。
更重要的是,特斯拉证明了Transformer不仅能做感知理解环境,还能做决策规划路径和控制车辆,实现了完整的感知-决策-执行闭环,这为机器人的”大脑”设计提供了重要范式。通过车辆在真实道路上的行驶数据,特斯拉实现了大规模的自监督学习,让模型能够从未标注的数据中学习驾驶技能,这种方法后来被广泛应用于机器人的动作学习中。
另外,还将其工程化,实现了在车载硬件上的实时推理,这为具身智能的实际部署提供了重要经验。
所以特斯拉的成功让整个AI界看到了一条重要路径:通过大规模真实世界数据训练Transformer模型,可以实现从感知到行动的端到端智能。这直接启发了谷歌的机器人项目开始大规模收集机器人操作数据,OpenAI将类似架构应用于机器人控制,各大科技公司开始重视具身智能的数据收集。
所以,特斯拉实际上开创了”用数据驱动的AI来解决物理世界交互问题”的先河,这正是当前具身智能热潮的技术根源。他们证明了Transformer不仅能处理语言,更能处理复杂的时空序列数据,为机器人的”ChatGPT时刻”奠定了基础。
虎嗅:目前全球机器人模型主要来自几家实验室,包括谷歌和斯坦福李飞飞实验室,这些不同的模型技术路线有什么不同以及优劣之分?
殷鹏:目前,模型体系大致分为两类,很难简单评判优劣。第一类是“世界模型”,将视觉、语言与操作等多种能力整合进一个统一模型中进行训练。例如,李飞飞实验室的世界模型、Pi的 OpenVLA 和谷歌的 PaLM。这类模型的优点是收敛速度快,适用于在厨房、浴室、卧室等特定场景中采集数据并优化机器人性能。但其缺陷在于泛化能力弱。一旦超出训练场景(如机器人从一个房间移动到另一个),就需重新采集数十小时的数据进行训练,否则性能会大幅下降。例如 SLAM(同步定位与地图构建)对光照和场景元素极为敏感,细微变化就可能导致如抓取等操作失败。因此,该类模型更适合简单场景的演示,难以应对如工厂等复杂、动态环境。
第二类是分层混合架构模型,代表如 Figure.AI。该模型结构类似于人脑与小脑的分工:大脑部分负责文本和视觉推理,解决“去哪里”“拿什么”的逻辑问题,如根据卧室或厨房的图像定位目标与制定抓取策略;小脑部分控制机器人本体的具体动作,如行走、开冰箱门、抓取鸡蛋等,需靠大量数据训练实现高精度控制,例如调整机械手的力度和手指分布。
这类模型的优势在于分工明确:上层负责空间逻辑与决策,下层执行精细动作,尤其在完成“最后一厘米”的操作时,能精准控制执行细节。
以特斯拉等公司的机械手为例,通常具备19至20个自由度,因搜索空间庞大,必须通过大量数据学习来优化动作路径。这种架构更适用于环境复杂、频繁变化、泛化要求高,且对操作精度极高的场景,如精细抓取。Figure 和特斯拉走的是这条路线。
虎嗅:刚刚说到美国,中国这两年也跑出了不错的人形机器人公司,比如宇树,中国的机器人技术水平和美国有差异吗?有一个观察,如果从两国具身智能公司所展示的Demo侧重点来看,似乎中国机器人公司习惯于先做硬件、再做模型,国外似乎是反过来。
殷鹏:我认为这与两国国情有关。中国大陆有很强的智能制造供应链,可以让我们将所有元器件以很低成本进行快速落地和迭代,在中国做灵巧手,可能只需要在1-2个月的时间,用有限的资源就做成,这在美国是根本不可能的事。但美国更擅长的是大脑模型的开发,其实双方可以形成良好的互补。美国擅长从0到1的突破,中国很擅长从1到100。
机器人数据可能是具身智能中最快完成商业闭环的
虎嗅:为何选择在这样一个时间点创立一家创业公司?虽然大模型涌现许多机会,但具身智能的商业化还有很长的路要走,遑论人形机器人的大规模商业化,而作为这些机器人厂商的上游-数据提供商,商业链条更长。
殷鹏:首先是时间点。当下是一个关键节点,全球都能看到大模型在空间理解、推理能力上的突破,这让通用机器人成为可能。从硬件层面看,也出现了实际落地的迹象,这与上一波主要聚焦特种机器人的机器人浪潮不同。
未来的发展周期到底是10年还是20年,难以下定论。但对我们这群做机器人的人来说,更看重的是它最终能否实现。就像老马说的,“能像人一样上工位干活”,这是我们真正想看到的。这也是我选择在这个时间点创业的核心原因。
如果一味等待,就无法真正感受到时代脉搏。我也希望能亲自下场,挖掘行业中的核心难题。很多问题只有真正进入行业、面对真实场景,才能体会到,线下纯思考往往显得太简单。
你刚才提到周期可能很长,确实如此,数据链路也很长,但对于机器人本体来说,数据反而可能是最快能形成商业闭环的。
没有大量真实数据,本体和大脑都难以进化。就像训练大语言模型需要庞大的语料,无人车需要日采数以百万计的车辆数据,机器人也是一样。如果不解决数据问题,就会长期被卡住。
模型只是引擎,数据才是石油。只有源源不断的数据供给,整个“车”才能真正跑起来。具身智能也是如此,若无法突破数据瓶颈,整个行业就会停滞。而构建数据闭环虽然最具挑战,却也是最直接、最快和风险最高的一环。
虎嗅:往往这类商业链条长,对技术要求高,并且是“石油”属性的事情,往往是大公司在做,例如英伟达、特斯拉、谷歌,或者就是例如斯坦福实验室这样的学术机构。初创公司来做这件事,一面是钱无法和大公司抗衡,一面是有商业化压力,如何竞争?
殷鹏:全世界所有机器人公司、做大脑的公司、做本体的公司,都是我们的友商。我们会给他们提供数据。目前我们已经给很多头部大型AI公司提供大批量机器人数据。起码未来5到10年,我们和这些头部机器人公司都是友好关系。
我知道这个赛道未来会很卷,人也会非常多,很多公司也会转去做数据,不过我认为这个并不影响事情本身。因为对于最深层的数据,很难通过一家或两家公司做成。
虎嗅:我理解,相当于是做一个具身智能界的Scale AI吗?
殷鹏:是的,都是数据供应商。但我们和ScaleAI不同的点是,Scale AI更加注重数据标注,大厂会直接给Scale AI提供数据。但我们在做数据标注之外,还需要做数据采集和验证的工作。
首先我们有训练模型的能力,会和大量大型客户建立大批量采集数据基地,做几百万小时的海量数据采集。拿到这些数据之后,我们还要做标注、清洗、模型初期验证,再把数据转给大厂,做更精细化的处理和训练。
虎嗅:我们现在主要有两部分数据,一部分是在真实场景中收集的数据,另一部分是仿真3D数据?
殷鹏:我们主要聚焦真实场景的数据。
一方面,我们有一个开源社区,设备供应商都可以参与数据采集,这是一个共享的平台。另一方面,我们在拿到数据后会先在内部进行训练和验证,确保可运行后才发布。目前我们收集的数据主要是上百万小时的真实数据,没有涉及合成或仿真数据。
这在业内其实算是比较“反常识”的选择。现在很多公司在做合成或仿真数据,我们当然认可不同类型数据各有价值,但从我们的角度来看,真实、丰富的数据最能提升模型训练效果。
虽然我们也有能力基于真实数据做大规模合成,比如一条生成十条,但这个技术门槛并不高,大厂也完全可以做。所以我们更专注在他们不方便做、或者不愿意做的事——也就是收集真实世界的数据。
至于仿真数据,虽然它在强化学习里的确是个不错的验证平台,但效果很难直接迁移到现实中。比如我们用几十张显卡训练一个抓取动作,在仿真里成功率可能有95%,但一旦部署到真实机器人上就可能掉到60%;像系鞋带这种更复杂的动作,成功率甚至可能降到45%。也就是说,仿真数据很难在真实环境中泛化。
因此我们最终决定专注于真实数据的构建,既来自人,也来自机器人自主采集。
虎嗅:真实场景数据的采集,很考验效率和采集效果,怎么保证质量和数量?
殷鹏:例如工厂的一条包装产线,有很多操作细节,如何抓取、如何吸收、如何剖析这些动作,可以创造非常丰富和高浓度的机器人数据。我们会让操作员穿戴设备,在真实生产流程中采集数据。一小时内,就能采集出约500到1000条高密度的数据,每条数据都包含具体动作、文字描述、图像抓取等信息。
相较之下,真人采集效果比遥控机器人要好很多。遥操作是用机器人实机在现场完成任务,但以现在机器人的能力来看,哪怕是简单操作,也可能执行得很复杂,效率低下,一小时只能采集几十条真正有价值的数据。
虎嗅:从数据收集的角度,需要找一个合作生态非常关键?你从什么时候开始做这件事,做了多久?
该文观点仅代表作者本人。发布者:深链财经,转转请注明出处:https://www.gaaao.com/14912.html