特斯拉、英伟达机器人背后的“卖水人”

特斯拉、英伟达机器人背后的“卖水人”

出品|虎嗅科技组

作者|陈伊凡

编辑|苗正卿

头图|AI生成

“具身智能,还处于乱世。”

这是与CyberOrigin(下称:赛源)创始人殷鹏见面时,他对我说的第一句话。赛源是特斯拉、英伟达等公司在人形机器人领域的合作商之一。而其所在的珠三角,是世界机器人供应链的核心,那是殷鹏真正的“战场”——全球任何一家机器人相关的公司,都必须到珠三角寻找硬件供应链,如今,还包括数据。在机器人圈,这些为特斯拉、英伟达人形机器人提供关键训练数据的公司,往往被视为巨头背后的“卖水人”。

和此前十余年“卖水人”多为生产制造环节相关公司不同,AI纪元下,数据类“卖水人”正在异军突起。一批诸如赛源,开始聚焦于提供机器人与真实物理交互的数据。以殷鹏的公司为例,它的客户名单中,包括英伟达、特斯拉、OpenAI的人形机器人;也包括谷歌和斯坦福李飞飞的机器人模型训练实验室,也是赛源能够与其他机器人数据公司拉开差距的地方。

但对于这些“卖水人”而言,2025年以来警报声不时响起。

近期,据媒体报道,特斯拉被曝暂停人形机器人的研发,调整设计。殷鹏在四月份已知道这个消息,暂停的主要原因,仍然在数据问题——特斯拉需要更多机器人数据以训练模型。这对于赛源这样的数据提供商而言,是个好消息,真实物理交互数据,而非本体,正在成为这场具身智能军备竞赛中的核心弹药——“机器人是引擎,数据是石油。没油,发动机运不了。” 殷鹏说,“我们需要成长为特斯拉最大的数据端供应商。”

当虎嗅于六月在上海见到殷鹏时,他穿了一身运动打扮,黑色迪桑特polo衫和运动鞋,倔强的刘海,时不时在说话间甩到前额,他再利落地把它撇开。见面时,他正经历一场短期出差,还带有一丝风尘仆仆,他需要在晚上飞回深圳,也是大量“卖水人”的基地所在。

作为赛源的CEO,殷鹏的另一个身份是香港城市大学助理教授,他曾师从SLAM和规划界传奇人物,JiZhang教授,他开创了实时 3D 激光雷达 SLAM 的先河,并将其商业化。这一技术,是机器人、自动驾驶车辆的“导航大脑”,如果没有它,扫地机器人、车辆自动驾驶将无法存在。而殷鹏在此后曾深度参与NASA(美国国家航空航天局)、DARPA(美国国防部高级研究计划局)和英伟达的课题,其第一篇国际顶刊文章,成为NASA火星降落的参考方案之一,殷鹏也是NASA火星登陆项目的高级顾问;在DARPA的地下机器人挑战赛上,殷鹏和团队开发出了首个超大规模多机协作定位建模系统,这个成果也发了第二篇国际顶刊论文。

特斯拉、英伟达机器人背后的“卖水人”
图为殷鹏在实验室 图片由殷鹏提供

在与虎嗅的交流中,殷鹏不断提及马斯克——特斯拉的创立者,他强调“第一性原理”的方法论,他读马斯克的自传,拆解这位硅谷“钢铁侠”的创业逻辑、商业故事,他称马斯克为“老马”,“第一性原理非常可怕,他能把一件在旁人看来不可能实现的事情变成可能。”殷鹏说。

2024年,殷鹏选择创立赛源。在创业之初,殷鹏请教过不少前辈,其中包括香港科技大学教授李泽湘与高秉强,前者建议充分利用大湾区的资源。后者则建议做海外市场,以及思考C端的生意。高秉强不仅是导师,也是殷鹏最早的天使投资人,这位在硬科技领域投资了不少上市企业的前辈告诉他,当下时点,找一个切口去创业,再层层迭代。

面对虎嗅,殷鹏分享了自己对具身智能的看法和创业的想法,从学者转化为企业CEO,殷鹏很坚决,因为学术已经很难满足他需要的资源,他需要到业界、到一线去获得更快更真实的数据反馈。这也是为什么他没有选择做CTO,而直接选择做CEO的原因。

“如果认准了身位,那就义无反顾。”殷鹏说。

机器人的ChatGPT时刻

虎嗅:很明显的行业趋势是,ChatGPT出现之后,出现了Emboied AI的概念,随即特斯拉、英伟达、亚马逊等大公司开始发布其各自的通用人形机器人计划。这个飞跃在过去机器人历史中极为少见。Transformer架构究竟做了什么,让这个行业出现这样质的飞跃?

殷鹏:Transformer架构最大的提升在于发明了一种可以Scaling Law的模式。过去我们强调强化学习的效果能达到多少,训练数据集和测试数据集相差不大,因为场景很多,一定无法涵盖所有场景,那么模型要不断重新训练。但这种基于监督学习的方式,在未知领域发展很慢。Transformer架构可以输入足够多的数据,在足够多的数据下再进行微调和提升。

这个策略架构最早是谷歌提出来,但真正用起来的是特斯拉的那群人,将Transformer架构运用在自动驾驶上。因为研究人员发现,Transformer的核心是当数据量到一定数量级时,会出现涌现。这让具身智能在空间理解方面有了很大进步。

首先,它实现了空间理解能力的质变:传统强化学习在有限场景中只能进行局部探索,而借助Transformer的自注意力机制,机器人能够对整个三维空间进行全局感知,并通过同时处理视觉、语言与动作等多模态信息,形成统一的空间认知模型;其次,它在泛化能力上取得了突破,传统方法在训练集和测试集场景相似时表现尚可,但一旦场景变化就需重新训练,而Transformer模型通过大规模数据训练后,能够在未见过的场景中自主推理与适应;第三,这一架构推动了从规则驱动到数据驱动的范式转变,彻底告别了基于IF-ELSE的人工规则系统,实现了从感知到动作的端到端学习,极大地减少了中间环节的信息损失。

此外,Transformer擅长时序建模,其注意力机制让机器人不仅理解动作间的先后关系,还能进行复杂动作序列的长期规划;更重要的是,它支持多任务学习:在世界模型中,视觉、语言与操作被整合于同一模型;在分层架构中,上层负责高层推理与决策,下层则承担精确执行,两者兼顾;在数据效率方面,尽管依然需要大量数据,但与传统方法相比,Transformer能用更少的任务特定示教数据完成复杂任务,并将学到的知识迁移到相关任务;同时,其在线学习能力使机器人在执行过程中不断学习与调整,并对光照、物体位置等环境变化具有更高的鲁棒性;最后,它实现了语言理解与执行的统一,不仅能理解复杂的自然语言指令,还能结合视觉信息进行多模态推理并转化为具体动作。

这种从“专用AI”向“通用AI”的转变,让机器人从只能执行预设任务的工具,进化为具备环境理解、技能学习与新场景适应能力的智能体,这一技术进展正是“通用机器人成为可能”的根本驱动力,也是当前人形机器人热潮的核心所在。

虎嗅:你刚才说最早将Transformer发扬光大的是特斯拉的无人车,让大家看到一个重要的实现路径,可以展开说说吗?

殷鹏:特斯拉无人车将Transformer”发扬光大”的关键在于他们率先将Transformer架构应用于自动驾驶的视觉感知系统,实现了从多个摄像头输入到驾驶决策输出的端到端学习。

这打破了传统自动驾驶依赖激光雷达和复杂传感器融合的技术路线,证明了纯视觉方案的可行性。特斯拉拥有全球最大的自动驾驶数据收集网络,每天有数百万辆车在路上收集数据,他们率先验证了Transformer架构在大规模真实世界数据下的”涌现”效应,当数据量达到一定规模时,模型性能会出现质的飞跃。

特斯拉的Transformer模型能够同时处理8个摄像头的实时画面、车辆运动轨迹和历史状态、以及3D环境理解和路径规划,这种统一的多模态处理能力为后来的具身智能提供了重要借鉴。

更重要的是,特斯拉证明了Transformer不仅能做感知理解环境,还能做决策规划路径和控制车辆,实现了完整的感知-决策-执行闭环,这为机器人的”大脑”设计提供了重要范式。通过车辆在真实道路上的行驶数据,特斯拉实现了大规模的自监督学习,让模型能够从未标注的数据中学习驾驶技能,这种方法后来被广泛应用于机器人的动作学习中。

另外,还将其工程化,实现了在车载硬件上的实时推理,这为具身智能的实际部署提供了重要经验。

所以特斯拉的成功让整个AI界看到了一条重要路径:通过大规模真实世界数据训练Transformer模型,可以实现从感知到行动的端到端智能。这直接启发了谷歌的机器人项目开始大规模收集机器人操作数据,OpenAI将类似架构应用于机器人控制,各大科技公司开始重视具身智能的数据收集。

所以,特斯拉实际上开创了”用数据驱动的AI来解决物理世界交互问题”的先河,这正是当前具身智能热潮的技术根源。他们证明了Transformer不仅能处理语言,更能处理复杂的时空序列数据,为机器人的”ChatGPT时刻”奠定了基础。

虎嗅:目前全球机器人模型主要来自几家实验室,包括谷歌和斯坦福李飞飞实验室,这些不同的模型技术路线有什么不同以及优劣之分?

殷鹏:目前,模型体系大致分为两类,很难简单评判优劣。第一类是“世界模型”,将视觉、语言与操作等多种能力整合进一个统一模型中进行训练。例如,李飞飞实验室的世界模型、Pi的 OpenVLA 和谷歌的 PaLM。这类模型的优点是收敛速度快,适用于在厨房、浴室、卧室等特定场景中采集数据并优化机器人性能。但其缺陷在于泛化能力弱。一旦超出训练场景(如机器人从一个房间移动到另一个),就需重新采集数十小时的数据进行训练,否则性能会大幅下降。例如 SLAM(同步定位与地图构建)对光照和场景元素极为敏感,细微变化就可能导致如抓取等操作失败。因此,该类模型更适合简单场景的演示,难以应对如工厂等复杂、动态环境。

第二类是分层混合架构模型,代表如 Figure.AI。该模型结构类似于人脑与小脑的分工:大脑部分负责文本和视觉推理,解决“去哪里”“拿什么”的逻辑问题,如根据卧室或厨房的图像定位目标与制定抓取策略;小脑部分控制机器人本体的具体动作,如行走、开冰箱门、抓取鸡蛋等,需靠大量数据训练实现高精度控制,例如调整机械手的力度和手指分布。

这类模型的优势在于分工明确:上层负责空间逻辑与决策,下层执行精细动作,尤其在完成“最后一厘米”的操作时,能精准控制执行细节。

以特斯拉等公司的机械手为例,通常具备19至20个自由度,因搜索空间庞大,必须通过大量数据学习来优化动作路径。这种架构更适用于环境复杂、频繁变化、泛化要求高,且对操作精度极高的场景,如精细抓取。Figure 和特斯拉走的是这条路线。

虎嗅:刚刚说到美国,中国这两年也跑出了不错的人形机器人公司,比如宇树,中国的机器人技术水平和美国有差异吗?有一个观察,如果从两国具身智能公司所展示的Demo侧重点来看,似乎中国机器人公司习惯于先做硬件、再做模型,国外似乎是反过来。

殷鹏:我认为这与两国国情有关。中国大陆有很强的智能制造供应链,可以让我们将所有元器件以很低成本进行快速落地和迭代,在中国做灵巧手,可能只需要在1-2个月的时间,用有限的资源就做成,这在美国是根本不可能的事。但美国更擅长的是大脑模型的开发,其实双方可以形成良好的互补。美国擅长从0到1的突破,中国很擅长从1到100。

机器人数据可能是具身智能中最快完成商业闭环的

虎嗅:为何选择在这样一个时间点创立一家创业公司?虽然大模型涌现许多机会,但具身智能的商业化还有很长的路要走,遑论人形机器人的大规模商业化,而作为这些机器人厂商的上游-数据提供商,商业链条更长。

殷鹏:首先是时间点。当下是一个关键节点,全球都能看到大模型在空间理解、推理能力上的突破,这让通用机器人成为可能。从硬件层面看,也出现了实际落地的迹象,这与上一波主要聚焦特种机器人的机器人浪潮不同。

未来的发展周期到底是10年还是20年,难以下定论。但对我们这群做机器人的人来说,更看重的是它最终能否实现。就像老马说的,“能像人一样上工位干活”,这是我们真正想看到的。这也是我选择在这个时间点创业的核心原因。

如果一味等待,就无法真正感受到时代脉搏。我也希望能亲自下场,挖掘行业中的核心难题。很多问题只有真正进入行业、面对真实场景,才能体会到,线下纯思考往往显得太简单。

你刚才提到周期可能很长,确实如此,数据链路也很长,但对于机器人本体来说,数据反而可能是最快能形成商业闭环的。

没有大量真实数据,本体和大脑都难以进化。就像训练大语言模型需要庞大的语料,无人车需要日采数以百万计的车辆数据,机器人也是一样。如果不解决数据问题,就会长期被卡住。

模型只是引擎,数据才是石油。只有源源不断的数据供给,整个“车”才能真正跑起来。具身智能也是如此,若无法突破数据瓶颈,整个行业就会停滞。而构建数据闭环虽然最具挑战,却也是最直接、最快和风险最高的一环。

虎嗅:往往这类商业链条长,对技术要求高,并且是“石油”属性的事情,往往是大公司在做,例如英伟达、特斯拉、谷歌,或者就是例如斯坦福实验室这样的学术机构。初创公司来做这件事,一面是钱无法和大公司抗衡,一面是有商业化压力,如何竞争?

殷鹏:全世界所有机器人公司、做大脑的公司、做本体的公司,都是我们的友商。我们会给他们提供数据。目前我们已经给很多头部大型AI公司提供大批量机器人数据。起码未来5到10年,我们和这些头部机器人公司都是友好关系。

我知道这个赛道未来会很卷,人也会非常多,很多公司也会转去做数据,不过我认为这个并不影响事情本身。因为对于最深层的数据,很难通过一家或两家公司做成。

虎嗅:我理解,相当于是做一个具身智能界的Scale AI吗?

殷鹏:是的,都是数据供应商。但我们和ScaleAI不同的点是,Scale AI更加注重数据标注,大厂会直接给Scale AI提供数据。但我们在做数据标注之外,还需要做数据采集和验证的工作。

首先我们有训练模型的能力,会和大量大型客户建立大批量采集数据基地,做几百万小时的海量数据采集。拿到这些数据之后,我们还要做标注、清洗、模型初期验证,再把数据转给大厂,做更精细化的处理和训练。

虎嗅:我们现在主要有两部分数据,一部分是在真实场景中收集的数据,另一部分是仿真3D数据?

殷鹏:我们主要聚焦真实场景的数据。

一方面,我们有一个开源社区,设备供应商都可以参与数据采集,这是一个共享的平台。另一方面,我们在拿到数据后会先在内部进行训练和验证,确保可运行后才发布。目前我们收集的数据主要是上百万小时的真实数据,没有涉及合成或仿真数据。

这在业内其实算是比较“反常识”的选择。现在很多公司在做合成或仿真数据,我们当然认可不同类型数据各有价值,但从我们的角度来看,真实、丰富的数据最能提升模型训练效果。

虽然我们也有能力基于真实数据做大规模合成,比如一条生成十条,但这个技术门槛并不高,大厂也完全可以做。所以我们更专注在他们不方便做、或者不愿意做的事——也就是收集真实世界的数据。

至于仿真数据,虽然它在强化学习里的确是个不错的验证平台,但效果很难直接迁移到现实中。比如我们用几十张显卡训练一个抓取动作,在仿真里成功率可能有95%,但一旦部署到真实机器人上就可能掉到60%;像系鞋带这种更复杂的动作,成功率甚至可能降到45%。也就是说,仿真数据很难在真实环境中泛化。

因此我们最终决定专注于真实数据的构建,既来自人,也来自机器人自主采集。

虎嗅:真实场景数据的采集,很考验效率和采集效果,怎么保证质量和数量?

殷鹏:例如工厂的一条包装产线,有很多操作细节,如何抓取、如何吸收、如何剖析这些动作,可以创造非常丰富和高浓度的机器人数据。我们会让操作员穿戴设备,在真实生产流程中采集数据。一小时内,就能采集出约500到1000条高密度的数据,每条数据都包含具体动作、文字描述、图像抓取等信息。

相较之下,真人采集效果比遥控机器人要好很多。遥操作是用机器人实机在现场完成任务,但以现在机器人的能力来看,哪怕是简单操作,也可能执行得很复杂,效率低下,一小时只能采集几十条真正有价值的数据。

虎嗅:从数据收集的角度,需要找一个合作生态非常关键?你从什么时候开始做这件事,做了多久?

该文观点仅代表作者本人。发布者:深链财经,转转请注明出处:https://www.gaaao.com/14912.html

(0)
深链财经的头像深链财经
上一篇 2025年7月7日 上午10:03
下一篇 2025年7月7日 上午10:05

相关推荐

  • 大象新闻探营《乘风2025》,张小婉受访感慨“我回家啦”

    大象新闻记者 赵朝阳 张煜 4月2日,正在云南玉溪参加《乘风2025》录制的河南籍艺人张小婉,接受了大象新闻的专访,当看到大象新闻的标志时,张小婉一边小跑一边激动的说,“哎哟,大象新闻,(我)回家了,如果让我家人知道大象新闻来采访我了,我妈得多开心啊。” “真的是出息了!”张小婉坦言,因为从小就关注河南广播电视台,“一直看河南卫视,如果家乡新闻里面能有我的报…

    2025年4月6日
    10100
  • 美国务卿:俄方将在数天内提出俄乌停火大纲

    △5月20日,鲁比奥在参议院外交关系委员会听证会上作证 美国国务卿马尔科·鲁比奥20日说,他预计俄罗斯将在数天内提出与乌克兰停火的大纲,以便华盛顿评估莫斯科是否对实现和平持认真态度。 鲁比奥:俄方将提供宽泛条款 据悉,鲁比奥当天在参议院听证会上说:“很快,也许在几天后,也许在本周,俄罗斯方面将提出他们希望看到的条款。” 鲁比奥说,这一时间表来自美国总统特朗普…

    2025年5月21日
    5300
  • 濮阳市人民检察院:擎法治文明之炬 谱检察为民新篇

    大象新闻记者 张松涛 通讯员 王保安 牛小龙 “我们是代表社区20多户独居老人来的⋯⋯”在濮阳市人民检察院办公楼前,三位白发苍苍的老人颤巍巍地握着院领导的手,布满皱纹的脸上洋溢着感激的笑容。王奶奶一边从布兜里小心翼翼地取出锦旗,一边动情地说:“这些孩子啊,经常来看望我们!”红缎金字的锦旗在阳光下闪闪发亮,“爱心敬老献真情 无私奉献传美德”几个大字格外醒目。 …

    2025年6月19日
    2400
  • 来伊份下架相关批次蜜枣粽产品,承诺及时公布调查结果

    食品安全问题一直是公众关注的焦点,尤其是涉及儿童的产品,更牵动着无数家长的心。近日,来伊份蜜枣粽被曝出“吃出带血创可贴”的事件,迅速引发了广泛讨论。这一事件不仅考验着企业的危机应对能力,也再次提醒社会各界对食品生产全流程安全的重视。 事情起因是一位宝妈通过网络发布的一段视频。她表示,在喂宝宝食用从线下门店购买的来伊份蜜枣粽时,孩子突然称嘴里有异物。经检查后发…

    2025年5月12日
    6000
  • 暴雨!大风!沙尘暴!返程天气必看→

    “五一”假期最后两天(5月4日至5日),南方仍有较强降雨,江南、华南等地局部有暴雨或大暴雨,北方地区有大风沙尘。同时,在冷空气影响下,多地气温有所下降。 三预警齐发! 局部有暴雨或大暴雨 今天(5月4日)早晨6时,中央气象台继续发布暴雨蓝色预警、大风蓝色预警、沙尘暴蓝色预警。 暴雨蓝色预警 预计4日8时至5日8时,贵州东南部、湖南中南部、江西东部和中南部、安…

    2025年5月4日
    8000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信