机器人“大脑”60年进化史]:基础模型的五代进化与三大闭源流派

  更新时间:2026-01-15 12:37   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

York Yang Dyna RoboticsYork Yang Dyna RoboticsYork Yang Dyna Robotics

<p id="489K547I">撰稿 :Vicky</p> <p id="489K547J">编辑:陈茜</p> <p id="489K547K">2025年,机器人公?司发)布的Demo都有点魔幻:</p> <p id="489K547L">首先是Figure AI,在10月发布了第三代机器人,能做各种家务,Demo也很酷炫,但任务的成功率存在很多质疑,而且脸的设计,恐怖谷现象有点严重。</p> <p id="489K547M">10月底发布demo的另一家明星公司1X,整个脸部设计就可爱了非常多,感觉是更愿意让大家搬到家里的。但是叫做Neo的这款机器人依赖远程操控,被批评是“假智能”,而且有各种隐私问题。</p> <p class="f_center"><br></p> <p id="489K547O">同时,特斯拉的机器人虽然也发布了各种Demo的更新,包括在12月发布的非常顺滑的跑步Demo,但明显量产计划在2025年遇到了极大的挑战,让公司不得不暂停生产,重新设计硬件。</p> <p id="489K547P">我们的机器人系列已经聊了灵巧手,以及2025年具身智能行业年度盘点,本篇文章就来深聊一下这个产业的一个核心技术:机器人基础模型。我们试图回答这样一个问题:为什么2025年突然变成了机器人基础模型的“元年”?</p> <p class="f_center"><br></p> <p id="489K547R">我们也走访了硅谷的前沿机器人公司和实验室,而基础模型篇会分为“闭源”和“开源”两篇,系统拆解当下主流机器人的“大脑”是如何被训练出来、如何接入真实世界、以及不同路线背后的技术与商业逻辑。带你看清,大模型时代的机器人,大脑究竟是怎么长成的。本篇文章我们先来聊一聊目前资本市场的宠儿——闭源系统。</p> <p id="489K547S"><strong>01</strong></p> <p><strong><strong>机器人基础模型</strong></strong><strong><strong>从60年代到2025年的范式革命</strong></strong></p> <p id="489K5481">如果要用一句话解释机器人基础模型,最简单的类比是:<strong>如果说GPT是“会说话的大脑”,那机器人基础模型就是“会动手的大脑”。</strong></p> <p id="489K5482">但这个“会动手的大脑”,人类研究了整整60年才做出来。我们先来回顾一下,大模型出现以前的四大机器人范式。</p> <p id="489K5483"><strong>Chapter 1.1 第一代:编程式机器人(1960s-1990s)</strong></p> <p id="489K5484">1961年,世界上第一台工业机器人Unimate在通用汽车的工厂里“上班”了。它的工作很简单:从生产线上抓起滚烫的金属零件,放到另一条生产线上。</p> <p class="f_center"><br></p> <p id="489K5486">从现在的眼光看,它蛮“傻”的,因为完全靠编程,工程师用代码告诉它:</p> <p id="489K5487">步骤1:手臂向左移动30厘米</p> <p id="489K5488">步骤2:手爪闭合</p> <p id="489K5489">步骤3:手臂向上移动50厘米</p> <p id="489K548A">步骤4:手臂向右旋转90度</p> <p id="489K548B">步骤5:手爪松开</p> <p class="f_center"><br></p> <p id="489K548D">听起来很傻对吧?但在当时,这已经是革命性的突破了。这种方式的问题很明显:<strong>零容错、零灵活性。</strong></p> <p id="489K548E">如果零件的位置偏了1厘米,机器人就抓不到,如果换一个不同尺寸的零件,就得重新写代码。更别说应对意外情况——比如零件掉在地上,机器人就彻底不知道该干什么了。</p> <p id="489K548F">但在工厂这种高度可控的环境里,这套方法管用了几十年。直到今天,很多汽车工厂的焊接机器人,还在用这套“编程式”的逻辑。</p> <p id="489K548G"><strong>Chapter 1.2 第二代:基于SLAM的方法(1990s-2010s)</strong></p> <p id="489K548H">到了90年代,机器人学家们意识到:光靠编程不行,机器人得能“感知”环境。于是出现了SLAM(同时定位与地图构建)、运动规划这些技术。</p> <p id="489K548I">这里的核心思路是:<strong>先用传感器“看”周围环境,建立一个3D地图,然后在地图上规划路径,最后执行动作。</strong>这个方式最成功的应用就是扫地机器人。</p> <p class="f_center"><br></p> <p id="489K548K">风靡一时的Roomba就是这么工作的:它用激光雷达扫描房间,建立地图;然后规划一条覆盖所有区域的路径;再按照路径移动,遇到障碍物就绕开。</p> <p id="489K548L">这套方法在“导航”任务上很成功:早期的无人车、无人机、物流机器人,基本都是这个套路。但在“操作”任务上就不行了,因为操作任务太复杂了,比如让机器人叠一条毛巾,传统方法是四步:</p> <p id="489K548M">1.用视觉识别毛巾的四个角</p> <p id="489K548N">2.计算每个角的3D坐标</p> <p id="489K548O">3.规划手臂的运动轨迹</p> <p id="489K548P">4.执行抓取、折叠、放下</p> <p id="489K548Q">听起来挺合理,但实际操作中到处是坑:毛巾可能皱成一团,根本识别不出“四个角”;毛巾是柔性的,你一抓它就变形,3D坐标立刻失效;每一步都可能出错,一出错整个流程就崩了。</p> <p class="f_center"><br></p> <p id="489K548S">2010年,加州伯克利的一个研究团队做过一个实验:让机器人叠毛巾,用的就是这套“感知→规划→执行”的方法。结果平均一条毛巾要花24分钟。</p> <p id="489K548T">而叠毛巾在如今AI时代来临之后,也同样是非常核心的,需要基础模型去驱动机器人攻破的任务。</p> <p id="489K548U"><strong>Chapter 1.3 第三代:行为克隆(2010s中期)</strong></p> <p id="489K548V">既然手工设计规则不行,那能不能让机器人直接“学”人类怎么做?这就是行为克隆(Behavior Cloning)的思路,也叫模仿学习(Imitation Learning)。</p> <p id="489K5490">同样以叠毛巾为例,机器人模仿学习会这么做:让人类演示很多次怎么叠毛巾;记录下每一帧的视觉输入和动作输出;训练一个神经网络,学习输入→输出的映射;机器人看到毛巾,直接输出该做什么动作。</p> <p class="f_center"><br></p> <p id="489K5492">2015年,Google Brain的一个团队用这个方法,让机器人学会了抓取各种物体。他们收集了数十万次抓取的数据,训练了一个神经网络,推动了“视觉-动作”学习在机器人抓取任务上的进展。</p> <p id="489K5493">这可以说是个巨大的进步!第一次,机器人不需要手工编写规则,可以通过数据学习了。</p> <p id="489K5494">但这个方法有个致命缺陷:<strong>数据效率太低</strong>。它需要数十万次抓取数据来训练,而且这只是“抓取”这一个动作。如果要学“叠毛巾”,可能100万次演示都不够了。</p> <p id="489K5495">更要命的是,这个方法的<strong>泛化性很差</strong>。你用A型号机器人收集的数据,训练出来的模型,在B型号机器人上基本不能用。</p> <p id="489K5496"><strong>Chapter 1.4 第四代:强化学习(2010s后期)</strong></p> <p id="489K5497">2016年,AlphaGo战胜李世石,证明了强化学习的威力。机器人科学家们想:能不能让机器人也用强化学习,自己摸索出怎么完成任务?</p> <p id="489K5498"><strong>强化学习的核心思路是:不需要人类演示,让机器人自己尝试,做对了给奖励,做错了给惩罚,机器人慢慢学会怎么做能获得最多奖励。</strong></p> <p id="489K5499">当时,波士顿动力的机器人就开始将强化学习引入移动控制系统,让它们能在各种复杂地形上行走、跳跃、后空翻。</p> <p class="f_center"><br></p> <p id="489K549B">但<strong>强化学习也有个大问题:太慢了</strong>。AlphaGo为了学会下围棋,在仿真环境里自己和自己下了几千万局,但机器人操作任务,很难在仿真环境里练,因为环境复杂度太高,非常难设置,和真实物理世界差别较大,导致仿真不准。</p> <p id="489K549C">但真机试错呢?太慢、太贵、太危险。想象一下,让机器人学叠毛巾,它可能要试几百万次,其中大部分时候会出现的情况是:抓空、把毛巾扔到地上、把毛巾撕破、手臂卡住等等。这样学下去,要到猴年马月?</p> <p id="489K549D">而且强化学习有个更根本的问题:<strong>它不知道“常识”</strong>。人类知道,毛巾是软的、可以折叠的、有一定的摩擦力。但强化学习的机器人,需要通过无数次试错才能“发现”这些常识,效率太低。</p> <p id="489K549E"><strong>Chapter 1.5 第五代:VLA模型(2020s中期-现在)</strong></p> <p id="489K549F">大语言模型的出现,改变了一切。2022年,ChatGPT横空出世,人们发现:大语言模型里蕴含了人类世界的大量“常识”:它知道毛巾是什么、叠是什么意思、先做什么后做什么。它有推理能力、规划能力、泛化能力。</p> <p id="489K549G">行业里的第一反应就是,能不能把大语言模型和机器人结合起来?于是,VLA(Vision-Language-Action)模型诞生了。<strong>VLA模型的革命性在于,它把三个东西统一到一个神经网络里</strong>:</p> <p id="489K549H">Vision(视觉):看到当前的场景;Language(语言):理解任务目标和常识;Action(动作):输出具体的控制指令。</p> <p id="489K549I">举个例子,你对机器人说:“帮我把桌上的苹果放到篮子里。”传统方法需要四步:</p> <p id="489K549J">1.视觉识别“苹果”和“篮子”</p> <p id="489K549K">2.规划“抓取苹果”的轨迹</p> <p id="489K549L">3.规划“移动到篮子”的轨迹</p> <p id="489K549M">4.规划“放下”的动作</p> <p id="489K549N">VLA模型呢?一个端到端的神经网络,<strong>直接从“语言指令+视觉输入”,输出“下一步该做什么动作”。</strong></p> <p class="f_center"><br></p> <p id="489K549P">更神奇的是,它会“常识推理”。比如你说“帮我准备早餐”,面对着家庭环境,它知道:要从冰箱拿出鸡蛋;鸡蛋要小心拿,不能摔碎;面包要放进烤面包机。</p> <p id="489K549Q">这些常识,不需要你一条条编程,也不需要它自己试错几百万次去“发现”。 因为大语言模型里已经有了。</p> <p class="f_center"><br></p> <p></p> <blockquote id="489K54EB">York Yang Dyna Robotics联合创始人: 我们在架构层面用的VLA,VLA简单来说就是我们拿了大模型领域VLM作为所谓的backbone(核心),但是我们会在最终输出结果的时候,把这个结果转化成在机器人领域可用的action(动作)。action(动作)直观理解就是,比如说我要把这个手臂移动到某一个坐标点的这些命令。 VLA其实大家诟病最多的是:为什么我们需要L(Language、语言)?因为在过去传统的机器人算法里面很多都是纯基于视觉。但是你仔细去想,其实你大脑其实会产生类似于语言的东西,去告诉你在一个长线任务中,到底你第一步做什么,第二步做什么。</blockquote> <blockquote id="489K54EC">L的作用就在于对于一些非常复杂的任务的时候,它是可以通过在大语言上面已经训练出来很多逻辑性的东西,比如说你要喝水,它就会知道你需要找杯子或者找瓶子。这个是通过大语言模型已经直接可以给你的一些东西。利用VLA的主要目的,其实就是如何把Language(语言)跟Vision(视觉)能够更好地结合起来,否则你如果只有Vision(视觉),你能做的任务可能就都是短线的,你做不了任何长线的、需要去做推理的一些任务,所以这是我们为什么非常专注地引入语言这部分的主要原因。</blockquote> <p id="489K549S">那为什么2025年成了“具身机器人基础模型元年”呢?因为三个关键因素在这一年同时成熟了。</p> <p id="489K549T"><strong>第一个因素:大语言模型“够用了”。</strong></p> <p id="489K549U">2024年到2025年,OpenAI、Anthropic、Google这些公司陆续发布新模型,大语言模型已经“成熟”了,至少对于机器人需要的那部分能力,理解指令、规划任务、常识推理,已经足够好了。</p> <p class="f_center"><br></p> <p></p> <blockquote id="489K54ED">York Yang Dyna Robotics联合创始人: 第一是大模型本身已经趋近于成熟,你们可以看到最近不管是OpenAI还是其他的公司,发布的模型已经是增量式的增长,它不是像从3.5到4的时候的这种跨越式的增长,所以我们觉得大模型的能力已经趋于稳定,而且已经足够可以为具身智能提供一个很好的基础,所以这是从模型层面的一个最重要的因素。</blockquote> <p id="489K54A0"><strong>第二个因素:算力价格腰斩再腰斩。</strong></p> <p id="489K54A1">2023年,租一张NVIDIA H100 GPU是天价,还得排队才能拿到货,而随着GPU云服务商价格战打响,和NVIDIA的GPU大量铺货,初创公司都租得起几千张卡来训练模型了。</p> <p class="f_center"><br></p> <p></p> <blockquote id="489K54EE">York Yang Dyna Robotics联合创始人: 第二个因素是整体的算力强度肯定是越来越强,每一年英伟达等芯片公司都会做更强的芯片,等效的算力价格其实也在降低,隔几年可能等效的价格就变成了过去的一半,所以计算的增强对于整个具身智能也有很大的推进影响。</blockquote> <p id="489K54A3"><strong>第三个因素:硬件供应链成熟。</strong></p> <p id="489K54A4">这个变化很多人没注意到。2024年,随着人形机器人热潮,大量资本涌入上游零部件厂商,特别是中国的供应商们,电机、减速器、传感器这些东西,原本都是小众产品,但2024年开始,好几家供应商都拿到了大额融资,开始扩产,硬件便宜了,做机器人的门槛就降低了。</p> <p class="f_center"><br></p> <p></p> <blockquote id="489K54EF">York Yang Dyna Robotics联合创始人: 第三是整个机器人硬件的各种零部件的成熟度是比较高的,特别是从去年开始火热起来的这一波人形机器人的助推让大家花了很多的精力跟资本去投入到很多基础部件,包括电机、减速器这些部件的研发,这一块的成熟度和成本都有提升和降低,所以我们觉得这个时机会比较成熟一些。</blockquote> <p id="489K54A6">这三个关键元素,让2025年成为了一个特殊的时间窗口,基于VLA的新一代范式的机器人跑出来了。</p> <p class="f_center"><br></p> <p id="489K54A8">2025年是人形机器人大年,第一台机器人管家终于登场了,人形机器人将有望成为史上最庞大的产业之一,这将是一个5万亿的市场,全世界将遍布十亿台机器人。</p> <p id="489K54A9">但VLA模型也不是完美的,而它的<strong>核心挑战是数据</strong>。大语言模型可以用互联网上的文本训练,但机器人需要的是“真机数据”——必须有机器人本体的传感器数据。而这种数据,互联网上根本没有。</p> <p id="489K54AA">YouTube上有无数人类叠衣服的视频,但没有一个视频告诉你,叠衣服的时候手指关节的角度是多少、施加的力量是多少,这就是为什么,这场“军备竞赛”的核心,除了算法,还有数据。谁能用最低的成本,采集到最高质量的数据,谁就能主导这个市场。</p> <p id="489K54AB">所以,机器人基础模型不是凭空冒出来的,它是60年技术积累的集大成者,它继承了:编程式机器人的“精确控制”;基于模型方法的“环境感知”;行为克隆的“示范学习”;强化学习的“自我优化”;再加上了大语言模型的“常识推理”,这才是真正的“基础模型”。</p> <p id="489K54AC">可能你想知道,现在搭载了VLA模型的机器人,都到什么程度了?我们这次也走访了Dyna Robotics。</p> <p class="f_center"><br></p> <p id="489K54AE">这家在硅谷炙手可热的机器人明星公司的三位华人创始人中,Lindon Gao和York Yang是连续创业者,之前创立的AI购物车公司Caper AI以3.5亿美元的价格,被Instacart收购;Jason Ma则是前DeepMind研究科学家,专攻机器人基础模型。</p> <p id="489K54AF">这家公司成立才一年,已经完成两轮融资:2025年3月种子轮2350万美元,同年的9月A轮1.2亿美元,估值超过6亿美元。投资方名单堪称豪华:英伟达、亚马逊、三星、LG。而让他们最先火出圈的,并不是多么华丽的任务或者demo,而就是非常朴实的“叠毛巾”和“叠衣服”。</p> <p class="f_center"><br></p> <p id="489K54AH">我们也和机器人以及和York比拼了一下手速,虽然在叠衣服这件事情上,我俩都比机器人快,但说实话我觉得我俩真不一定有Dyna的机器人叠得好。并且,关键点在于:机器人虽然目前还比较慢,但它可以7*24运作,还不用休息,只要经济账算得过来,落地就是可行的。</p> <p class="f_center"><br></p> <p></p> <blockquote id="489K54EG">York Yang Dyna Robotics联合创始人: 因为正常人工的很多场景,你1个人就是8个小时,而机器可以让它跑15个小时或者24个小时,可以弥补掉效率的一定的损失。 第二是叠毛巾本身确实是一个不错的商业落地场景,因为它相对比较单一,也是比较固定的一个任务。但是在像美国这样高人工成本的国家,确实要花掉很多的资金在这件事情上面,所以我们聊的这些商家客户都非常有意愿去使用机器人来做这件事情。</blockquote> <p id="489K54AJ"><strong><strong>02</strong></strong></p> <p><strong><strong>闭源模型机器人主要流派</strong></strong></p> <p id="489K54AO">看完Dyna的机器人,我们再来看看,2025年的机器人赛道,还有哪些玩家:</p> <p id="489K54AP">我们可以把他们分成三个流派来看,表面上看,他们争的是技术路线、市场份额、融资估值,但本质上,他们争的是同一个问题:<strong><strong>什么才是实现“通用机器人”的正确路径?</strong></strong></p> <p id="489K54AQ"><strong>Chapter 2.1 流派一:全栈整合派</strong></p> <p id="489K54AR">这一派的代表公司是特斯拉Optimus和Figure AI。核心信念是:<strong><strong>机器人基础模型不能和硬件分离,必须垂直整合、深度耦合,才能发挥最大效果。</strong></strong></p> <p id="489K54AS">作为这个流派最激进的代表,特斯拉的CEO马斯克曾经说过一句很狂的话:“特斯拉八成的价值将来自于Optimus机器人。“</p> <p class="f_center"><br></p> <p id="489K54AU">马斯克的自信来自特斯拉FSD(完全自动驾驶)十年的积累,特斯拉Optimus前工程主管Milan Kovac曾经说,“我们只是从轮子上的机器人变成长着腿的机器人”。</p> <p id="489K54AV">特斯拉有数百万辆车收集的真实世界数据、端到端的神经网络架构、规模庞大的标注团队,所以他这个逻辑听起来无懈可击:既然FSD能让汽车在复杂路况中自主驾驶,那同样的架构,为什么不能让机器人在复杂环境中自主操作?都是感知、决策、执行的闭环,都是端到端的神经网络,只是输出从“方向盘角度”变成了“关节角度”而已。</p> <p id="489K54B0">但2025年的现实并没有这么美好。年初,马斯克在内部会议上信誓旦旦地说:2025年要生产5000台Optimus,其中1000台会部署在特斯拉自己的工厂。但是到年中,实际上组装了1000多台后,特斯拉Optimus人形机器人的生产计划就已经暂停,面临重新设计。</p> <p class="f_center"><br></p> <p id="489K54B2">而Optimus最近还面临一个更大的风波,就是它在特斯拉活动现场分发瓶装水时,突然做出了好像要把头上某个不存在的东西拽下来的动作,然后摔了一跤。 这个动作实在是太像人类操作员摘下头戴式设备的动作,于是这段视频马上爆火,不少人马上提出来质疑:Optimus,是不是有操作员在远程操控?</p> <p class="f_center"><br></p> <p id="489K54B4">Optimus的发展看起来不像马斯克号称的那么顺利,问题出在哪?</p> <p></p> <blockquote id="489K54EH">York Yang Dyna Robotics联合创始人: 他们本身是最早在人形机器人领域做出本体,有过一定的demo演示的公司。他们现在主要利用的是人类视频做迁移,它的优势毋庸置疑,人类视频其实是最容易采的,因为你不需要任何的外设备,你采集的也是人手去操作的场景,可扩展上来说,特斯拉这个模式是最高的。 但是它的几个主要的问题在于,第一,人类的手和机器人的手,如果你想让它这个能力迁移得很好,需要做得非常接近。这也是为什么现在有好多人在做很灵巧的灵巧手,非常接近人的自由度,这件事本身是一件非常困难的事情。</blockquote> <blockquote id="489K54EI">第二,但你再接近,它也不是完全一样。所以在机器人的数据和人的数据中间还是会有一个鸿沟,就我们所谓的embodiment gap(物理差异),这个embodiment gap在当前学术界也好、工业界也好,大家都公认是一个比较难解决的问题。所以这样的数据迁移的效率会比较低,哪怕你采集了很多数据,如果只有30%或者50%可用,你的总数量就会需要去乘以可能性的数字,所以这是它的一定的局限性。</blockquote> <p id="489K54B5">特斯拉想用海量人类视频训练基础模型,但人手和机器手的物理差异(embodiment gap)是个绕不过去的坎。即使你有YouTube上所有的人类操作视频,转换效率也是个问题。</p> <p id="489K54B6">这就是全栈整合派的第一个困境:<strong><strong>你控制了全链条,但也意味着全链条的每个环节都是你的瓶颈。</strong></strong>硬件不够好,模型再强也白搭;模型不够强,硬件再好也发挥不出来。</p> <p id="489K54B7">但特斯拉的优势是钱多、人多、还有马斯克,Optimus会不会最终成功?可能要再过两年才能见分晓。</p> <p class="f_center"><br></p> <p id="489K54B9">而Figure AI走的是类似特斯拉的路线,但更激进。这家公司2022年才成立,创始人Brett Adcock之前做过电动垂直起降飞机,算是从“飞行机器人”跨界到“地面机器人”。</p> <p id="489K54BA">2024年初,Figure AI做了个大胆的决定:和OpenAI深度合作,将GPT-4直接接入人形机器人中。那段时间,他们放出来的demo震撼全行业:机器人能听懂人类的指令,能和人对话,能自己决定做什么。比如你说“可以给我点吃的吗”,它会主动递给你一个苹果。</p> <p class="f_center"><br></p> <p id="489K54BC">但好景不长。2025年2月,Figure AI突然主动宣布和OpenAI“分手”:他们要独立推出自己的基础模型,不再依赖OpenAI的技术。分手后的Figure AI,两周后就迅速推出新Helix模型,定位为通用人形机器人VLA模型,强调是完全自研、用于控制整个人形机器人。</p> <p id="489K54BD">不得不说,能够放弃OpenAI的“粗大腿”,Figure AI确实有两把刷子。</p> <p id="489K54BE"><strong><strong>Helix创新地采用了“System 1,System 2”双系统架构</strong></strong>:System 2像你的大脑皮层,负责“想清楚该干什么”;System 1像你的小脑,负责“手脚怎么配合”。当你拿杯子喝水时,大脑皮层只需要决定“现在该拿杯子了”,小脑会自动调动20多块肌肉完成抓取动作,你根本不需要意识到。</p> <p class="f_center"><br></p> <p id="489K54BG">这个架构解决了一个长期困扰机器人的问题:<strong><strong>视觉-语言模型很聪明但太慢,传统机器人控制策略很快但不够通用。</strong></strong>Helix让两者各司其职、端到端训练,既能理解复杂指令,又能实时精确控制。</p> <p id="489K54BH">更酷的是,Helix用单一神经网络控制整个上半身的35个自由度——包括手腕、躯干、头部、每根手指,它还能同时控制两个机器人协作完成任务。这就是Figure 和OpenAI“分手”后交出的答卷。</p> <p class="f_center"><br></p> <p id="489K54BJ">2025年9月,Figure AI完成了10亿美元的C轮融资,估值从26亿美元飙升到390亿美元——15倍的涨幅,不到一年时间。投资方名单读起来像科技圈的奥斯卡颁奖典礼:微软、OpenAI、英伟达、贝佐斯、英特尔、三星……听起来,已然成为具身机器人的“扛把子”。</p> <p id="489K54BK">总结一下,这一派的核心理念是:<strong><strong>基础模型的通用性来自于“足够大、足够端到端”,只要模型参数够多、训练数据够多、软硬整合够深,涌现能力就会自然出现。</strong></strong>这是从GPT-4的成功中总结出来的经验——但这个经验在物理世界是否成立,还是个未知数。</p> <p id="489K54BL"><strong>Chapter 2.2 流派二:垂直突破派</strong></p> <p id="489K54BM">如果说全栈整合派追求的是“一步到位的通用性”,那垂直突破派追求的是<strong><strong>“从专精到泛化的涌现”</strong></strong><strong>。</strong></p> <p id="489K54BN">他们的核心信念是:与其训练一个什么都会但什么都做不好的大模型,不如先让模型在某个垂直场景做到极致,在这个过程中积累的“学习能力”会自然迁移到其他场景。</p> <p id="489K54BO">Dyna Robotics是这个流派比较清晰的代表,他们走的路线很特别:做通用形态的机器人,但是在模型层面会先利用比较成熟的能力,落地一些可以打工的场景,用于了解行业的know how(实际知识),并更好的指导算法研究的方向。也就是说,先让机器人在洗衣房、餐厅、健身房这些场景“打工”,边干活边学习。</p> <p class="f_center"><br></p> <p id="489K54BQ">在2025年4月,他们发布了“首个可在真实环境中持续高性能运行的机器人基础模型”DYNA-1。在24小时内,他们的机器人自主折叠了700多张餐巾,成功率超过99.4%,完全无需人工干预,吞吐量达到人类速度的60%。但显然,Dyna的野心不止于叠毛巾。</p> <p></p> <blockquote id="489K54EJ">York Yang Dyna Robotics联合创始人: 第一是我们要澄清,我们不是一个做叠毛巾的公司,我们的基础模型里面包含了各种各样的数据,有各种叠的:叠毛巾、叠餐巾、叠衣服,也有切菜、切水果、准备食物,也有做早餐、清扫或者说摆放、物流场景的一些分拣,其实各种各样的数据我们都有,我们的基础模型其实是一个非常广的模型。</blockquote> <blockquote id="489K54EK">我们的泛化性最主要还是来自于基础的大模型,我们是希望基础大模型能够有足够强的能力,在大部分的任务上不太需要非常多的定制。在早期可能你会发现迁移到一个新的任务的过程会比较冗余、比较繁杂,你会需要再重新采很大一部分的数据,然后混到一起去做训练,但随着你的基础大模型数据量越来越大之后,你会发现哪怕去迁移到一个从未见过的这个任务上面,它其实需要的迁移成本也会越来越低。 我们过去可能会需要采几个月的数据去迁移某一个任务,但是到现在可能有一些简单的任务,可能一两天的数据就可以迁移过去。所以整体来说只要你的基础模型能力越来越强,学习能力越来越强的话,你去迁移到新任务的能力也会越来越强。</blockquote> <p class="f_center"><br></p> <p id="489K54BS">Dyna对基础模型的理解和全栈整合派完全不同,他们的理解是:<strong><strong>与其训练一个什么都会但什么都做不好的泛化模型,不如先让模型在某个任务上深度专精。</strong></strong>在这个过程中积累的“学习能力”会帮助它更快掌握其他任务。就像把钢琴练到音乐学院水平的人,上手吉他会比完全没学过乐器的人快得多,因为<strong><strong>掌握了“如何学习”的元技能</strong></strong><strong>。</strong></p> <p></p> <blockquote id="489K54EL">York Yang Dyna Robotics联合创始人: 我们确实也看到当你单一任务的能力提升得很强之后,它对于学习新任务有一定的促进作用,我们拿最优质的数据到基础的数据集里面做预训练之后,这个模型再去扩展到新的任务上,它会更快、需要的数据更少,所以这个也是我们在实践过程中找到一个有点反直觉,但是确实它发生了的一件事。我们对于它的理解可能就像人,如果你的学习能力本身很强,那你学习新的东西的能力就会很强,学习能力很强的前提是你可能过去已经在很多任务上你自己做过实践、做过学习,你才会有强的学习能力。 所以我们觉得学习能力本身和学习的过程也是关联的。</blockquote> <p id="489K54BT">这个理念背后基于这样一个观点:<strong><strong>机器人基础模型和大语言模型的Scaling Law(缩放定律)可能不一样。</strong></strong></p> <p id="489K54BU">大语言模型的规律是:模型越大、数据越多,性能就越好,但机器人基础模型的性能瓶颈,<strong><strong>不只在“模型容量”和“数据量”,更在“数据质量”和“物理一致性”。</strong></strong>如果训练数据里的物理接触不准确,模型学到的就是错误的物理直觉,参数越大,错误越被“放大”。</p> <p class="f_center"><br></p> <p></p> <blockquote id="489K54EM">York Yang Dyna Robotics联合创始人: 为什么说基于某种程度,它的Scaling Law(缩放定律)肯定不像大语言模型这么简单粗暴。因为我们之前也和挺多做大语言模型的这些人聊过,他们已经发现,语言方向的数据,哪怕用很多低质量数据,比如一堆文本,中间插了一段广告,然后再是接着文本,就这样的数据它一样能训练出比较好的模型。因为模型它看的数据足够多之后,它自动就会过滤掉广告。但是机器人当前我们觉得规模化更多的是来自于需要比较高质量的数据。你如果囊括了很多很繁杂的数据在里面,机器人模型可能就不知道我要注意力集中在哪一个地方,所以最终它其实出来的效果并没有那么好。</blockquote> <blockquote id="489K54EN">我们现在看到的是如果你的数据质量足够好,随着数据量的增加,数据多样性的增加,整体的基础模型能力就会有很大的提升,对下游的各种需要fine-tune(微调)的一些小任务也会有很大的提升,这个是实打实能够看得到的。</blockquote> <p class="f_center"><br></p> <p id="489K54C1">图片来源:Dyna</p> <p id="489K54C2">所以Dyna选择“小而精”的路线:</p> <p></p> <ul> <p id="489K54C3">与其训练一个100亿参数的泛化模型,不如训练一个10亿参数的专精模型</p> <p></p> <p id="489K54C4">要保证每一条训练数据都是高质量的真实物理交互</p> <p></p> <p id="489K54C5">让模型在实际部署中通过强化学习自我优化</p> <p></p> </ul> <p id="489K54C6">他们认为:深度专精某个任务的过程中,模型学到的不只是“怎么叠毛巾”,还有“怎么快速学习新任务”的元能力。</p> <p></p> <blockquote id="489K54EO">York Yang Dyna Robotics联合创始人: 所以我们现在挺关注的,比如像强化学习的一些路径,像通过大模型的基础能力的学习,比如说折叠能力、摆放能力的学习,让它拥有一个自我迭代、自我去学习新技能的能力,我觉得这个是最重要的。 但最终我们会觉得基础的大模型可能在普通的一些任务,比如说家用的很多:你帮我拿一个水、你帮我开一下门,类似的任务中,它应该是可以直接完成的。</blockquote> <p id="489K54C7">同样重视元学习能力的,也还有诸如Skild AI这样从“通用模型”切入,但并不做硬件的公司,他们核心逻辑是:用大规模仿真数据训练出一个通用的“大脑”,然后让这个大脑能快速适配到不同的机器人硬件和任务场景。</p> <p id="489K54C8">比如说,同一个模型既能控制机械臂抓取物体,也能让四足机器人行走,还能指挥人形机器人完成复杂操作,不需要每个任务都从头训练,而是靠一个强大的基础模型来迁移学习。有传闻称,英伟达和软银将领头对它投资10亿美元,估值将高达140亿美元。</p> <p class="f_center"><br></p> <p id="489K54CA">这个路线,还有一个特殊玩家值得一提:亚马逊。2025年7月,亚马逊宣布部署了第100万台机器人。100万台是什么概念?亚马逊目前有156万名员工,也就是说<strong><strong>机器人数量即将超过人类员工</strong></strong><strong>。</strong></p> <p id="489K54CB">但这100万台机器人,全都是专用机器人,针对具体场景优化:Hercules能搬运1250磅货物,Pegasus用于包裹分拣、运输,但亚马逊的野心不止于此。他们的Agentic AI团队正在开发通用机器人基础模型,还在旧金山办公室建了个叫“humanoid park”的室内测试场,训练人形机器人应对复杂障碍。</p> <p class="f_center"><br></p> <p id="489K54CD">亚马逊的策略和Dyna如出一辙:与其一开始就做大而全的通用模型,不如先在垂直场景积累世界上最好的数据和最强的能力,然后再泛化。</p> <p id="489K54CE"><strong>Chapter 2.3 流派三:生态平台派</strong></p> <p id="489K54CF">如果说前两派是在争“谁的路线更快”,那第三派争的是<strong><strong>“谁能制定行业标准”</strong></strong>。他们的核心信念是:在基础模型这个赛道,最终赢家不一定是技术最强的,而是生态控制力最强的。</p> <p class="f_center"><br></p> <p id="489K54CH">首先,NVIDIA的逻辑很简单:做机器人界的Android。</p> <p id="489K54CI">2025年3月的GTC大会上,黄仁勋隆重介绍了GR00T N1,并且把它开源了,听起来很美好,但你要用GR00T N1,就得用全套NVIDIA生态,一个都跑不掉。这就是生态锁定的威力:一旦你用了NVIDIA的全套工具链,切换成本高到让人望而却步。<strong><strong>NVIDIA的护城河不是模型本身,而是整个生态。</strong></strong></p> <p class="f_center"><br></p> <p id="489K54CK">Google走的是另一条路:通过开源研究建立影响力。</p> <p id="489K54CL">Google在机器人通用策略上选择了一条“研究驱动、开源优先”的路线。它推出的RT系列,强调大规模机器人演示数据、跨任务/跨平台通用模型,并通过论文+开放数据集的方式在学术与研究社区建立了强大影响力。在Gemini 3发布后,Google最近也加快了步伐,还挖来了前波士顿动力首席技术官Aaron Saunders,想推动Gemini Al成为通用机器人控制平台。</p> <p id="489K54CM">而OpenAI和Meta是这一派的另一种玩法:小步快跑,只为占坑。</p> <p id="489K54CN">OpenAI和机器人的关系,就像一对分分合合的情侣:早在2018年,他们就在机械手-操作任务上取得突破;但之后团队规模与优先级有所收缩。到2024年和2025年初,他们上演了和Figure从热恋到断裂式分手的戏码;但到了2025年下半年,他们又开始招聘多位专注于人形机器人控制算法的研究人员。</p> <p class="f_center"><br></p> <p id="489K54CP">此外,OpenAI也试图通过撒钱投资的方式,打造自己的生态影响力,2024年11月,OpenAI与杰夫·贝佐斯共同参与了Physical Intelligence的4亿美元融资。</p> <p id="489K54CQ">Meta的策略类似但更低调。2025年初,Meta在其Reality Labs旗下组建了一个新机器人部门,由前Cruise CEO Marc Whitten牵头,目标是开发类人机器人平台。Meta CTO Andrew Bosworth曾公开提到,其团队正在构建一种“world model”,以支撑机器人完成比“行走”和“跑跳”更细致的操控动作。</p> <p class="f_center"><br></p> <p id="489K54CS"><strong>Chapter 2.4 三派之争的本质:对“通用性”的不同赌注</strong></p> <p id="489K54CT">表面上看,三派是在争技术路线、争市场、争估值,但本质上,他们赌的是关于“通用性”的三个相通、但又不同的假设:</p> <p class="f_center"><br></p> <p id="489K54CV"><strong><strong>全栈整合派相信:</strong></strong>通用性=足够大的模型+足够多的数据+足够深的软硬整合,只要这三个条件满足,涌现能力会自然出现,这是从GPT-4的成功中总结出来的经验。</p> <p id="489K54D0"><strong><strong>垂直突破派相信:</strong></strong>通用性=深度专精带来的迁移能力,机器人的Scaling Law和语言模型不同,“小而精”可能比“大而全”更有效,关键是找到正确的“元学习”路径。</p> <p id="489K54D1"><strong><strong>生态平台派相信:</strong></strong>通用性=生态标准化程度,技术路线谁赢不重要,重要的是让所有人都用你的工具链,最终赢家不是技术最强的,而是生态控制力最强的。</p> <p id="489K54D2">当然,还有“半开源半闭源”的两家知名公司,Physical Intelligence(PI)和Genesis AI。我们会在我们的开源篇文章里重点介绍他们。</p> <p id="489K54D3">这几大派系谁对谁错?2025年还没有答案。但可以确定的是:这场关于基础模型的竞赛,才刚刚开始。</p> <p id="489K54D4"><strong><strong>03</strong></strong></p> <p><strong><strong>2025年现状</strong></strong></p> <p><strong><strong>展示很精彩,落地还未知</strong></strong></p> <p id="489K54DB">马斯克对特斯拉机器人的梦想很宏大,但现实是Optimus还在艰难爬坡。</p> <p id="489K54DC">12月19日,特斯拉官方发布了一份名为《特斯拉人形机器人2025年度报告》的视频回顾,详细披露了其人形机器人Optimus在过去一年中的技术迭代与进化路径,视频以Optimus加速跑进2026年的画面收尾,暗示明年将有更大幅度的技术跨越。我们也拭目以待。</p> <p class="f_center"><br></p> <p id="489K54DE">同时,Figure AI拿了10亿美元,估值390亿,但真正商业化部署的也就几十台。NVIDIA的GR00T N1发布了,但有多少公司真正用起来了?不好说。</p> <p id="489K54DF">但是,我们也看到了各家都在令人惊叹的进展,有特斯拉这样手握重金押注,也有Figure、Dyna为代表的创业公司在快速前进,还有OpenAI、Meta的低调入局,都在用重金、重资产的方式推进机器人基础模型。</p> <p id="489K54DG">这让我们相信,尤其是是在家用机器人领域,机器人开始帮忙干些讨厌的家务,已不再那么遥远。</p> <p class="f_center"><br></p> <p></p> <blockquote id="489K54EP">York Yang Dyna Robotics联合创始人: 我们是觉得最先肯定是在,像我们当前在开拓的一些市场,比如商用服务的一些人工的部分,就是和人工一起去完成一些任务这样的一些场景。但是我们觉得家用其实也没有那么遥远,并不需要完整的、非常通用的AGI。你可能只需要几个任务就可以进入到家庭的场景里,先让机器人在家里面干起活来,然后逐渐地通过模型的迭代让它产生更多的能力。</blockquote> <blockquote id="489K54EQ">我们自己的目标,在2026年我们至少希望在商用场景有比较大规模的部署,在家用我们会择机看。比如像叠衣服,我们采访过很多身边的朋友,其实大家都觉得这个功能他们非常需要,当我们的硬件成本降到普通家庭可承担的范围内,我们可能就会优先,比如先以叠衣服的功能卖给家庭,然后逐渐去拓展一些其他的功能。所以这个时间线应该也不遥远,可能也就在1~2年左右。</blockquote> <p id="489K54DI">怎么样,几百美元可以帮你叠衣服、准备早餐和做清洁的机器人助手,你会买吗?</p> <p id="489K54DJ">有关闭源模型的内容我们就先聊到这里,但有一群人在用完全不同的方式做同样的事:他们开源模型、他们分享数据、他们相信“聚沙成塔”的力量。他们说:“开放才能实现具身智能。”</p> <p id="489K54DK">下一篇机器人的文章我们会聊到:NVIDIA的“开放”到底有多开放?它和真正的开源有什么区别?为什么有人说GR00T N1是“伪开源”?Physical Intellig ence为什么要开源π0?一个刚成立、刚拿到投资的公司,为什么要把最核心的模型免费放出来?他们的商业模式是什么?开源vs闭源,谁会赢?这场战争的本质是什么?是技术路线之争,还是商业模式之争?</p> <p id="489K54DM">注:部分图片来源于网络</p> <p id="489K54DN"><strong>【本期节目不构成任何投资建议】</strong></p> <p id="489K54DQ">【视频播放渠道】</p> <p id="489K54DR">国内:B站|腾讯|视频号|西瓜|头条|百家号|36kr|微博|虎嗅</p> <p id="489K54DS">海外:Youtube</p> <p id="489K54DT">联系我们:video@sv101.net<br></p> <p id="489K54DU">【创作团队】</p> <p id="489K54DV">监制|泓君 陈茜</p> <p id="489K54E0">撰稿 |Vicky Xiao<br></p> <p id="489K54E1">编辑|陈茜</p> <p id="489K54E2">剪辑|Jacob</p> <p id="489K54E5">运营|王梓沁 孙泽平 何源清<br></p>

编辑:谢·杜伊特