在奥地利维也纳举行的国际机器人与自动化会议(ICRA 2026)上,具身智能领域的前沿探索者、银河通用(Galbot)创始人兼首席技术官王鹤,于6月3日的行业主题演讲中,系统阐述了具身智能从专项突破迈向通用泛化的清晰路径。他借用AI发展史上的两个标志性事件,为机器人领域划定了自己的坐标:一个已经触及的“AlphaGo时刻”,以及一个正在逼近的“ChatGPT时刻”。
王鹤所指的“AlphaGo时刻”,并非简单的棋类博弈胜利,而是指机器人在特定高难度任务上,通过自主学习与仿真到现实的迁移(Sim2Real),达到甚至超越人类顶尖水平的临界点。他披露了银河通用在此方向上的两项核心实证。其一,团队实现了完全自主的人形机器人网球对抗。这要求机器人具备极致的全身动态协调、实时环境感知与毫秒级决策能力,是运动智能与硬件集成度的综合考验。其二,在精细操作层面,其灵巧手已摆脱对人工遥操作的依赖。通过构建一个“灵巧世界模型”,机器人能够理解工具(如螺丝刀)的物理特性与操作逻辑,像人类一样完成精密装配等复杂任务。这标志着机器人从简单的抓取放置,进化到了理解并利用工具来改变环境的新阶段。
然而,专项技能的突破只是序章。王鹤将更宏大的愿景定义为具身智能的“ChatGPT时刻”——即一个通用、可泛化、能理解自然语言指令并执行开放式长周期物理任务的模型出现。他认为,实现这一目标的关键在于构建一个全新的架构:“世界动作模型”(World Action Model, WAM)。该模型的核心思想是深度融合视觉语言动作模型(VLA)与世界模型。VLA模型负责将感知与语言指令转化为动作序列,而世界模型则赋予机器人对物理世界运行规律的内部推演能力,使其能预测动作后果并规划未来。
作为迈向WAM的关键一步,王鹤介绍了其团队最新的LDA模型。该模型的突破在于,它能够在隐空间中进行任务推演,并据此执行跨越多个步骤的长周期任务。更引人注目的是,LDA展现出了强大的泛化能力,不仅能处理训练中未见过的任务组合,还能跨不同的机器人硬件构型进行迁移。这意味着,为某款人形机器人训练的操纵技能,有望快速部署到形态迥异的机械臂或移动平台上,这为降低机器人应用成本、加速规模化落地提供了技术上的想象空间。
从产业视角观察,王鹤的演讲勾勒出具身智能从“能跑能跳”的炫技阶段,向“能工巧匠”的价值创造阶段跃迁的路线图。当机器人开始自主使用工具、适应非结构化环境并理解抽象指令时,其应用边界将从受控的工厂车间,大幅扩展至家庭服务、医疗护理、柔性制造等更广阔的场景。这一进程不仅依赖于算法层面的“世界动作模型”创新,也必将对上游的算力芯片、仿真基础设施以及专用能源供给提出全新的需求,形成对整个AI产业链条的倒逼与拉动。ICRA 2026上的这一声音,为衡量通用机器人何时真正叩开AGI大门,提供了一个具体而清晰的观测框架。