银河通用创始人王鹤：具身智能逼近两大里程碑时刻

王鹤在ICRA 2026演讲称，具身智能正迈向AlphaGo和ChatGPT时刻，银河通用已实现人形机器人网球对抗等突破。

在奥地利维也纳举行的国际机器人与自动化会议（ICRA 2026）上，具身智能领域的前沿探索者、银河通用（Galbot）创始人兼首席技术官王鹤，于6月3日的行业主题演讲中，系统阐述了具身智能从专项突破迈向通用泛化的清晰路径。他借用AI发展史上的两个标志性事件，为机器人领域划定了自己的坐标：一个已经触及的“AlphaGo时刻”，以及一个正在逼近的“ChatGPT时刻”。

王鹤所指的“AlphaGo时刻”，并非简单的棋类博弈胜利，而是指机器人在特定高难度任务上，通过自主学习与仿真到现实的迁移（Sim2Real），达到甚至超越人类顶尖水平的临界点。他披露了银河通用在此方向上的两项核心实证。其一，团队实现了完全自主的人形机器人网球对抗。这要求机器人具备极致的全身动态协调、实时环境感知与毫秒级决策能力，是运动智能与硬件集成度的综合考验。其二，在精细操作层面，其灵巧手已摆脱对人工遥操作的依赖。通过构建一个“灵巧世界模型”，机器人能够理解工具（如螺丝刀）的物理特性与操作逻辑，像人类一样完成精密装配等复杂任务。这标志着机器人从简单的抓取放置，进化到了理解并利用工具来改变环境的新阶段。

然而，专项技能的突破只是序章。王鹤将更宏大的愿景定义为具身智能的“ChatGPT时刻”——即一个通用、可泛化、能理解自然语言指令并执行开放式长周期物理任务的模型出现。他认为，实现这一目标的关键在于构建一个全新的架构：“世界动作模型”（World Action Model, WAM）。该模型的核心思想是深度融合视觉语言动作模型（VLA）与世界模型。VLA模型负责将感知与语言指令转化为动作序列，而世界模型则赋予机器人对物理世界运行规律的内部推演能力，使其能预测动作后果并规划未来。

作为迈向WAM的关键一步，王鹤介绍了其团队最新的LDA模型。该模型的突破在于，它能够在隐空间中进行任务推演，并据此执行跨越多个步骤的长周期任务。更引人注目的是，LDA展现出了强大的泛化能力，不仅能处理训练中未见过的任务组合，还能跨不同的机器人硬件构型进行迁移。这意味着，为某款人形机器人训练的操纵技能，有望快速部署到形态迥异的机械臂或移动平台上，这为降低机器人应用成本、加速规模化落地提供了技术上的想象空间。

从产业视角观察，王鹤的演讲勾勒出具身智能从“能跑能跳”的炫技阶段，向“能工巧匠”的价值创造阶段跃迁的路线图。当机器人开始自主使用工具、适应非结构化环境并理解抽象指令时，其应用边界将从受控的工厂车间，大幅扩展至家庭服务、医疗护理、柔性制造等更广阔的场景。这一进程不仅依赖于算法层面的“世界动作模型”创新，也必将对上游的算力芯片、仿真基础设施以及专用能源供给提出全新的需求，形成对整个AI产业链条的倒逼与拉动。ICRA 2026上的这一声音，为衡量通用机器人何时真正叩开AGI大门，提供了一个具体而清晰的观测框架。

银河通用创始人王鹤：具身智能逼近两大里程碑时刻

延伸阅读

相关每日新闻