星海图正式发布了新一代具身基础模型G0.5,首次将**VLA(视觉-语言-行动)架构**推进到“思考与行动同时发生”的新阶段。此前,多数机器人模型面对一条“把毛巾放进洗手池”的指令,仍需依赖预编程动作或场景微调,而G0.5展示出截然不同的能力:它先自主理解任务意图,推理出毛巾与洗手池的位置,然后规划出拿起、移动、放下的完整动作序列,并在实体机器人R1 Lite上流畅执行。整个过程未针对当前环境、物体或指令做任何特定训练,做到了真正的**零样本泛化**。

支撑这一表现的核心在于,G0.5通过**大规模多任务预训练**,将抓取、放置、推拉、开合等原子动作抽象为可组合的操作基元,使同一套模型权重能同时进行高级推理与底层控制。这意味着,告诉模型“打开冰箱并放入饮料”,它不再需要事先拍过该冰箱的图像,也不需预先学习“饮料”的视觉特征,即可实时辨识目标、分解步骤、协调双臂完成操作。这种**“言出法随”的开箱即用能力**,打破了以往机器人“记住任务”的范式,向“学会操作”迈出了关键一步。

具身智能近年发展迅速,但多数系统仍受限于环境与物体的泛化瓶颈,对新场景需要重新采集数据、微调模型,部署耗时且成本高昂。星海图的G0.5则把机器人操作的通用性提升到与当下大语言模型相似的层次——一个模型可应对多种任务,不确定性由模型内生的规划与反馈循环吸收。这与英伟达创始人黄仁勋所描绘的**AI产业“五层蛋糕”中应用层**的演进方向高度吻合:当底层能源、芯片、基础设施和模型逐渐成熟,上层应用能否实现“直接听懂人话并行动”就成为产业落地的关键。G0.5的突破因此不仅关乎一家机器人公司的技术升级,也为整个具身智能生态提供了可参考的工程路径,对上游GPU算力、仿真训练平台和预训练模型服务都会产生拉动。

从产业逻辑看,零样本泛化的实现若可规模化复制,将大幅拓宽机器人在物流仓储、家庭服务、医疗辅助等场景的适用半径,原先需要工程师驻场调参的商业项目,未来或可由通用模型直接驱动。同时,该进展也引发关于数据飞轮效应的讨论:机器人通过真实交互持续沉淀长尾操作数据,反哺模型迭代,可能形成其他竞争者难以短期追赶的壁垒。站在中性观察视角,G0.5的发布让具身智能从“炫技”走向“可泛化实用”的叙事更具实感,后续需关注其在不同硬件平台上的适配表现及商业化落地节奏。