星海图发布G0.5具身模型，实现零样本泛化操控

星海图G0.5基于VLA架构，零样本下仅凭自然语言驱动机器人操作

星海图正式发布了新一代具身基础模型G0.5，首次将**VLA（视觉-语言-行动）架构**推进到“思考与行动同时发生”的新阶段。此前，多数机器人模型面对一条“把毛巾放进洗手池”的指令，仍需依赖预编程动作或场景微调，而G0.5展示出截然不同的能力：它先自主理解任务意图，推理出毛巾与洗手池的位置，然后规划出拿起、移动、放下的完整动作序列，并在实体机器人R1 Lite上流畅执行。整个过程未针对当前环境、物体或指令做任何特定训练，做到了真正的**零样本泛化**。

支撑这一表现的核心在于，G0.5通过**大规模多任务预训练**，将抓取、放置、推拉、开合等原子动作抽象为可组合的操作基元，使同一套模型权重能同时进行高级推理与底层控制。这意味着，告诉模型“打开冰箱并放入饮料”，它不再需要事先拍过该冰箱的图像，也不需预先学习“饮料”的视觉特征，即可实时辨识目标、分解步骤、协调双臂完成操作。这种**“言出法随”的开箱即用能力**，打破了以往机器人“记住任务”的范式，向“学会操作”迈出了关键一步。

具身智能近年发展迅速，但多数系统仍受限于环境与物体的泛化瓶颈，对新场景需要重新采集数据、微调模型，部署耗时且成本高昂。星海图的G0.5则把机器人操作的通用性提升到与当下大语言模型相似的层次——一个模型可应对多种任务，不确定性由模型内生的规划与反馈循环吸收。这与英伟达创始人黄仁勋所描绘的**AI产业“五层蛋糕”中应用层**的演进方向高度吻合：当底层能源、芯片、基础设施和模型逐渐成熟，上层应用能否实现“直接听懂人话并行动”就成为产业落地的关键。G0.5的突破因此不仅关乎一家机器人公司的技术升级，也为整个具身智能生态提供了可参考的工程路径，对上游GPU算力、仿真训练平台和预训练模型服务都会产生拉动。

从产业逻辑看，零样本泛化的实现若可规模化复制，将大幅拓宽机器人在物流仓储、家庭服务、医疗辅助等场景的适用半径，原先需要工程师驻场调参的商业项目，未来或可由通用模型直接驱动。同时，该进展也引发关于数据飞轮效应的讨论：机器人通过真实交互持续沉淀长尾操作数据，反哺模型迭代，可能形成其他竞争者难以短期追赶的壁垒。站在中性观察视角，G0.5的发布让具身智能从“炫技”走向“可泛化实用”的叙事更具实感，后续需关注其在不同硬件平台上的适配表现及商业化落地节奏。

星海图发布G0.5具身模型，实现零样本泛化操控

延伸阅读

相关每日新闻