英伟达在物理AI赛道上再次加码,正式开源了Cosmos 3全模态世界基础模型,并配套推出Agent Toolkit开发工具包。与此前的Cosmos系列相比,第三代模型不再局限于视觉预测,而是整合了文本、图像、视频、深度传感和激光雷达点云等多种模态,能够为机器人、自动驾驶车辆和复杂工业系统提供高保真的环境模拟与行为预测。这一版本将模型参数规模扩展至数十亿级别,并通过预训练权重和微调脚本的全面公开,让中小型开发团队也能基于自身场景进行快速定制。

同步发布的Agent Toolkit则填补了从模型到可部署智能体之间的工程缺口。该工具包内建了感知-规划-控制的标准化流水线,支持在英伟达Omniverse数字孪生环境中进行闭环仿真验证,并可以将训练好的智能体策略直接部署到Jetson Orin等边缘计算平台上。英伟达表示,无论是仓储物流中的移动机器人,还是田间作业的农业机械,开发者都能借助这一工具链,在几天内走通从数据生成到策略下发的全流程,而此前这往往需要跨团队的数月集成工作。

从产业逻辑来看,物理AI一直被视为比语言模型更“重”的赛道,其落地高度依赖高质量的合成数据、物理仿真引擎和边缘算力——三者恰是英伟达的传统强项。Cosmos 3的深度开源策略,看似放弃了部分短期软件授权收入,实则是用免费的基础模型吸引开发者进入Omniverse与NVIDIA AI Enterprise的生态体系,进而拉动对H100、B200等数据中心GPU以及Jetson边缘芯片的长期采购。对机器人公司而言,借助Cosmos+Agent组合,能减少从零搭建“世界模型”的研发投入,更快地实现具身智能的商业闭环。

值得注意的是,这一发布还映射出英伟达从“算力卖铲人”向“全栈AI平台商”的持续进化。在语言大模型层,英伟达已通过Nemo框架和Llama系列的开源改款尝试生态构建;而在物理AI层,Cosmos 3的开源则是一次更果断的冲锋,直接与谷歌DeepMind的RT系列模型、特斯拉的FSD底层模型形成竞争。当物理AI的模型层趋于开源普惠,下游应用创新的爆发点将更依赖于数据飞轮和硬件供应链的效率,这正是英伟达希望在“芯片-基础设施-模型-应用”的多层蛋糕中锁定的长期价值。