英伟达正式揭晓了其最新研发成果——NVIDIA Cosmos 3,一个被定义为全球首款完全开放的全模态物理AI模型。这款模型并非传统意义上的语言或图像生成工具,而是专为理解和模拟物理世界设计。其核心突破在于采用了一种全新的混合Transformer架构,将视觉推理、世界生成和动作预测三大关键能力融为一体。这意味着,模型不仅能“看懂”物理环境,还能预测物体如何运动、交互,并生成符合物理规律的未来场景。
从技术细节看,Cosmos 3的“全模态”特性使其能处理视觉、文本等多种输入,并输出对物理世界的连贯理解。这与英伟达此前在Omniverse平台上的积累一脉相承,但更强调模型的开放性与基础性。公司同时宣布牵头成立全球开发者协作联盟,意图围绕该模型构建一个庞大的开发者社区,加速其在机器人、自动驾驶、工业数字孪生等领域的应用落地。
这一动作的背景是AI产业正从纯数字领域向物理世界加速渗透。在黄仁勋提出的“五层蛋糕”框架中,Cosmos 3直接锚定在第四层“模型”与第五层“应用”的交汇点。它不仅是算法创新,更是对下游应用生态的战略性卡位。通过完全开放模型,英伟达试图复制其在GPU领域的平台化策略:提供底层工具,吸引开发者,进而拉动对其上层基础设施和底层芯片的长期需求。
从产业视角看,此举有多重含义。首先,它加剧了物理AI赛道的竞争,与特斯拉的Optimus、谷歌的RT系列模型形成对标,但开放策略可能更快积累生态优势。其次,对算力叙事构成支撑——模拟物理世界所需的计算量远超语言模型,这或进一步推高对英伟达自家GPU的依赖。最后,开发者联盟的成立标志着竞争从单点技术转向生态体系,能否吸引足够多的合作伙伴将决定该模型的最终影响力。市场正密切关注后续开发者反馈及实际应用案例的涌现。