xAI 近日为旗下 Grok 平台推送了一项重要更新,发布了名为“grok-imagine-video-1.5-preview”的图像转视频模型。该模型允许用户上传一张静态图片,并配合文本描述,即可生成一段具有电影质感的动态视频,分辨率最高支持 720p。更引人注目的是,系统具备将多个生成片段自动拼接为更长连续场景的能力,这为创作者提供了更灵活的叙事工具。

此次更新并非 xAI 在多媒体生成领域的首次尝试。此前,Grok 已集成 Aurora 图像生成模型,能够根据文本创作和编辑图片。而本次新增的视频生成功能,则让 Grok 在多模态内容创作上迈出了关键一步。据公开信息,该模型目前处于预览阶段,主要面向 X 平台上的 Grok 用户开放,具体访问权限可能与订阅层级相关。xAI 并未公布该模型的技术架构细节或训练数据来源,但强调其在生成连贯性和视觉质量上的提升。

从产业背景看,AI 视频生成已成为大模型厂商争夺的下一个高地。OpenAI 的 Sora、Runway 的 Gen 系列、以及国内的可灵等产品,都在推动文本或图像到视频的生成能力向更高分辨率、更长时长和更精细控制演进。xAI 此次以 720p 分辨率切入,虽未达到部分竞品的 1080p 标准,但其与 X 平台社交生态的深度绑定,可能形成差异化优势。用户可在社交场景中即时创作并分享视频内容,降低了使用门槛。

在“五层蛋糕”框架下,这一动态直接作用于最顶层的应用环节,并反向拉动模型层的迭代需求。对于 AI 产业投资者而言,这反映出 xAI 正试图通过多模态应用增强 Grok 的用户粘性,从而在马斯克的商业生态中占据更核心的流量入口。视频生成对算力的消耗远高于文本和图像,若该功能获得广泛采用,可能间接推动对底层基础设施和芯片层的需求,但短期内其商业化路径和成本控制仍是观察重点。此外,xAI 在模型能力上能否持续缩小与 OpenAI 等对手的差距,将影响市场对其独立融资及估值的预期。