商汤科技近期开源的多模态模型 SenseNova U1 正在开发者社区迅速升温。发布仅一周多,该项目在 GitHub 获得超过 **1,500 Star**,并冲上 HuggingFace 趋势榜。与众多图像生成模型不同,SenseNova U1 并未沿袭从 Stable Diffusion 到 FLUX 等主流方案所共用的变分自编码器(VAE)路径,转而采用名为 NEO-unify 的架构,直接在 **像素层面** 对语言与视觉进行统一建模。模型参数量为 **8B**,并以 **Apache 2.0** 协议完整开源,支持商用。

传统扩散模型为降低计算开销,通常利用 VAE 将高分辨率图像压缩到低维潜空间,再在该空间中进行去噪生成,最后通过解码器还原为像素。这套技术栈几乎成为过去几年图像生成的地基。SenseNova U1 却将 VAE 整个拆除,让模型直接学习像素级表征,并同时承载多模态理解(如图像描述、问答)与生成任务,试图构建真正统一的多模态大脑。开发者在 HuggingFace 平台上热烈讨论其实际部署条件,包括“能否在单张 **RTX 5090** 上运行”以及“是否会推出更轻量版本”,显示出社区已从围观转向严肃的落地测试。

从技术路线看,放弃 VAE 并非单纯的工程优化,而是架构层面的重新选边。去除潜空间压缩意味着对图像细节的天然保留潜力,但像素端建模通常对显存与计算的需求更高,模型必须在效率上做出精巧设计才能实用化。商汤团队显然在训练策略与推理优化上下足功夫,才让 8B 参数的模型能够在高端消费级显卡上运行,这本身也是工程能力的体现。此外,该模型同时具备视觉理解与生成能力,避免了以往“理解模型”与“生成模型”分离的伪统一方案,被部分开发者评价为“终于有人在原生统一方向上认真做了工程落地”。

站在 AI 产业角度,SenseNova U1 的出现至少带来三层含义。首先,在 **模型层**,它挑战了以 VAE-潜扩散为标配的技术惯性,如果像素端统一架构的性能和效率被持续验证,可能会推动更多团队探索去 VAE 路线,进而影响未来生成式 AI 的算力需求结构——潜空间方案更节省显存,但像素方案可能降低对高精度解码器的依赖,算力分布将重新调整。其次,在 **应用层**,以 Apache 2.0 协议开源意味着商业落地几乎没有障碍,中小企业和独立开发者可以快速将其集成到创意工具、电商生成、游戏素材等场景中,有望催生一批新应用,这直接扩大了生成式 AI 的可获得性。第三,在竞争格局上,商汤作为中国 AI 公司,在开源图像生成领域对 Stability AI、Black Forest Labs(FLUX)等构成追赶压力,也为投资者提供了观察中国模型创新能力的窗口——尤其在海外高端芯片受限的背景下,这种架构创新如何与国产算力结合,将是一个值得跟踪的长线叙事。