去掉 VAE，商汤 8B 开源生图模型重新定义上限

商汤SenseNova U1以8B参数去除VAE，直接像素端到端建模，开源两周获GitHub 1500 Star。

商汤科技近期开源的多模态模型 SenseNova U1 正在开发者社区迅速升温。发布仅一周多，该项目在 GitHub 获得超过 **1,500 Star**，并冲上 HuggingFace 趋势榜。与众多图像生成模型不同，SenseNova U1 并未沿袭从 Stable Diffusion 到 FLUX 等主流方案所共用的变分自编码器（VAE）路径，转而采用名为 NEO-unify 的架构，直接在 **像素层面** 对语言与视觉进行统一建模。模型参数量为 **8B**，并以 **Apache 2.0** 协议完整开源，支持商用。

传统扩散模型为降低计算开销，通常利用 VAE 将高分辨率图像压缩到低维潜空间，再在该空间中进行去噪生成，最后通过解码器还原为像素。这套技术栈几乎成为过去几年图像生成的地基。SenseNova U1 却将 VAE 整个拆除，让模型直接学习像素级表征，并同时承载多模态理解（如图像描述、问答）与生成任务，试图构建真正统一的多模态大脑。开发者在 HuggingFace 平台上热烈讨论其实际部署条件，包括“能否在单张 **RTX 5090** 上运行”以及“是否会推出更轻量版本”，显示出社区已从围观转向严肃的落地测试。

从技术路线看，放弃 VAE 并非单纯的工程优化，而是架构层面的重新选边。去除潜空间压缩意味着对图像细节的天然保留潜力，但像素端建模通常对显存与计算的需求更高，模型必须在效率上做出精巧设计才能实用化。商汤团队显然在训练策略与推理优化上下足功夫，才让 8B 参数的模型能够在高端消费级显卡上运行，这本身也是工程能力的体现。此外，该模型同时具备视觉理解与生成能力，避免了以往“理解模型”与“生成模型”分离的伪统一方案，被部分开发者评价为“终于有人在原生统一方向上认真做了工程落地”。

站在 AI 产业角度，SenseNova U1 的出现至少带来三层含义。首先，在 **模型层**，它挑战了以 VAE-潜扩散为标配的技术惯性，如果像素端统一架构的性能和效率被持续验证，可能会推动更多团队探索去 VAE 路线，进而影响未来生成式 AI 的算力需求结构——潜空间方案更节省显存，但像素方案可能降低对高精度解码器的依赖，算力分布将重新调整。其次，在 **应用层**，以 Apache 2.0 协议开源意味着商业落地几乎没有障碍，中小企业和独立开发者可以快速将其集成到创意工具、电商生成、游戏素材等场景中，有望催生一批新应用，这直接扩大了生成式 AI 的可获得性。第三，在竞争格局上，商汤作为中国 AI 公司，在开源图像生成领域对 Stability AI、Black Forest Labs（FLUX）等构成追赶压力，也为投资者提供了观察中国模型创新能力的窗口——尤其在海外高端芯片受限的背景下，这种架构创新如何与国产算力结合，将是一个值得跟踪的长线叙事。

去掉 VAE，商汤 8B 开源生图模型重新定义上限

延伸阅读

相关每日新闻