4 月下旬发布的 DeepSeek V4,并没有像其前代 V3 那样引发开发者群体的集体亢奋。相反,社群中“就这”“还行”的反馈占据了主流。根据 Vals AI 的多维度测试,V4 在金融、法律、编程、多语言等任务上的平均准确率为 63.87%,全球排名第九,在国内也次于月之暗面的 Kimi K2.6,仅居第二。不少开发者在社交平台上直言“略感失望”,DeepSeek 自身也坦承,V4 在 Agentic Coding 环节仍逊于 Claude Opus 4.6 的思考模式,世界知识储备亦不及 Gemini 系列。
然而,雷锋网作者将 V4 植入中文开发工作流进行实际生产测试后,给出了更具温差的观点。评测显示,在针对中国本土开发者的定制场景中,V4 表现得足够稳健,尤其在理解中文复杂指令与工程落地方面依然可靠。该文认为,V4 虽未能重现 V3 那种打破 OpenAI 天花板的叙事,却巩固了 DeepSeek 在中文开源大模型中的实用地位。
近期行业的一个显著信号是,模型评估标准正从单一跑分转向多维度、多场景的综合能力。Vals AI 的测评覆盖实际应用高频领域,V4 的第九名恰恰反映了全球大模型竞争正在进入“高原期”——领先者之间的分差逐渐缩小,而追赶者需要在特定场景建立差异化。对 DeepSeek 而言,V3 以极低训练成本实现接近 GPT-4 的性能,一度掀起了对算力投入产出比的重新讨论。如今 V4 面临的压力,不仅来自海外闭源模型的快速迭代,也来自国内同行如 Kimi 的强力追赶。这种“夹心层”处境,使得模型层的竞争叙事从“颠覆”转向“性价比”与“可部署性”。
站在 AI 产业“五层蛋糕”的视角审视,V4 的地位正处在**模型层**的关键转折处。它的表现不仅关乎大模型公司自身的商业闭环,也直接牵动上游**芯片层**的推理需求结构:如果国产模型在中文场景中实现更高效率,未来推理端对高端 GPU 的依赖有望缓解,但同时训练侧的算力需求依然高涨。而对下游**应用层**而言,一个更务实、可私有化部署的 V4,将降低企业接入成本,加速 AI 在垂直行业的渗透。投资者关注点或将从此前对单款模型“震撼度”的追捧,转向对模型矩阵、工具链和落地速度的综合评估。