DeepSeek V4 评测引争议：排名第九却难复现 V3 震撼

DeepSeek V4 在 Vals AI 评测中全球第九国内第二，部分开发者失望但场景测试仍有价值

4 月下旬发布的 DeepSeek V4，并没有像其前代 V3 那样引发开发者群体的集体亢奋。相反，社群中“就这”“还行”的反馈占据了主流。根据 Vals AI 的多维度测试，V4 在金融、法律、编程、多语言等任务上的平均准确率为 63.87%，全球排名第九，在国内也次于月之暗面的 Kimi K2.6，仅居第二。不少开发者在社交平台上直言“略感失望”，DeepSeek 自身也坦承，V4 在 Agentic Coding 环节仍逊于 Claude Opus 4.6 的思考模式，世界知识储备亦不及 Gemini 系列。

然而，雷锋网作者将 V4 植入中文开发工作流进行实际生产测试后，给出了更具温差的观点。评测显示，在针对中国本土开发者的定制场景中，V4 表现得足够稳健，尤其在理解中文复杂指令与工程落地方面依然可靠。该文认为，V4 虽未能重现 V3 那种打破 OpenAI 天花板的叙事，却巩固了 DeepSeek 在中文开源大模型中的实用地位。

近期行业的一个显著信号是，模型评估标准正从单一跑分转向多维度、多场景的综合能力。Vals AI 的测评覆盖实际应用高频领域，V4 的第九名恰恰反映了全球大模型竞争正在进入“高原期”——领先者之间的分差逐渐缩小，而追赶者需要在特定场景建立差异化。对 DeepSeek 而言，V3 以极低训练成本实现接近 GPT-4 的性能，一度掀起了对算力投入产出比的重新讨论。如今 V4 面临的压力，不仅来自海外闭源模型的快速迭代，也来自国内同行如 Kimi 的强力追赶。这种“夹心层”处境，使得模型层的竞争叙事从“颠覆”转向“性价比”与“可部署性”。

站在 AI 产业“五层蛋糕”的视角审视，V4 的地位正处在**模型层**的关键转折处。它的表现不仅关乎大模型公司自身的商业闭环，也直接牵动上游**芯片层**的推理需求结构：如果国产模型在中文场景中实现更高效率，未来推理端对高端 GPU 的依赖有望缓解，但同时训练侧的算力需求依然高涨。而对下游**应用层**而言，一个更务实、可私有化部署的 V4，将降低企业接入成本，加速 AI 在垂直行业的渗透。投资者关注点或将从此前对单款模型“震撼度”的追捧，转向对模型矩阵、工具链和落地速度的综合评估。

DeepSeek V4 评测引争议：排名第九却难复现 V3 震撼

延伸阅读

相关每日新闻