月之暗面(Moonshot AI)正式发布了新一代编程专用模型Kimi K2.7 Code,将AI编程工具的成本门槛再次大幅拉低。该模型以开源权重形式在Hugging Face上提供,专为复杂编程任务和智能体工作流设计,是此前K2.6版本的直接迭代。

从技术架构看,K2.7 Code采用混合专家(MoE)设计,总参数量高达1万亿,但每个token仅激活其中320亿参数。模型包含384个专家,每token选取8个,上下文窗口为25.6万token。它还能处理图像和视频输入,搭载自研的MoonViT视觉编码器(4亿参数)。与K2.6相比,K2.7 Code在推理效率上做出关键改进——思考token消耗减少约30%,并强制启用思考模式和“保留思考”功能,在多轮对话中维持完整推理链,以提升智能体编程场景的表现。

在月之暗面内部的Kimi Code Bench v2上,K2.7 Code得分从K2.6的50.9跃升至62.0;在Program Bench上从48.3升至53.6;在MLS Bench Lite上从26.7升至35.1。智能体基准测试方面,MCP Atlas得分从69.4升至76.0,MCPMark Verified从72.8升至81.1

但与西方顶尖模型的正面对比中,K2.7 Code在纯编程基准上仍处下风。GPT-5.5在Program Bench上得分69.1,Claude Opus 4.8和K2.7 Code则分别为53.6和53.6;在Kimi Code Bench v2上,GPT-5.5为69.0,K2.7 Code为62.0。Program Bench是一项特别严苛的测试,要求智能体仅凭编译后的二进制文件和文档复现程序行为,不能访问源代码、反编译或联网。

不过,在MCPMark Verified这一测试AI智能体在Notion、GitHub、文件系统、Postgres数据库和浏览器自动化等真实软件环境中表现的基准上,K2.7 Code以81.1分反超Claude Opus 4.8的76.4分,但仍远低于GPT-5.5的92.9分。这种基准测试与实际表现之间的差异,恰恰说明了评估模型不能只看单一维度。

真正让市场侧目的是其定价策略。K2.7 Code的API价格为输入每百万token 0.95美元、输出每百万token 4.00美元,缓存命中时输入价格进一步降至0.19美元。相比之下,GPT-5.5的定价为输入5美元、输出30美元;Claude Opus 4.8为输入5美元、输出25美元;Anthropic目前暂停上线的顶级模型Claude Fable 5更是高达输入10美元、输出50美元。单看输出价格,Fable 5是K2.7 Code的12.5倍

这意味着,在相同的预算下,开发者可以用K2.7 Code运行更多次推理、尝试更多方案、覆盖更大规模的代码库。文章提出的核心问题并非“它是不是最好的模型”,而是“同等预算下多出来的运行次数能否弥补质量差距”。这个问题的答案高度依赖具体任务,需要开发者用自己的基准测试来评估。但在token经济日益成形的当下,每token成本正成为与模型原始能力同等重要的竞争维度。

模型采用修改后的MIT许可证,允许自由使用、修改和再分发,但附加条款要求:任何月活超1亿或月收入超2000万美元的商业产品若使用K2.7 Code或其衍生版本,须在用户界面显著标注“Kimi K2.7 Code”。月之暗面还预告即将推出“6倍高速模式”,并已支持通过Kimi API、Kimi Code CLI以及vLLM和SGLang等推理引擎访问,同时提供原生INT4量化版本以降低硬件门槛。

从产业格局看,月之暗面此举延续了中国AI公司在开源模型和成本控制上的激进路线。当西方头部模型仍在追求基准分数的绝对领先时,K2.7 Code选择在“够用就好”和“极致性价比”之间寻找突破口。这种策略对中小开发团队和预算敏感的企业级应用具有明显吸引力,也可能倒逼西方厂商重新审视自己的定价体系。在AI编程助手市场竞争白热化的当下,Cursor等工具已在转售Kimi模型的修改版本,生态绑定效应值得持续关注。