把一座数据中心拆开看,它正在变成一座工厂——原料是电,产品是 token。而衡量这座工厂的,最后只剩一个指标:每生产一个 token,要花多少钱。
黄仁勋这两年反复改口号:从「算力即营收」,到今年的这一句——每个 token 的成本(cost per token)才是唯一重要的指标。[1] 这不是文案升级,而是英伟达对一个新现实的承认:当生成式与智能体 AI 把数据中心变成「token 工厂」,推理取代训练成为主负载,整座工厂的经济性,就被压缩成了一道除法——产出的智能 ÷ 烧掉的钱。[1][2]
承接前两篇(硬件被定制 ASIC 围剿、软件 CUDA 被抽象层架空),这一篇我们换一个轴看英伟达的护城河:钱。推理的单位经济学,正在重写它的战场。
一、新计量单位:cost per token
过去衡量一座数据中心,看的是峰值算力(FLOPS)、GPU 数量。但当 AI 的主要工作从「训练一个模型」变成「对外服务亿万次调用」,计量单位也换了——变成每个 token 的成本。
英伟达自己给这件事起了个名字:AI 工厂。在它的叙事里,数据中心不再是成本中心,而是一座把电力与算力「制造」成智能、再以 token 形式出货的工厂;推理是它的主产线,token 是它的产品。[1][2] 一旦接受这个框架,竞争的核心就只剩一句话:谁能把每个 token 的生产成本压到最低。
二、结论先行
一句话:推理单价正在崩塌——一年降约 10 倍;但这不是英伟达的危机,而是它主动发起的战争。谁能把 cost per token 打到最低,谁就拿走 AI 工厂的下一笔预算;英伟达宁可自己先把价格卷下去,也不愿把推理这块阵地让给定制 ASIC。
拆开看:
- 单价在崩塌——可比能力档位的推理单价,约一年降一个数量级。[2][9]
- 但总账在膨胀——单价越跌,用量涨得越凶,推理已占到企业 AI 预算的约 85%。[3]
- 推理成了主战场——这正是定制 ASIC 最有性价比、也是英伟达必须守的地方。[13]
- 英伟达「以攻为守」——用 Rubin CPX 专用推理芯片 + Vera Rubin「降 10×」,主动把单价打下去。[10][11]
三、单价崩塌(数据模块)
以下数字多来自第三方机构与行业测算,口径不一、宜看方向而非绝对值(已逐条归因):
| 维度 | 数量级 | 来源 |
|---|---|---|
| 可比能力档推理单价 | 约从 2025 年初 0.06 美元/千 token,降到 2026 年中约 0.006 美元/千 token(≈ 10×) | [2] |
| 主流厂商平均百万 token 价 | 一年内约从 10 美元降到 2.5 美元 | [9] |
| 半导体侧推理单 token 成本 | 每年约降 60%~70% | [2] |
| 长期预测 | 有机构(Gartner)预计到 2030 年再降约 90% | [3] |
这条曲线背后,是制程、架构、量化(FP4/FP8)、推理框架优化多重叠加的结果。趋势很清楚:单 token 越来越不值钱。
四、悖论:单价跌,总账却涨
最反直觉的一点是:单价暴跌,企业的 AI 账单却在飙升。
- 2026 年,推理已占到企业 AI 预算的约 85%;企业的平均 AI 预算,从 2024 年的约 120 万美元涨到 2026 年的约 700 万美元。[3]
- 原因是用量的爆炸抵消了单价的下跌:智能体(agentic)工作流在 2026 年的调用量,是按 2024 年单价做的预算根本没法想象的——一个任务背后可能是成百上千次模型调用。[3][4][7]
这是 AI 时代的「杰文斯悖论」:东西越便宜,反而用得越多、总花费越大。 高盛因此判断,智能体用量的激增会成为科技业现金流的新引擎。[7] 但硬币的另一面是亏损:有测算称,按当前推理成本,OpenAI 每赚 1 美元收入要倒贴约 1.35 美元(第三方测算,不代表本文立场)。[8]
对英伟达而言,这个悖论是好消息:只要总用量还在指数级膨胀,哪怕单 token 利润变薄,算力的总需求仍在做大。 这也是它敢于主动卷低单价的底气。
五、为什么推理成了主战场
把时间轴拉长,AI 算力的重心正从训练滑向推理。训练是一次性的「教模型」,推理是持续的「用模型」;当模型逐渐定型、应用开始放量,推理的需求曲线就盖过了训练。
而推理恰恰是定制 ASIC 最有优势的地方——工作负载重复、可预测,追求极致单位成本。第三方测算显示,生产级推理上定制硅相对通用 GPU 的 TCO 优势可达约 65%,2026 年定制芯片出货增速约 45%、而 GPU 约 16%。[13] 这正是首篇里「围剿」的主战场,也是英伟达这一篇必须正面应对的原因:推理是 apps 层放量的命门,丢了推理的成本优势,就等于把 AI 工厂的下一笔预算拱手让人。
六、英伟达的打法:把单价自己先打下去
面对单价崩塌,英伟达没有守价,而是「以攻为守」——亲手把 cost per token 卷得更低,用成本优势锁住推理份额。
- 造一颗专用推理芯片:Rubin CPX,专为超长上下文(100 万+ token)推理优化,牺牲训练通用性换 token 服务效率,计划 2026 年底上市。[10]
- 整代平台对着 TCO 去:下一代 Vera Rubin 平台对外承诺把推理成本压低约 10×——直指定制芯片最锋利的那把刀。[11]
- 把叙事统一到「每 token 成本」:黄仁勋反复强调 cost per token 是唯一指标,本质是把竞争拉回英伟达最能规模化的维度——全栈优化。[1]
提示:上述「10×」「65%」「45%/16%」等均为厂商目标值或第三方测算,独立大规模实测尚未跟上,宜保守看待。
七、反方与不确定性(防一边倒)
- 泡沫论的警告。 有媒体(Fortune)警告,飙升的芯片资本开支叠加压不下来的 token 成本,可能反过来拖累整个 AI 经济(第三方观点,不代表本文立场)。[6]
- 「用量补单价」能撑多久? 这套逻辑依赖 agentic 用量持续指数级增长;一旦企业 AI 预算见顶、或落地不及预期,单价崩塌就会直接传导为收入压力。[5]
- 单价崩塌侵蚀谁的毛利? 推理走向「白菜价」,与英伟达约 75% 的毛利率天然存在张力[12]——它能否在卷低 cost per token 的同时守住利润率,是后续季度要验证的关键。
- 数字口径不一。 文中单价降幅来自不同机构、不同能力档的测算,应看方向、不宜当精确值。[2][9]
八、五层视角:token 如何在五层之间传导
从「五层蛋糕」看,推理经济学是一条贯穿上三层的传导链:
- 基础设施层(infra)——AI 工厂的核算口径从「峰值算力」换成「单位 token 成本」,重塑了数据中心的选型与 capex 逻辑;
- 模型层(models)——单价崩塌让「调用模型」的门槛骤降,推动模型从「奢侈品」变成「公用事业」;
- 应用层(apps)——单价越低、智能体调用越敢放量,apps 层的繁荣反过来把算力需求做大,闭环回到 infra。
这条链解释了一个表面矛盾:为什么单 token 越来越便宜,AI 的总算力需求却越来越大。对英伟达,真正的胜负不在某一天的 token 报价,而在它能否在这条传导链的每一环,都保持「每 token 成本最低」的位置。
结语
当数据中心变成 token 工厂,英伟达的护城河也换了度量衡:不再是「最快的芯片」,而是「最便宜的 token」。单价崩塌看似凶险,却恰是黄仁勋主动选择的战场——因为他算的是另一笔账:只要总用量还在爆炸,把单价打到最低的人,就能拿走 AI 工厂越来越大的总预算。
这场战争英伟达打得起,但打不打得赢,要看定制 ASIC 与 AMD 在推理性价比上逼得有多紧。下一篇《价格战》,我们就来算这笔账。
延伸阅读
- 本系列首篇:护城河在漏水?老黄的 GPU 帝国,正被一群「自己造芯片」的客户包围 —— 推理为何是定制 ASIC 的主战场。
- 上一篇:CUDA 还守得住吗?英伟达最深的那堵墙,与正在凿墙的人 —— 软件护城河的松动。
- 概念打底:AI 工厂 · 百科词条 —— 把电与算力「制造」成 token 的范式。