护城河之三：一个 token 几分钱——AI 工厂的推理经济学，与英伟达的新战场

把一座数据中心拆开看，它正在变成一座工厂——原料是电，产品是 token。而衡量这座工厂的，最后只剩一个指标：每生产一个 token，要花多少钱。

黄仁勋这两年反复改口号：从「算力即营收」，到今年的这一句——每个 token 的成本（cost per token）才是唯一重要的指标。^{^[1]} 这不是文案升级，而是英伟达对一个新现实的承认：当生成式与智能体 AI 把数据中心变成「token 工厂」，推理取代训练成为主负载，整座工厂的经济性，就被压缩成了一道除法——产出的智能 ÷ 烧掉的钱。^{^[1]^[2]}

承接前两篇（硬件被定制 ASIC 围剿、软件 CUDA 被抽象层架空），这一篇我们换一个轴看英伟达的护城河：钱。推理的单位经济学，正在重写它的战场。

一、新计量单位：cost per token

过去衡量一座数据中心，看的是峰值算力（FLOPS）、GPU 数量。但当 AI 的主要工作从「训练一个模型」变成「对外服务亿万次调用」，计量单位也换了——变成每个 token 的成本。

英伟达自己给这件事起了个名字：AI 工厂。在它的叙事里，数据中心不再是成本中心，而是一座把电力与算力「制造」成智能、再以 token 形式出货的工厂；推理是它的主产线，token 是它的产品。^{^[1]^[2]} 一旦接受这个框架，竞争的核心就只剩一句话：谁能把每个 token 的生产成本压到最低。

二、结论先行

一句话：推理单价正在崩塌——一年降约 10 倍；但这不是英伟达的危机，而是它主动发起的战争。谁能把 cost per token 打到最低，谁就拿走 AI 工厂的下一笔预算；英伟达宁可自己先把价格卷下去，也不愿把推理这块阵地让给定制 ASIC。

拆开看：

单价在崩塌——可比能力档位的推理单价，约一年降一个数量级。^{^[2]^[9]}
但总账在膨胀——单价越跌，用量涨得越凶，推理已占到企业 AI 预算的约 85%。^{^[3]}
推理成了主战场——这正是定制 ASIC 最有性价比、也是英伟达必须守的地方。^{^[13]}
英伟达「以攻为守」——用 Rubin CPX 专用推理芯片 + Vera Rubin「降 10×」，主动把单价打下去。^{^[10]^[11]}

三、单价崩塌（数据模块）

以下数字多来自第三方机构与行业测算，口径不一、宜看方向而非绝对值（已逐条归因）：

维度	数量级	来源
可比能力档推理单价	约从 2025 年初 0.06 美元/千 token，降到 2026 年中约 0.006 美元/千 token（≈ 10×）	^{^[2]}
主流厂商平均百万 token 价	一年内约从 10 美元降到 2.5 美元	^{^[9]}
半导体侧推理单 token 成本	每年约降 60%～70%	^{^[2]}
长期预测	有机构（Gartner）预计到 2030 年再降约 90%	^{^[3]}

这条曲线背后，是制程、架构、量化（FP4／FP8）、推理框架优化多重叠加的结果。趋势很清楚：单 token 越来越不值钱。

四、悖论：单价跌，总账却涨

最反直觉的一点是：单价暴跌，企业的 AI 账单却在飙升。

2026 年，推理已占到企业 AI 预算的约 85%；企业的平均 AI 预算，从 2024 年的约 120 万美元涨到 2026 年的约 700 万美元。^{^[3]}
原因是用量的爆炸抵消了单价的下跌：智能体（agentic）工作流在 2026 年的调用量，是按 2024 年单价做的预算根本没法想象的——一个任务背后可能是成百上千次模型调用。^{^[3]^[4]^[7]}

这是 AI 时代的「杰文斯悖论」：东西越便宜，反而用得越多、总花费越大。 高盛因此判断，智能体用量的激增会成为科技业现金流的新引擎。^{^[7]} 但硬币的另一面是亏损：有测算称，按当前推理成本，OpenAI 每赚 1 美元收入要倒贴约 1.35 美元（第三方测算，不代表本文立场）。^{^[8]}

对英伟达而言，这个悖论是好消息：只要总用量还在指数级膨胀，哪怕单 token 利润变薄，算力的总需求仍在做大。 这也是它敢于主动卷低单价的底气。

五、为什么推理成了主战场

把时间轴拉长，AI 算力的重心正从训练滑向推理。训练是一次性的「教模型」，推理是持续的「用模型」；当模型逐渐定型、应用开始放量，推理的需求曲线就盖过了训练。

而推理恰恰是定制 ASIC 最有优势的地方——工作负载重复、可预测，追求极致单位成本。第三方测算显示，生产级推理上定制硅相对通用 GPU 的 TCO 优势可达约 65%，2026 年定制芯片出货增速约 45%、而 GPU 约 16%。^{^[13]} 这正是首篇里「围剿」的主战场，也是英伟达这一篇必须正面应对的原因：推理是 apps 层放量的命门，丢了推理的成本优势，就等于把 AI 工厂的下一笔预算拱手让人。

六、英伟达的打法：把单价自己先打下去

面对单价崩塌，英伟达没有守价，而是「以攻为守」——亲手把 cost per token 卷得更低，用成本优势锁住推理份额。

造一颗专用推理芯片：Rubin CPX，专为超长上下文（100 万+ token）推理优化，牺牲训练通用性换 token 服务效率，计划 2026 年底上市。^{^[10]}
整代平台对着 TCO 去：下一代 Vera Rubin 平台对外承诺把推理成本压低约 10×——直指定制芯片最锋利的那把刀。^{^[11]}
把叙事统一到「每 token 成本」：黄仁勋反复强调 cost per token 是唯一指标，本质是把竞争拉回英伟达最能规模化的维度——全栈优化。^{^[1]}

提示：上述「10×」「65%」「45%／16%」等均为厂商目标值或第三方测算，独立大规模实测尚未跟上，宜保守看待。

七、反方与不确定性（防一边倒）

泡沫论的警告。 有媒体（Fortune）警告，飙升的芯片资本开支叠加压不下来的 token 成本，可能反过来拖累整个 AI 经济（第三方观点，不代表本文立场）。^{^[6]}
「用量补单价」能撑多久？ 这套逻辑依赖 agentic 用量持续指数级增长；一旦企业 AI 预算见顶、或落地不及预期，单价崩塌就会直接传导为收入压力。^{^[5]}
单价崩塌侵蚀谁的毛利？ 推理走向「白菜价」，与英伟达约 75% 的毛利率天然存在张力^{^[12]}——它能否在卷低 cost per token 的同时守住利润率，是后续季度要验证的关键。
数字口径不一。 文中单价降幅来自不同机构、不同能力档的测算，应看方向、不宜当精确值。^{^[2]^[9]}

八、五层视角：token 如何在五层之间传导

从「五层蛋糕」看，推理经济学是一条贯穿上三层的传导链：

基础设施层（infra）——AI 工厂的核算口径从「峰值算力」换成「单位 token 成本」，重塑了数据中心的选型与 capex 逻辑；
模型层（models）——单价崩塌让「调用模型」的门槛骤降，推动模型从「奢侈品」变成「公用事业」；
应用层（apps）——单价越低、智能体调用越敢放量，apps 层的繁荣反过来把算力需求做大，闭环回到 infra。

这条链解释了一个表面矛盾：为什么单 token 越来越便宜，AI 的总算力需求却越来越大。对英伟达，真正的胜负不在某一天的 token 报价，而在它能否在这条传导链的每一环，都保持「每 token 成本最低」的位置。

结语

当数据中心变成 token 工厂，英伟达的护城河也换了度量衡：不再是「最快的芯片」，而是「最便宜的 token」。单价崩塌看似凶险，却恰是黄仁勋主动选择的战场——因为他算的是另一笔账：只要总用量还在爆炸，把单价打到最低的人，就能拿走 AI 工厂越来越大的总预算。

这场战争英伟达打得起，但打不打得赢，要看定制 ASIC 与 AMD 在推理性价比上逼得有多紧。下一篇《价格战》，我们就来算这笔账。

一、新计量单位：cost per token

二、结论先行

三、单价崩塌（数据模块）

四、悖论：单价跌，总账却涨

五、为什么推理成了主战场

六、英伟达的打法：把单价自己先打下去

七、反方与不确定性（防一边倒）

八、五层视角：token 如何在五层之间传导

结语

延伸阅读

参考来源

一、新计量单位：cost per token

二、结论先行

三、单价崩塌（数据模块）

四、悖论：单价跌，总账却涨

五、为什么推理成了主战场

六、英伟达的打法：把单价自己先打下去

七、反方与不确定性（防一边倒）

八、五层视角：token 如何在五层之间传导

结语

延伸阅读

参考来源

同系列往期

相关百科

相关每日新闻