AI 代理元年：OpenAI 把 Codex 塞进 ChatGPT，应用层的卡位战开打 · 深度报道

6 月 2 日，OpenAI 的「Intelligence at Work」直播没有端出新的旗舰大模型，却干了一件更具象的事：把一个原本只属于程序员的工具——Codex，改造成销售、数据分析师、产品设计师、甚至投行家都能差遣的「数字员工」，并宣布它会在「未来几周」住进每一个人的 ChatGPT。^{^[1]}

这条新闻被中文媒体读成「ChatGPT 大变身」「终结纯聊天对话时代」。措辞夸张，但方向没说错：过去 18 个月，整个行业卖的是「会聊天的机器人」；从这一天起，叙事的重心明确转向「会干活的代理（agent）」。

这一篇，我们不复述发布会的兴奋。读马君更关心的是站在「五层蛋糕」最上层（应用）往下看的那个问题：当 AI 从「回答」变成「执行」，这股力量顺着五层往下传，最后会压在哪里、谁来买单——以及，它到底是真需求，还是又一轮「demo 惊艳、上线翻车」。

一、发生了什么：Codex 从「写代码」变成「干活」

先把可核实的事实钉死。

6 月 2 日的直播上，OpenAI 推出「Codex for every role」——六个面向具体岗位的插件，分别覆盖数据分析、创意制作、销售、产品设计、公开股票投资（public equity investing）、投资银行（investment banking）。^{^[1]}注意后两个：它们不再是给开发者的，而是直接瞄准金融业薪资最高的那批知识工作。

值得多看一眼的，是 OpenAI 挑岗位的逻辑。它没去碰最难自动化的体力或强监管领域，而是精准选了六个「产出即数字文件、流程可拆解、单位时薪又高」的白领工种——代码、数据、设计、销售物料、投研、投行建模。这是一套商业化算盘：哪里的人力最贵、又最容易被软件复刻，代理就先去哪里变现。把投行与公开市场投研摆上台面，等于直接朝一个万亿级的专业服务市场喊话。

同场还放出两个能力：Codex Sites，能直接生成可托管、可分享的交互式网站与应用，先向企业与 Business 客户铺开；以及 Annotations，让用户圈出成品里要改的那一处、直接告诉 Codex 怎么调。^{^[1]}OpenAI 同时宣布，会在「未来几周」把 Codex 装进 ChatGPT app——两者暂时仍各自独立、再做深度整合，而非合并。^{^[1]}

模型层也换了引擎。驱动这套能力的新模型叫 GPT-5.3-Codex，OpenAI 官方的说法是：它让 Codex 从「能写、能审代码的 agent」迈向「几乎能做开发者与专业人士在电脑上能做的任何事」。^{^[2]^[3]}一句话——产品的卖点，从「答得好」变成了「做得成」。

放进时间线看更清楚：2023 年是「会聊天」的 GPT-4，2024 年是「打辅助」的各类 Copilot，到 2026 年这一步，卖的是「能独立交活」的 agent。每一步都把人往环节外挪一格——这一次，挪到了「验收者」的位置。也正因如此，它对算力、对岗位、对软件商业模式的冲击，都比前两步更猛。

二、为什么叫「代理元年」：聊天与代理，是两种东西

「聊天」和「代理」的差别，不是程度，是种类。

聊天是一问一答：你给一段话，模型还你一段话，干活的还是人。代理是另一回事——它自己把任务拆成步骤、自己调用工具（浏览器、代码、表格、外部 API）、读写文件、多轮试错、自我检查，最后交付一件成品：一个网站、一份建模、一套对账表。人从「敲指令的人」退到「验收的人」。

把这层窗户纸捅破，你就明白为什么这是一道分水岭。OpenAI 这次挑的六个岗位，全是「中间产物高度数字化、流程可拆解」的白领工种；而把投行与公开市场投研单列出来，等于宣告代理要去啃的，不是客服和文案，而是按小时计费动辄数百美元的专业服务。这是应用层这块蛋糕里最肥的一角，也是这场叙事最有想象力、同时最具争议的地方。

三、算力账：代理比聊天，烧的是另一个量级

这才是读马君真正想算的一笔账，也是「五层蛋糕」框架的用处所在——别只盯着应用层的热闹，要看它往下压在谁身上。

一次普通聊天，触发的是一次模型推理调用。而一个代理任务，是一整条流水线。据行业测算，一次用户请求交给代理，往往要触发 8～15 次内部的模型调用：一次任务规划、三到五次工具调用、几次后续推理、一次自我反思、一次结果综合，再加上若干次向量库检索。^{^[6]}Gartner 今年 3 月的分析把这个差距量化得更直接：代理类应用每完成一个任务，消耗的 token 是标准聊天机器人的 5～30 倍；单个任务的算力成本，落在约 0.27～5.12 美元之间。^{^[5]^[6]}

放到规模上，差距更夸张。同样服务一批用户，一套代理部署烧掉的 token，可以比一个简单聊天机器人高出整整一个数量级。^{^[5]^[7]}这已经体现在账单上：2026 年，重度使用 Claude Code 这类代理式编程工具的团队，被曝出每名工程师每月 500～2000 美元的模型开销。^{^[5]}换句话说，代理不是把聊天做得更好，而是把单位时间的算力胃口整体抬高了一两档。

这笔账有个吊诡之处：烧得多，未必赚得多。同样一笔算力预算，代理模式下能服务的用户数要除以一个不小的倍数；而代理产品的定价能不能追上这倍增的成本，目前还是问号。这条暗线，我们留到后面算英伟达那笔账时再摊开。

高盛一份报告的判断与此同向：AI 智能体会随着使用量激增而提振科技板块的现金流。^{^[8]}读马君把它翻译成产业语言——代理把 AI 从「偶尔问一句」的间歇负载，变成「持续替你干活」的常驻负载，用量是结构性上台阶，而非线性增长。

顺着五层往下捋这条传导链就很清楚：

应用层（apps）：代理产品起量，单个请求背后是 8～15 次调用；
模型层（models）：每次调用都是一次推理请求，密度陡增；
基础设施层（infra）：AI 工厂被推向更高负载，推理彻底取代训练成为主产线；
芯片层（chips）：最终落在推理 GPU、HBM 与互联的需求上。

这正是黄仁勋这两年把口号改成「每个 token 的成本（cost per token）才是唯一重要的指标」的需求侧背景。^{^[9]}代理元年若兑现，它是蛋糕最上层最性感的应用；但它吃掉的算力，会一路往下传，最后变成英伟达推理产线上的订单。应用层的故事，本质是芯片层的需求。

四、卡位战：三家在抢同一块地

代理不是 OpenAI 一家的叙事，这是一场三国杀。

谷歌在 2026 年的 Cloud Next 大会上，把 Vertex AI 整体升级为「Gemini 企业级代理平台」，集成 200 多个模型（连竞争对手 Anthropic 的 Claude 都纳进来），并推 A2A（agent 间通信）协议与 Workspace Studio，摆明了用全栈云能力对抗 OpenAI 和 Anthropic。^{^[10]}

Anthropic 则走另一条路。它靠 Claude Code 这款编程代理在企业侧一路领跑，又把 Claude Computer Use（计算机操作）做成研究预览——让模型能看屏幕、点按钮、开应用、填表格，独立完成多步工作流，把 Claude 从「会聊天的 AI」变成「自主的数字工人」。^{^[11]}而微软则把代理能力往 Office 365 与 GitHub 里嵌、靠渠道优势卡位；它和谷歌正各自用庞大的云业务与资产负债表，全力杀进这块战场。^{^[4]}

三家路线不完全一样：OpenAI 走「让通用代理住进 ChatGPT、顺手做成岗位插件」的消费—企业两头通吃；谷歌走「把代理做成企业云平台的一部分」；Anthropic 更像「把代理能力做成给别人搭产品的地基」。但底座只有一个——算力。本站新闻区这几天反复出现的一条线索是：连 SpaceX 都在向谷歌、Anthropic 出租算力，几家 AI 公司则在四处锁定数据中心与电力。代理军备竞赛的上半场拼模型与产品，下半场拼的是谁能用更低的每 token 成本把代理持续跑起来——这又把球踢回了基础设施与芯片层。

五、谁赚到钱：价值捕获的三方之争

代理元年若兑现，钱会落到谁口袋里？目前是三方在抢，远未定论：

模型商（OpenAI、谷歌、Anthropic）：靠订阅与按量调用收钱，离用户最近、品牌最响；但彼此卷价格、卷能力，谁也没拿到定价权。
应用与 SaaS 厂商：代理既可能替代一部分现成软件，也可能反过来被它们嵌入增强——这块是价值捕获之争最激烈的地带，传统软件的「按席位收费」模式正被「按完成任务收费」冲击。
卖铲子的英伟达：无论上面三方谁胜出，代理跑起来都要烧推理算力，它在底层相对旱涝从容。

硬币的另一面，是「谁被替代」。代理动摇的，可能是软件业沿用多年的计价逻辑——SaaS 按「席位」收费，一个人头一份订阅；而代理按「完成的任务」干活，一个代理可能顶几个席位，也可能去做过去根本没人做的活。越是流程标准、人力密集的品类（客服、初级数据分析、基础设计、外包编程），越可能被代理从「增强」一路推到「替代」。

而它们让出的那部分人力预算，会不会转头变成模型调用的算力预算？这恰恰是代理叙事里对英伟达最有利的一条暗线——它把「省下的人力成本」翻译成「新增的 token 消耗」，又是一笔顺着五层往下走的账。

读马君的判断是：在格局未明的早期，最确定的受益位置，往往不是最热闹的应用层，而是底层。但「最确定」不等于「没有变数」——而最大的那个变数，藏在下一节。

六、泼盆冷水：代理「看着行，用起来崩」

把账算到这里，必须停下来泼一盆冷水。因为代理元年最大的风险，不是不够性感，而是兑现不了。

来自生产一线的数据并不好看。一项对 847 个企业代理部署的分析显示，76% 在上线头 90 天内出过严重故障。^{^[12]}另一份覆盖 2527 名高管的调查更直接：74% 的企业，已经在生产环境里回滚或关停过至少一个代理。^{^[13]}

崩在哪？业内归纳出几个结构性原因。^{^[14]}其一是demo 与生产的鸿沟：演示永远用干净的输入、配合的用户、设定好的场景，而真实世界的输入从不干净。其二，也是最致命的——复合失败：代理是多步流水线，每一步的错误会沿链条累积。即便单步可靠性高达 85%，一个 10 步的工作流端到端成功率也只剩约 20%；而企业最想自动化的，恰恰是那些长链条、高价值的任务。长链条任务和短问答本就是两类东西，前者的容错空间小得多，偏偏又是最值钱、最被寄予厚望的那批——业内甚至已经开始整理「年度代理翻车清单」，专门复盘那些在生产里把事情办砸的知名案例。其三是集成墙：约 62% 的失败卡在认证与对接上，每接一个工具都要定制一个连接器。更广的图景也不乐观——一项面向企业的调查发现，近八成公司在落地 AI 时撞上各种障碍，尽管投入并不小。代理不是不能用，而是「从 demo 到生产」这最后一公里，远比发布会上看到的难走得多。Gartner 因此预警，超过 40% 的代理类 AI 项目，可能在 2027 年前被取消。^{^[14]^[15]}

这盆冷水，对「五层蛋糕」的算力账有直接含义：如果代理大面积回滚、采用被推迟，那么前面算的「token 需求结构性上台阶」就要打折扣。 利好底层的逻辑没错，但兑现的时间表和斜率，取决于代理能不能真正在生产里跑稳。这是观点与数据的并陈，不是定论——但它是任何把代理当成英伟达需求新引擎的乐观叙事，都绕不过去的一道坎。

七、对英伟达与五层的含义：一个带「如果」的需求侧

把多空两边收拢，落到本站最关心的产业含义上，读马君用条件式说清楚，不下买卖结论：

如果代理在生产端的可靠性问题被逐步解决（业内已观察到，配齐自动化评测体系的代理，回滚率能从 47% 降到 9%），那么代理就是推理负载的一台新引擎——它把每个用户请求放大成 8～15 次调用，需求顺五层往下传，最终结结实实落在英伟达的推理产线、HBM 与互联上。^{^[14]}

但如果可靠性迟迟过不了关、企业持续回滚，那么这股需求的兑现就会被推后、被打折；与此同时，每任务 0.27～5.12 美元的算力成本，还要回答一个更尖锐的问题——代理跑一次的定价，能不能覆盖它烧掉的 token？

把数字摆出来体感更强：一个代理任务的算力成本是 0.27～5.12 美元，而许多面向个人与中小企业的代理订阅，月费不过二三十美元。只要用户每天多跑几个复杂任务，单个用户就可能从「赚钱」滑向「赔钱」——这也解释了头部模型商为何一边猛推代理、一边死守闭源旗舰模型的高毛利：它们比谁都清楚，代理这本算力账，眼下多半还是亏的。本站「英伟达护城河观察」系列在《推理经济学》一篇里已拆过：推理单价在崩塌、AI 账单却在膨胀，「越用越亏」的阴影同样笼罩着代理。^{^[9]}

换句话说，代理元年对英伟达，是一张几乎确定方向、但不确定斜率的需求订单。方向利好底层，斜率取决于应用层能不能把代理跑稳、跑到盈利。

八、接下来 30 / 60 / 90 天，盯这几件事

留几个可验证的观察点，替代空泛的结论：

rollout 兑现度：Codex 进 ChatGPT 的「未来几周」是否按期、采用率如何，是叙事落不落地的第一块试金石；
金融两类插件的真实边界：公开股票投资与投行插件在合规、可靠性上到底能走多远，决定代理啃「高薪白领工种」是真突破还是 demo；
可靠性曲线：企业代理的回滚率、生产故障率是否随评测体系普及而下降——这是「需求斜率」最硬的先行指标；
算力信号：代理起量是否传导为头部模型商推理账单的抬升、以及英伟达推理芯片需求侧的口风变化——这是五层传导是否成立的硬证据；
对位动作：谷歌 Gemini、Anthropic Claude 的代理产品如何接招，谁先把「每 token 成本」压到能盈利的位置。

代理元年是不是真的来了，三个月后这几个指标会比任何发布会都诚实。我们继续盯着，顺着五层往下看。