6 月 2 日,OpenAI 的「Intelligence at Work」直播没有端出新的旗舰大模型,却干了一件更具象的事:把一个原本只属于程序员的工具——Codex,改造成销售、数据分析师、产品设计师、甚至投行家都能差遣的「数字员工」,并宣布它会在「未来几周」住进每一个人的 ChatGPT。[1]

这条新闻被中文媒体读成「ChatGPT 大变身」「终结纯聊天对话时代」。措辞夸张,但方向没说错:过去 18 个月,整个行业卖的是「会聊天的机器人」;从这一天起,叙事的重心明确转向「会干活的代理(agent)」。

这一篇,我们不复述发布会的兴奋。读马君更关心的是站在「五层蛋糕」最上层(应用)往下看的那个问题:当 AI 从「回答」变成「执行」,这股力量顺着五层往下传,最后会压在哪里、谁来买单——以及,它到底是真需求,还是又一轮「demo 惊艳、上线翻车」。

一、发生了什么:Codex 从「写代码」变成「干活」

先把可核实的事实钉死。

6 月 2 日的直播上,OpenAI 推出「Codex for every role」——六个面向具体岗位的插件,分别覆盖数据分析、创意制作、销售、产品设计、公开股票投资(public equity investing)、投资银行(investment banking)[1]注意后两个:它们不再是给开发者的,而是直接瞄准金融业薪资最高的那批知识工作。

值得多看一眼的,是 OpenAI 挑岗位的逻辑。它没去碰最难自动化的体力或强监管领域,而是精准选了六个「产出即数字文件、流程可拆解、单位时薪又高」的白领工种——代码、数据、设计、销售物料、投研、投行建模。这是一套商业化算盘:哪里的人力最贵、又最容易被软件复刻,代理就先去哪里变现。把投行与公开市场投研摆上台面,等于直接朝一个万亿级的专业服务市场喊话。

同场还放出两个能力:Codex Sites,能直接生成可托管、可分享的交互式网站与应用,先向企业与 Business 客户铺开;以及 Annotations,让用户圈出成品里要改的那一处、直接告诉 Codex 怎么调。[1]OpenAI 同时宣布,会在「未来几周」把 Codex 装进 ChatGPT app——两者暂时仍各自独立、再做深度整合,而非合并。[1]

模型层也换了引擎。驱动这套能力的新模型叫 GPT-5.3-Codex,OpenAI 官方的说法是:它让 Codex 从「能写、能审代码的 agent」迈向「几乎能做开发者与专业人士在电脑上能做的任何事」。[2][3]一句话——产品的卖点,从「答得好」变成了「做得成」。

放进时间线看更清楚:2023 年是「会聊天」的 GPT-4,2024 年是「打辅助」的各类 Copilot,到 2026 年这一步,卖的是「能独立交活」的 agent。每一步都把人往环节外挪一格——这一次,挪到了「验收者」的位置。也正因如此,它对算力、对岗位、对软件商业模式的冲击,都比前两步更猛。

二、为什么叫「代理元年」:聊天与代理,是两种东西

「聊天」和「代理」的差别,不是程度,是种类。

聊天是一问一答:你给一段话,模型还你一段话,干活的还是人。代理是另一回事——它自己把任务拆成步骤、自己调用工具(浏览器、代码、表格、外部 API)、读写文件、多轮试错、自我检查,最后交付一件成品:一个网站、一份建模、一套对账表。人从「敲指令的人」退到「验收的人」。

把这层窗户纸捅破,你就明白为什么这是一道分水岭。OpenAI 这次挑的六个岗位,全是「中间产物高度数字化、流程可拆解」的白领工种;而把投行与公开市场投研单列出来,等于宣告代理要去啃的,不是客服和文案,而是按小时计费动辄数百美元的专业服务。这是应用层这块蛋糕里最肥的一角,也是这场叙事最有想象力、同时最具争议的地方。

三、算力账:代理比聊天,烧的是另一个量级

这才是读马君真正想算的一笔账,也是「五层蛋糕」框架的用处所在——别只盯着应用层的热闹,要看它往下压在谁身上。

一次普通聊天,触发的是一次模型推理调用。而一个代理任务,是一整条流水线。据行业测算,一次用户请求交给代理,往往要触发 8~15 次内部的模型调用:一次任务规划、三到五次工具调用、几次后续推理、一次自我反思、一次结果综合,再加上若干次向量库检索。[6]Gartner 今年 3 月的分析把这个差距量化得更直接:代理类应用每完成一个任务,消耗的 token 是标准聊天机器人的 5~30 倍;单个任务的算力成本,落在约 0.27~5.12 美元之间。[5][6]

放到规模上,差距更夸张。同样服务一批用户,一套代理部署烧掉的 token,可以比一个简单聊天机器人高出整整一个数量级。[5][7]这已经体现在账单上:2026 年,重度使用 Claude Code 这类代理式编程工具的团队,被曝出每名工程师每月 500~2000 美元的模型开销。[5]换句话说,代理不是把聊天做得更好,而是把单位时间的算力胃口整体抬高了一两档。

这笔账有个吊诡之处:烧得多,未必赚得多。同样一笔算力预算,代理模式下能服务的用户数要除以一个不小的倍数;而代理产品的定价能不能追上这倍增的成本,目前还是问号。这条暗线,我们留到后面算英伟达那笔账时再摊开。

高盛一份报告的判断与此同向:AI 智能体会随着使用量激增而提振科技板块的现金流。[8]读马君把它翻译成产业语言——代理把 AI 从「偶尔问一句」的间歇负载,变成「持续替你干活」的常驻负载,用量是结构性上台阶,而非线性增长。

顺着五层往下捋这条传导链就很清楚:

  • 应用层(apps):代理产品起量,单个请求背后是 8~15 次调用;
  • 模型层(models):每次调用都是一次推理请求,密度陡增;
  • 基础设施层(infra)AI 工厂被推向更高负载,推理彻底取代训练成为主产线;
  • 芯片层(chips):最终落在推理 GPU、HBM 与互联的需求上。

这正是黄仁勋这两年把口号改成「每个 token 的成本(cost per token)才是唯一重要的指标」的需求侧背景。[9]代理元年若兑现,它是蛋糕最上层最性感的应用;但它吃掉的算力,会一路往下传,最后变成英伟达推理产线上的订单。应用层的故事,本质是芯片层的需求。

四、卡位战:三家在抢同一块地

代理不是 OpenAI 一家的叙事,这是一场三国杀。

谷歌在 2026 年的 Cloud Next 大会上,把 Vertex AI 整体升级为「Gemini 企业级代理平台」,集成 200 多个模型(连竞争对手 Anthropic 的 Claude 都纳进来),并推 A2A(agent 间通信)协议与 Workspace Studio,摆明了用全栈云能力对抗 OpenAI 和 Anthropic。[10]

Anthropic 则走另一条路。它靠 Claude Code 这款编程代理在企业侧一路领跑,又把 Claude Computer Use(计算机操作)做成研究预览——让模型能看屏幕、点按钮、开应用、填表格,独立完成多步工作流,把 Claude 从「会聊天的 AI」变成「自主的数字工人」。[11]而微软则把代理能力往 Office 365 与 GitHub 里嵌、靠渠道优势卡位;它和谷歌正各自用庞大的云业务与资产负债表,全力杀进这块战场。[4]

三家路线不完全一样:OpenAI 走「让通用代理住进 ChatGPT、顺手做成岗位插件」的消费—企业两头通吃;谷歌走「把代理做成企业云平台的一部分」;Anthropic 更像「把代理能力做成给别人搭产品的地基」。但底座只有一个——算力。本站新闻区这几天反复出现的一条线索是:连 SpaceX 都在向谷歌、Anthropic 出租算力,几家 AI 公司则在四处锁定数据中心与电力。代理军备竞赛的上半场拼模型与产品,下半场拼的是谁能用更低的每 token 成本把代理持续跑起来——这又把球踢回了基础设施与芯片层。

五、谁赚到钱:价值捕获的三方之争

代理元年若兑现,钱会落到谁口袋里?目前是三方在抢,远未定论:

  • 模型商(OpenAI、谷歌、Anthropic):靠订阅与按量调用收钱,离用户最近、品牌最响;但彼此卷价格、卷能力,谁也没拿到定价权。
  • 应用与 SaaS 厂商:代理既可能替代一部分现成软件,也可能反过来被它们嵌入增强——这块是价值捕获之争最激烈的地带,传统软件的「按席位收费」模式正被「按完成任务收费」冲击。
  • 卖铲子的英伟达:无论上面三方谁胜出,代理跑起来都要烧推理算力,它在底层相对旱涝从容。

硬币的另一面,是「谁被替代」。代理动摇的,可能是软件业沿用多年的计价逻辑——SaaS 按「席位」收费,一个人头一份订阅;而代理按「完成的任务」干活,一个代理可能顶几个席位,也可能去做过去根本没人做的活。越是流程标准、人力密集的品类(客服、初级数据分析、基础设计、外包编程),越可能被代理从「增强」一路推到「替代」。

而它们让出的那部分人力预算,会不会转头变成模型调用的算力预算?这恰恰是代理叙事里对英伟达最有利的一条暗线——它把「省下的人力成本」翻译成「新增的 token 消耗」,又是一笔顺着五层往下走的账。

读马君的判断是:在格局未明的早期,最确定的受益位置,往往不是最热闹的应用层,而是底层。但「最确定」不等于「没有变数」——而最大的那个变数,藏在下一节。

六、泼盆冷水:代理「看着行,用起来崩」

把账算到这里,必须停下来泼一盆冷水。因为代理元年最大的风险,不是不够性感,而是兑现不了

来自生产一线的数据并不好看。一项对 847 个企业代理部署的分析显示,76% 在上线头 90 天内出过严重故障[12]另一份覆盖 2527 名高管的调查更直接:74% 的企业,已经在生产环境里回滚或关停过至少一个代理[13]

崩在哪?业内归纳出几个结构性原因。[14]其一是demo 与生产的鸿沟:演示永远用干净的输入、配合的用户、设定好的场景,而真实世界的输入从不干净。其二,也是最致命的——复合失败:代理是多步流水线,每一步的错误会沿链条累积。即便单步可靠性高达 85%,一个 10 步的工作流端到端成功率也只剩约 20%;而企业最想自动化的,恰恰是那些长链条、高价值的任务。长链条任务和短问答本就是两类东西,前者的容错空间小得多,偏偏又是最值钱、最被寄予厚望的那批——业内甚至已经开始整理「年度代理翻车清单」,专门复盘那些在生产里把事情办砸的知名案例。其三是集成墙:约 62% 的失败卡在认证与对接上,每接一个工具都要定制一个连接器。更广的图景也不乐观——一项面向企业的调查发现,近八成公司在落地 AI 时撞上各种障碍,尽管投入并不小。代理不是不能用,而是「从 demo 到生产」这最后一公里,远比发布会上看到的难走得多。Gartner 因此预警,超过 40% 的代理类 AI 项目,可能在 2027 年前被取消。[14][15]

这盆冷水,对「五层蛋糕」的算力账有直接含义:如果代理大面积回滚、采用被推迟,那么前面算的「token 需求结构性上台阶」就要打折扣。 利好底层的逻辑没错,但兑现的时间表和斜率,取决于代理能不能真正在生产里跑稳。这是观点与数据的并陈,不是定论——但它是任何把代理当成英伟达需求新引擎的乐观叙事,都绕不过去的一道坎。

七、对英伟达与五层的含义:一个带「如果」的需求侧

把多空两边收拢,落到本站最关心的产业含义上,读马君用条件式说清楚,不下买卖结论:

如果代理在生产端的可靠性问题被逐步解决(业内已观察到,配齐自动化评测体系的代理,回滚率能从 47% 降到 9%),那么代理就是推理负载的一台新引擎——它把每个用户请求放大成 8~15 次调用,需求顺五层往下传,最终结结实实落在英伟达的推理产线、HBM 与互联上。[14]

但如果可靠性迟迟过不了关、企业持续回滚,那么这股需求的兑现就会被推后、被打折;与此同时,每任务 0.27~5.12 美元的算力成本,还要回答一个更尖锐的问题——代理跑一次的定价,能不能覆盖它烧掉的 token?

把数字摆出来体感更强:一个代理任务的算力成本是 0.27~5.12 美元,而许多面向个人与中小企业的代理订阅,月费不过二三十美元。只要用户每天多跑几个复杂任务,单个用户就可能从「赚钱」滑向「赔钱」——这也解释了头部模型商为何一边猛推代理、一边死守闭源旗舰模型的高毛利:它们比谁都清楚,代理这本算力账,眼下多半还是亏的。本站「英伟达护城河观察」系列在《推理经济学》一篇里已拆过:推理单价在崩塌、AI 账单却在膨胀,「越用越亏」的阴影同样笼罩着代理。[9]

换句话说,代理元年对英伟达,是一张几乎确定方向、但不确定斜率的需求订单。方向利好底层,斜率取决于应用层能不能把代理跑稳、跑到盈利。

八、接下来 30 / 60 / 90 天,盯这几件事

留几个可验证的观察点,替代空泛的结论:

  • rollout 兑现度:Codex 进 ChatGPT 的「未来几周」是否按期、采用率如何,是叙事落不落地的第一块试金石;
  • 金融两类插件的真实边界:公开股票投资与投行插件在合规、可靠性上到底能走多远,决定代理啃「高薪白领工种」是真突破还是 demo;
  • 可靠性曲线:企业代理的回滚率、生产故障率是否随评测体系普及而下降——这是「需求斜率」最硬的先行指标;
  • 算力信号:代理起量是否传导为头部模型商推理账单的抬升、以及英伟达推理芯片需求侧的口风变化——这是五层传导是否成立的硬证据;
  • 对位动作:谷歌 Gemini、Anthropic Claude 的代理产品如何接招,谁先把「每 token 成本」压到能盈利的位置。

代理元年是不是真的来了,三个月后这几个指标会比任何发布会都诚实。我们继续盯着,顺着五层往下看。