一家公司拿自家代码库的提交记录告诉你「飞轮正在加速」,转头又请求世界,给它保留一个「踩刹车」的选项。
2026 年 6 月,Anthropic 发布了一篇刷屏长文《When AI builds itself》(当 AI 开始造 AI,由 Marina Favaro 与联合创始人 Jack Clark 合著)。[1][2] 文章用一组相当硬核的内部数据,把「递归自我改进」(Recursive Self-Improvement,RSI)这个长期停留在理论里的词,砸到了台面上——核心论据是:截至 2026 年 5 月,合入 Anthropic 代码库的代码里,超过 80% 由 Claude 编写。[1][4]
但最戏剧性的一幕是:就在铺陈完「我们跑得有多快」之后,Anthropic 笔锋一转,罕见地公开呼吁——必要时,世界应当保留「减速或暂停前沿 AI 开发」的选项。[1][3]
这篇文章的「AI 安全」那一面,全网已经讲得够多了。读马君想做一件不一样的事:把它放回黄仁勋的「五层蛋糕」框架里,看它对芯片与能源这两层意味着什么。但开篇必须把一句话说在最前面——
本文引用的几乎所有惊人数字,都是 Anthropic 关于「自己」的自述,未经独立第三方审计,且来自一个有强烈融资与叙事动机的当事方。它们是有价值的信号,但需要打折看。
一、结论先行
抛开末日叙事,这篇长文里最该被产业读懂的,是它顺手揭示的一条铁律:
一旦「研究品味」这最后一格也被点亮,AI 进步的速度,将只由算力供给决定。[1]
把这句话放回五层蛋糕,含义很重:它等于把芯片(chips)与能源(energy)两层的战略地位推到了极限——当写代码、跑实验、甚至判断「下一步该怎么走」都被自动化,算力就成了唯一的油门。这是对算力需求最猛的多头叙事。
但同一枚硬币的反面,也要立刻摆出来:
- 数字要打折——核心指标全部是 Anthropic 自述、未独立审计,部分甚至是「让 Claude 给 Claude 当裁判」打出来的;公司自己都承认其中一项(8 倍)「高估了真实生产力」。[1]
- 叙事有动机——「我们快到要喊停了」这句话本身,就是一家前沿实验室最好的能力广告与融资叙事。
- 最该警惕的盲点——「算力即唯一变量」的多头故事,恰恰把 Anthropic 自己列出、却判为「最不相信」的那个剧本忽略了:趋势停滞,瓶颈卡在芯片、电网与供应链。[1] 而那,正是对算力产业最关键的分支。
二、Anthropic 到底自述了什么(数据模块)
先把文章里的关键数字摆成一张表——每一项都请读成「Anthropic 说」,而非「事实是」。
| 维度 | 自述数字 | 口径 |
|---|---|---|
| 代码占比 | 合入代码库的代码超 80% 由 Claude 编写(2026-05);Claude Code 发布(2025-02)前还是「个位数」 | Anthropic 自述 [1][4] |
| 工程产出 | 人均日合入代码量约为 2024 年的 8 倍(公司自承代码行数「高估了生产力」);130 名研究员内部调查(2026-03)中位数自评约 4 倍 | Anthropic 自述 [1] |
| 最开放任务成功率 | 约 26%→76%(2026-05,半年提升约 50 个百分点) | Anthropic 自述 [1] |
| 训练代码优化提速 | Opus 4(2025-05)约 3× → Mythos Preview(2026-04)约 52×;熟练人类研究员 4~8 小时做到约 4× | Anthropic 自述 [1] |
| 「研究判断力」(择优下一步) | Opus 4.5(2025-11)51% → Mythos Preview(2026-04)64% 概率给出比人类更优的下一步 | Anthropic 自述 [1] |
| 端到端开放难题 | 两名人类研究员一周追回 23% 性能差距;Claude 智能体用约 800 累计小时、约 1.8 万美元算力追回 97% | Anthropic 自述 [1] |
| 工程「大扫除」 | 2026-04 一次性提交 800+ 修复、把一类 API 错误压低 1000×,估算人工需 4 年 | Anthropic 自述 [1] |
数字很吓人,但读法要冷静:代码行数衡量的是数量而非质量,8 倍是上限值;130 人调查里中位数的 4 倍,是更可信、也更诚实的那个数。[1] 后面所有推论,都该建立在「4 倍量级、且未经外部复现」这个更保守的地基上。
三、这是「递归自我改进」吗?——把惊悚翻译成机制
RSI 的定义很简单:AI 自己设计、训练、迭代自己的继任者,当 AI 改进 AI 的速度超过人类改进 AI 的速度,飞轮就脱离人类的手、开始自转。
Anthropic 的论证路径是这样的:它已经撞上了两堵「阿姆达尔定律」的墙——整体速度被那个没提速的环节卡住。第一堵是代码审查排队(Claude 写得太快,人审不过来);第二堵是想法与工具的产出爆炸(多到公司消化不了)。[1] 于是人类仅存的比较优势,被收窄到一个词:「研究品味」——判断哪些问题值得做、哪些结果可信、哪条路是死胡同。
而 Anthropic 对「研究品味」也不留情面:它指出 AI 的进步很少靠灵光一现(Transformer 那种范式级灵感几年才出一次),绝大多数进步靠的是「放大→看哪里坏了→修好→再试」——而这恰恰是 Claude 最擅长的工作流;至于「研究品味」,「可能只是又一个 AI 暂时不会、然后突然就会了的能力」。[1]
落到时间表上,联合创始人 Jack Clark 给出过一个具体数字:2028 年底前,出现递归自我改进的概率为 60%。[5]
提示:「60%/2028」是 Jack Clark 的个人公开预测、属第三方观点,不是事实;它建立在一组能力基准的外推之上,而外推本身就可能出错。
这一节,是全文最该打折的地方。 这些基准大多是 Anthropic 内部的任务、由 Claude 评判 Claude,对真实世界研究的泛化能力存疑;而「研究品味终将被攻克」是一个推测,不是证据。
四、放回五层蛋糕:为什么这对「芯片 + 能源」是最猛的多头叙事
现在回到读马君真正关心的问题。Anthropic 给出了三种未来,其中它押注最后两个,而对产业冲击最大的,是「剧本三」里的那句话:
完全的递归自我改进:AI 进步的速度只取决于算力供给,人类退居验证和监督。[1]
把这句话翻译成产业语言:如果 RSI 成真,算力(chips 层)与电力(energy 层),就从「AI 需求的一个变量」,变成了「唯一的变量」。
这件事的分量,要对照「英伟达护城河观察」系列里反复出现的那个需求侧之问来读:过去市场最担心的,是「AI 的算力需求会不会软下来」——定制 ASIC 围剿、推理单价崩塌,本质都是在问「蛋糕还会不会变大」。而 RSI 叙事,是直接把需求的天花板拆了:只要还有电、还有芯片,飞轮就转得更快、要的算力就更多,没有自然的饱和点。 这对英伟达、对整条算力链,是一个「上不封顶」的多头故事;对能源层(电网、核电 SMR、数据中心 PUE)也是同一枚硬币的另一面——算力的尽头是电。
但恰恰在这里,藏着这篇文章最该被警惕的盲点。
「算力即唯一变量」的多头叙事,和 Anthropic 自己判为「最不相信」的剧本一——趋势停滞、瓶颈卡在芯片、电网与供应链[1]——其实是同一件事的两面。当你把算力当成唯一的油门,就等于承认:油门踩到底时,先到的天花板很可能不是「超级智能」,而是「芯片不够造、电不够用」。 对产业而言,真正的问题因此不是「需求会不会无限」,而是「供给(先进制程产能、电力)能不能跟上,跟不上时谁卡住谁」。RSI 这套叙事,与其说是 models 层的胜利宣言,不如说是把压力整层压回了 chips 与 energy。
五、跑得最快的,却喊了「暂停」——治理悖论与可信度打折
文章最反直觉的部分,是 Anthropic 一边铺陈加速,一边呼吁「保留减速或暂停的选项」。它说得很清楚:这不是天真地喊「都停下」——如果只有谨慎者放慢脚步,等于把领先优势拱手送给最不谨慎的人;真正需要的,是多国、多个前沿实验室、在同样条件下同时停、且彼此可验证。[1][3]
这个主张本身值得尊重。但作为产业观察,必须给它的可信度做几道减法:
- 当事方自述,动机不中性。 「我们快到要喊停了」客观上强化了 Anthropic「领先者」的人设——既是安全表态,也是最高效的能力广告。
- 公司自己已经在打折。 8 倍高估、4 倍才是中位——一家愿意自我修正的公司值得加分,但也提醒我们:这些数字的口径,是可以被叙事需要而选择的。
- 单一实验室的自评,不能当产业结论。 在独立、可复现的第三方基准跟上之前,「RSI 临近」更应被当作一个待验证的假设,而不是一个可以据以配置产业判断的事实。
这不是说 Anthropic 在夸大,而是说:产业判断不能只采信任何一家实验室关于它自己的自述。
六、反方与不确定性
- 自述 ≠ 独立审计。 核心指标全部来自 Anthropic 内部,部分由 Claude 评判 Claude,缺乏外部可复现验证。[1]
- 代码行数 ≠ 生产力。 公司自承 8 倍高估,4 倍中位更可信;生产力的真实增幅,比头条数字保守得多。[1]
- 基准的泛化存疑。 「优化训练代码」「在内部任务上选下一步」是窄而明确的环节,不等于真实世界研究的全貌;「研究品味终被攻克」是推测。
- 时间表是个人预测。 「60%/2028」出自 Jack Clark 个人,[5] 而 Anthropic 自己也把「趋势停滞」列为三剧本之一(尽管是它最不信的那个)。[1]
- 多头叙事的反面是供给约束。 「算力上不封顶」与「芯片/电网先成为瓶颈」是同一假设的一体两面——后者恰是对算力产业最关键、却最常被忽略的分支。
七、对产业链意味着什么(五层视角,非预测、不荐股)
先把话说在前面:Anthropic 是未上市公司,本文不涉及任何标的的买卖判断;我们只把这篇自述还原成产业链上的因果(以下均为情景推演、非预测)。
- 两种叙事并存——算力需求「上不封顶」(若 RSI 成真)与「可能封顶」(剧本一/供给约束/S 曲线见顶)同时摆在桌上;理性的做法是两手都备、而非单押其一。
- 真正值得长期盯的三件事——① token 经济与算力供给的赛跑(智能体真正放量后,单位成本与总算力谁跑赢谁,见「推理经济学」那篇);② 能源是否成为新瓶颈(当算力的尽头是电,energy 层的电网与电力供给会不会先于芯片卡住飞轮);③ 独立第三方基准能否验证这些自述——在它跟上之前,一切 RSI 时间表都只是假设。
结语
一家公司拿着自家代码库的提交记录告诉你「飞轮在加速」,又请求世界保留「踩刹车」的选项。无论你信几分,对读懂老黄的读者,真正的信号其实只有一句:
当「汗水」被自动化、研究只剩「品味」这一格,算力就成了唯一的油门——而油门踩到底时,先撞上的天花板,可能不是超级智能,而是电不够用、芯片不够造。
这把球,最终又踢回了「五层蛋糕」最底下的两层。而那两层守不守得住,才是这场加速里,最该被长期盯住的变量。
延伸阅读
- 需求侧之问(同一枚硬币的另一面):护城河在漏水?老黄的 GPU 帝国,正被一群「自己造芯片」的客户包围。
- 算力的尽头是账本:一个 token 几分钱——AI 推理的「token 工厂」经济学。
- 全景起点:Computex 2026 总纲:黄仁勋把 AI『五层蛋糕』摞齐了。
- 相关百科:Anthropic · 推理模型 · 五层蛋糕。