一家公司拿自家代码库的提交记录告诉你「飞轮正在加速」,转头又请求世界,给它保留一个「踩刹车」的选项。

2026 年 6 月,Anthropic 发布了一篇刷屏长文《When AI builds itself》(当 AI 开始造 AI,由 Marina Favaro 与联合创始人 Jack Clark 合著)。[1][2] 文章用一组相当硬核的内部数据,把「递归自我改进」(Recursive Self-Improvement,RSI)这个长期停留在理论里的词,砸到了台面上——核心论据是:截至 2026 年 5 月,合入 Anthropic 代码库的代码里,超过 80% 由 Claude 编写[1][4]

但最戏剧性的一幕是:就在铺陈完「我们跑得有多快」之后,Anthropic 笔锋一转,罕见地公开呼吁——必要时,世界应当保留「减速或暂停前沿 AI 开发」的选项[1][3]

这篇文章的「AI 安全」那一面,全网已经讲得够多了。读马君想做一件不一样的事:把它放回黄仁勋的「五层蛋糕」框架里,看它对芯片与能源这两层意味着什么。但开篇必须把一句话说在最前面——

本文引用的几乎所有惊人数字,都是 Anthropic 关于「自己」的自述,未经独立第三方审计,且来自一个有强烈融资与叙事动机的当事方。它们是有价值的信号,但需要打折看。

一、结论先行

抛开末日叙事,这篇长文里最该被产业读懂的,是它顺手揭示的一条铁律:

一旦「研究品味」这最后一格也被点亮,AI 进步的速度,将只由算力供给决定。[1]

把这句话放回五层蛋糕,含义很重:它等于把芯片(chips)与能源(energy)两层的战略地位推到了极限——当写代码、跑实验、甚至判断「下一步该怎么走」都被自动化,算力就成了唯一的油门。这是对算力需求最猛的多头叙事

但同一枚硬币的反面,也要立刻摆出来:

  • 数字要打折——核心指标全部是 Anthropic 自述、未独立审计,部分甚至是「让 Claude 给 Claude 当裁判」打出来的;公司自己都承认其中一项(8 倍)「高估了真实生产力」。[1]
  • 叙事有动机——「我们快到要喊停了」这句话本身,就是一家前沿实验室最好的能力广告与融资叙事。
  • 最该警惕的盲点——「算力即唯一变量」的多头故事,恰恰把 Anthropic 自己列出、却判为「最不相信」的那个剧本忽略了:趋势停滞,瓶颈卡在芯片、电网与供应链[1] 而那,正是对算力产业最关键的分支。

二、Anthropic 到底自述了什么(数据模块)

先把文章里的关键数字摆成一张表——每一项都请读成「Anthropic 说」,而非「事实是」

维度自述数字口径
代码占比合入代码库的代码超 80% 由 Claude 编写(2026-05);Claude Code 发布(2025-02)前还是「个位数」Anthropic 自述 [1][4]
工程产出人均日合入代码量约为 2024 年的 8 倍(公司自承代码行数「高估了生产力」);130 名研究员内部调查(2026-03)中位数自评约 4 倍Anthropic 自述 [1]
最开放任务成功率26%→76%(2026-05,半年提升约 50 个百分点)Anthropic 自述 [1]
训练代码优化提速Opus 4(2025-05)约 → Mythos Preview(2026-04)约 52×;熟练人类研究员 4~8 小时做到约 Anthropic 自述 [1]
「研究判断力」(择优下一步)Opus 4.5(2025-11)51% → Mythos Preview(2026-04)64% 概率给出比人类更优的下一步Anthropic 自述 [1]
端到端开放难题两名人类研究员一周追回 23% 性能差距;Claude 智能体用约 800 累计小时、约 1.8 万美元算力追回 97%Anthropic 自述 [1]
工程「大扫除」2026-04 一次性提交 800+ 修复、把一类 API 错误压低 1000×,估算人工需 4 年Anthropic 自述 [1]

数字很吓人,但读法要冷静:代码行数衡量的是数量而非质量,8 倍是上限值;130 人调查里中位数的 4 倍,是更可信、也更诚实的那个数。[1] 后面所有推论,都该建立在「4 倍量级、且未经外部复现」这个更保守的地基上。

三、这是「递归自我改进」吗?——把惊悚翻译成机制

RSI 的定义很简单:AI 自己设计、训练、迭代自己的继任者,当 AI 改进 AI 的速度超过人类改进 AI 的速度,飞轮就脱离人类的手、开始自转。

Anthropic 的论证路径是这样的:它已经撞上了两堵「阿姆达尔定律」的墙——整体速度被那个没提速的环节卡住。第一堵是代码审查排队(Claude 写得太快,人审不过来);第二堵是想法与工具的产出爆炸(多到公司消化不了)。[1] 于是人类仅存的比较优势,被收窄到一个词:「研究品味」——判断哪些问题值得做、哪些结果可信、哪条路是死胡同。

而 Anthropic 对「研究品味」也不留情面:它指出 AI 的进步很少靠灵光一现Transformer 那种范式级灵感几年才出一次),绝大多数进步靠的是「放大→看哪里坏了→修好→再试」——而这恰恰是 Claude 最擅长的工作流;至于「研究品味」,「可能只是又一个 AI 暂时不会、然后突然就会了的能力」。[1]

落到时间表上,联合创始人 Jack Clark 给出过一个具体数字:2028 年底前,出现递归自我改进的概率为 60%。[5]

提示:「60%/2028」是 Jack Clark 的个人公开预测、属第三方观点,不是事实;它建立在一组能力基准的外推之上,而外推本身就可能出错。

这一节,是全文最该打折的地方。 这些基准大多是 Anthropic 内部的任务、由 Claude 评判 Claude,对真实世界研究的泛化能力存疑;而「研究品味终将被攻克」是一个推测,不是证据

四、放回五层蛋糕:为什么这对「芯片 + 能源」是最猛的多头叙事

现在回到读马君真正关心的问题。Anthropic 给出了三种未来,其中它押注最后两个,而对产业冲击最大的,是「剧本三」里的那句话:

完全的递归自我改进:AI 进步的速度只取决于算力供给,人类退居验证和监督。[1]

把这句话翻译成产业语言:如果 RSI 成真,算力(chips 层)与电力(energy 层),就从「AI 需求的一个变量」,变成了「唯一的变量」。

这件事的分量,要对照「英伟达护城河观察」系列里反复出现的那个需求侧之问来读:过去市场最担心的,是「AI 的算力需求会不会软下来」——定制 ASIC 围剿、推理单价崩塌,本质都是在问「蛋糕还会不会变大」。而 RSI 叙事,是直接把需求的天花板拆了:只要还有电、还有芯片,飞轮就转得更快、要的算力就更多,没有自然的饱和点。 这对英伟达、对整条算力链,是一个「上不封顶」的多头故事;对能源层(电网、核电 SMR、数据中心 PUE)也是同一枚硬币的另一面——算力的尽头是电。

但恰恰在这里,藏着这篇文章最该被警惕的盲点。

「算力即唯一变量」的多头叙事,和 Anthropic 自己判为「最不相信」的剧本一——趋势停滞、瓶颈卡在芯片、电网与供应链[1]——其实是同一件事的两面。当你把算力当成唯一的油门,就等于承认:油门踩到底时,先到的天花板很可能不是「超级智能」,而是「芯片不够造、电不够用」。 对产业而言,真正的问题因此不是「需求会不会无限」,而是「供给(先进制程产能、电力)能不能跟上,跟不上时谁卡住谁」。RSI 这套叙事,与其说是 models 层的胜利宣言,不如说是把压力整层压回了 chips 与 energy

五、跑得最快的,却喊了「暂停」——治理悖论与可信度打折

文章最反直觉的部分,是 Anthropic 一边铺陈加速,一边呼吁「保留减速或暂停的选项」。它说得很清楚:这不是天真地喊「都停下」——如果只有谨慎者放慢脚步,等于把领先优势拱手送给最不谨慎的人;真正需要的,是多国、多个前沿实验室、在同样条件下同时停、且彼此可验证[1][3]

这个主张本身值得尊重。但作为产业观察,必须给它的可信度做几道减法:

  • 当事方自述,动机不中性。 「我们快到要喊停了」客观上强化了 Anthropic「领先者」的人设——既是安全表态,也是最高效的能力广告。
  • 公司自己已经在打折。 8 倍高估、4 倍才是中位——一家愿意自我修正的公司值得加分,但也提醒我们:这些数字的口径,是可以被叙事需要而选择的。
  • 单一实验室的自评,不能当产业结论。 在独立、可复现的第三方基准跟上之前,「RSI 临近」更应被当作一个待验证的假设,而不是一个可以据以配置产业判断的事实。

这不是说 Anthropic 在夸大,而是说:产业判断不能只采信任何一家实验室关于它自己的自述。

六、反方与不确定性

  • 自述 ≠ 独立审计。 核心指标全部来自 Anthropic 内部,部分由 Claude 评判 Claude,缺乏外部可复现验证。[1]
  • 代码行数 ≠ 生产力。 公司自承 8 倍高估,4 倍中位更可信;生产力的真实增幅,比头条数字保守得多。[1]
  • 基准的泛化存疑。 「优化训练代码」「在内部任务上选下一步」是窄而明确的环节,不等于真实世界研究的全貌;「研究品味终被攻克」是推测。
  • 时间表是个人预测。 「60%/2028」出自 Jack Clark 个人,[5] 而 Anthropic 自己也把「趋势停滞」列为三剧本之一(尽管是它最不信的那个)。[1]
  • 多头叙事的反面是供给约束。 「算力上不封顶」与「芯片/电网先成为瓶颈」是同一假设的一体两面——后者恰是对算力产业最关键、却最常被忽略的分支。

七、对产业链意味着什么(五层视角,非预测、不荐股)

先把话说在前面:Anthropic 是未上市公司,本文不涉及任何标的的买卖判断;我们只把这篇自述还原成产业链上的因果(以下均为情景推演、非预测)。

  • 两种叙事并存——算力需求「上不封顶」(若 RSI 成真)与「可能封顶」(剧本一/供给约束/S 曲线见顶)同时摆在桌上;理性的做法是两手都备、而非单押其一。
  • 真正值得长期盯的三件事——① token 经济与算力供给的赛跑(智能体真正放量后,单位成本与总算力谁跑赢谁,见「推理经济学」那篇);② 能源是否成为新瓶颈(当算力的尽头是电,energy 层的电网与电力供给会不会先于芯片卡住飞轮);③ 独立第三方基准能否验证这些自述——在它跟上之前,一切 RSI 时间表都只是假设。

结语

一家公司拿着自家代码库的提交记录告诉你「飞轮在加速」,又请求世界保留「踩刹车」的选项。无论你信几分,对读懂老黄的读者,真正的信号其实只有一句:

当「汗水」被自动化、研究只剩「品味」这一格,算力就成了唯一的油门——而油门踩到底时,先撞上的天花板,可能不是超级智能,而是电不够用、芯片不够造。

这把球,最终又踢回了「五层蛋糕」最底下的两层。而那两层守不守得住,才是这场加速里,最该被长期盯住的变量。

延伸阅读