硬件可以重造,软件生态却要重新长出来。英伟达最深的护城河,从来不是某一颗 GPU,而是那套让全世界开发者都离不开它的软件——CUDA。
上一篇《护城河在漏水?》里,我们拆了英伟达硬件被定制 ASIC 围剿的故事,留下一个结论:就算 GPU 份额被蚕食,CUDA 生态仍是英伟达最难被复制的那道墙。 这一篇,我们就来拆这道墙——它到底有多厚、正被谁凿、以及一个比「谁能复制 CUDA」更要命的问题:这个行业,还需不需要 CUDA?
一、先讲清楚:CUDA 为什么是「最深的墙」
CUDA 不是一颗芯片,而是英伟达从 2007 年起、用近二十年时间垒起来的一整套软件栈:编程模型、编译器,以及 cuDNN、cuBLAS、TensorRT 等覆盖深度学习与科学计算的加速库。它把 GPU 从「图形专用芯片」变成了「通用并行计算引擎」,也顺手把全世界的 AI 代码、框架与人才,一并绑在了自己身上。
它的厚度体现在三层叠加:主流框架(PyTorch、TensorFlow)默认跑在 CUDA 上;海量历史代码与算子库是按 CUDA 写的;一整代开发者的肌肉记忆也是 CUDA。三者咬合,迁移成本被推到极高——这正是为什么业内普遍认为,CUDA 的价值不亚于英伟达的硬件本身。今天买一张 AI 加速卡,本质上买的是它背后的软件生态,而不是那块硅。[11]
落到数字:英伟达在 AI 加速器市场握有约 80% 的份额,而 CUDA 在 AI 开发者中的渗透率长期被引用为同一量级。[1] 一道二十年的墙,不是一年能拆的。
二、结论先行
一句话:墙还在、而且很厚;但 2026 年,它第一次被三股力量同时凿。真正危险的不是「谁能复制 CUDA」,而是「绕过 CUDA」——当抽象层上移,CUDA 正从『唯一入口』变成『可替换的后端之一』。
拆开看:
- 三股凿墙力量——AMD 的开源 ROCm、OpenAI 的 Triton(+PyTorch 编译器)、华为开源的 CANN,路径各异,但都指向同一面墙。[1][6][8][9]
- 最致命的一招是「架空」而非「复制」——多数推理负载如今跑在 vLLM、SGLang 这类框架上,开发者只追求「每秒多少 token」,根本不直接碰 CUDA。[6][7]
- 但护城河远未失守——CUDA 仍是约 80% 开发者的默认选项,剩余的硬骨头(自定义算子、训练侧)短期难被替代。[1]
- 英伟达的应对,是把墙「加宽」——用 CUDA-X、下沉 PC 把 CUDA 从「训练标准」做成「从云到端的跨层标准」。
三、凿墙的三股力量(数据模块)
| 力量 | 路径 | 2026 进度 | 来源 |
|---|---|---|---|
| AMD ROCm 7 | 开源软件栈,硬刚 CUDA | 支持 FP4/FP8、推理较上代提速约 3.5×;PyTorch/vLLM day-zero 支持;「ROCm everywhere」铺到 Windows 与消费级 Radeon;MI450 计划 2H2026 出货、拿下 Meta 6GW 大单 | [1][3][12] |
| OpenAI Triton + PyTorch | 不复制 CUDA,而是把它「架空」 | Triton 是 PyTorch 2.x 默认 kernel 层,torch.compile 默认下降到 Triton;vLLM 的注意力后端用 Triton 写成,可跨 NVIDIA/AMD 运行 | [5][6][7] |
| 华为 CANN | 国产替代,绕开出口管制 | Ascend 的 CUDA 对标栈,计划年底前开源;经 torch_npu 适配让 PyTorch 模型跑昇腾;但成熟度与易用性差距仍大 | [9][10] |
AMD ROCm:从「能跑」到「敢押注」
AMD 的策略是「开源对闭源」。ROCm 7 补上了 FP4/FP8 低精度、给 PyTorch 和 vLLM 做了 day-zero 支持,还把栈铺到 Windows 和消费级 Radeon,让开发者能在游戏 PC 上写、到云上跑。[1] 更有分量的信号是订单:Meta 为 MI450 押下 6GW 级承诺。[12] 当一家超大规模厂商敢在这个体量上压注 ROCm,说明它的可靠性已经迈过了某条线——哪怕离 CUDA 还远。
OpenAI Triton:最危险的不是对手,是「中间层」
如果说 ROCm 是正面攻墙,Triton 干的是「把墙架空」。它让开发者用 Python 写 GPU kernel、一次写成可跨 NVIDIA 与 AMD 硬件运行,省掉手工把 CUDA 移植成 HIP 的活。[6] 关键在于它的位置:Triton 已是 PyTorch 2.x 的默认 kernel 层,torch.compile 默认下降到 Triton;vLLM 的注意力后端也用 Triton 写成。[5][7] 这意味着——绝大多数开发者其实已经不直接写 CUDA 了,他们写 PyTorch、写 Triton,CUDA 退到了看不见的底层。
华为 CANN:成熟度换地缘空间
华为把昇腾的 CANN 开源,计划年底前落地,意在出口管制之下托起一个国产 AI 软件生态。[9][10] 它已能经 torch_npu 适配跑 PyTorch 模型。但 CANN 2018 年才起步,对上近二十年持续迭代的 CUDA,成熟度与易用性差距明显,有开发者直言昇腾「难用且不稳定」。[10] 它换来的更多是地缘腾挪空间,而非短期内的生态平替。
四、真正的变量:行业「还需不需要 CUDA」
把三股力量连起来看,会发现一个比「复制 CUDA」更深的转变:问题正在从「能不能写 CUDA」变成「还要不要写 CUDA」。
业内一个被反复印证的观察是:把代码从 CUDA 转出来,已经不再是常见需求——因为多数推理客户用的是 vLLM 或 SGLang,跑的是少数几个主流大模型,目标只有一个:每秒榨出尽可能多的 token。[6][7] 在这种工作流里,CUDA 是不是唯一后端,开发者根本不关心。
这正是 CUDA 锁定最实质的松动来源——不在芯片层,而在模型层:
- 抽象层上移——
torch.compile→ Triton 这条链,把「写给特定硬件的 kernel」变成了编译器的活。开发者面对的是框架,不是 CUDA。[5] - 推理框架标准化——vLLM/SGLang 成了事实标准,它们把「在哪块芯片上跑」抽象成可替换的后端。[7]
- 于是 chips 层的锁定被 models 层架空——CUDA 没有被打败,它只是被挪到了「看不见、也不必在意」的位置。
用「五层蛋糕」的话说:CUDA 是 chips 层与 models 层之间的那道软件黏合剂;当模型层自己长出了通用的抽象,黏合剂就不再是唯一的。
五、英伟达的加固:把墙「加宽」
英伟达当然清楚这一点,它的应对不是把墙修得更高,而是修得更宽——让 CUDA 无处不在,从而把「绕过它」的成本重新抬上去。
- CUDA-X 库持续扩张,把优化算子的护城河延伸到推理、数据科学、生物医药等更多领域;
- 下沉到 PC——Computex 2026 上,英伟达把完整 CUDA 与 RTX 生态随 RTX Spark 芯片搬进 Windows PC,喊出「CUDA 无处不在」,意在让从云端到桌面、到 Jetson 边缘、到机器人,用的都是同一套 CUDA。
这一步的算盘是:当 CUDA 不只是「数据中心训练的标准」,而是从云到端到机器人的跨层标准,开发者要「绕过」它的成本就不止是换个推理后端,而是放弃一整条贯穿五层的工具链。护城河从「深」转向「广」——这与首篇里英伟达「每一层占位、每一层收租」的逻辑,是同一套打法。
六、量级校准与反方(防一边倒)
凿墙是真的,但「墙要塌了」远没到。
- CUDA 仍是默认选项。 它在 AI 开发者中约 80% 的渗透不是一年能逆转的;ROCm 虽在 PyTorch/vLLM 上达到了生产可用,但剩余差距集中在 TensorRT-LLM、FlashAttention 3、NVIDIA NIM 容器,以及任何带 CUDA 专用自定义 kernel 的流水线。[1]
- 「能跑」不等于「好用」。 多家评测的共识是:ROCm 不会一夜补平 CUDA,趋势虽明确,但仍是「一步接一步」。[2][4] CANN 的成熟度差距更大。[10]
- 训练侧几乎没动。 上述松动主要发生在推理;前沿模型的训练,仍高度依赖 CUDA 的成熟工具链与自定义算子。
- 份额预测只是预测。 有云服务商(Tensorwave)预计 AMD 2026 年可拿下 20%~25% 的份额(第三方预测,不代表本文立场)[1]——这类数字反映的是趋势与情绪,不等于既成事实。
所以更准确的说法是:CUDA 不会被「复制」掉,但它「唯一性」的溢价正在被抽象层稀释——尤其在推理这一侧。而唯一性,恰恰是过去支撑英伟达约 75% 毛利率的软实力之一。[13]
七、五层视角:一道「衔接层」的松动
从「五层蛋糕」看,CUDA 的特殊在于它不属于某一层,而是 chips 层与 models 层之间的衔接层。这道衔接层一旦从「唯一」变成「可替换」,传导是双向的:
- 向下(chips)——硬件的差异化更难只靠「软件不兼容」来维持,AMD、华为、乃至各家自研芯片,第一次有了「软件够用」的底气;
- 向上(models)——模型层获得了对硬件的议价权与可移植性,“在哪块芯片上跑”从战略问题降级为工程选项。
这也是「读懂老黄」坚持用五层框架的意义:很多人盯着芯片层的份额之争,但这一代真正的胜负手,可能在那道把芯片与模型粘起来的软件衔接层上。
八、结语
英伟达最深的护城河,依然在它脚下——CUDA 不会在一两年里被谁掀翻。但 2026 年的转变在于:对手们终于不再执着于”造一个更好的 CUDA”,而是合力把行业带到”不必依赖 CUDA”的那一侧。 一个被架空的标准,哪怕仍在运行,溢价也会慢慢褪色。
老黄的反制——让 CUDA 无处不在——是在用「广度」赎回「唯一性」。这堵墙未来是更厚还是更空,取决于推理这条主战场上,开发者最终是继续站在 CUDA 里,还是站在 CUDA 之上。这,正是我们这个系列要替你长期盯住的地方。
延伸阅读
- 本系列首篇:护城河在漏水?老黄的 GPU 帝国,正被一群「自己造芯片」的客户包围 —— 硬件层的围剿与反制。
- 想先搞懂概念:CUDA 是什么 · 百科词条 —— 英伟达最坚固的软件护城河。
- 顺着推理这条主战场往下看:一个 token 几分钱——AI 工厂的推理经济学 —— 本系列第三篇。