护城河之二：CUDA 还守得住吗？英伟达最深的那堵墙，与正在凿墙的人

硬件可以重造，软件生态却要重新长出来。英伟达最深的护城河，从来不是某一颗 GPU，而是那套让全世界开发者都离不开它的软件——CUDA。

上一篇《护城河在漏水？》里，我们拆了英伟达硬件被定制 ASIC 围剿的故事，留下一个结论：就算 GPU 份额被蚕食，CUDA 生态仍是英伟达最难被复制的那道墙。 这一篇，我们就来拆这道墙——它到底有多厚、正被谁凿、以及一个比「谁能复制 CUDA」更要命的问题：这个行业，还需不需要 CUDA？

一、先讲清楚：CUDA 为什么是「最深的墙」

CUDA 不是一颗芯片，而是英伟达从 2007 年起、用近二十年时间垒起来的一整套软件栈：编程模型、编译器，以及 cuDNN、cuBLAS、TensorRT 等覆盖深度学习与科学计算的加速库。它把 GPU 从「图形专用芯片」变成了「通用并行计算引擎」，也顺手把全世界的 AI 代码、框架与人才，一并绑在了自己身上。

它的厚度体现在三层叠加：主流框架（PyTorch、TensorFlow）默认跑在 CUDA 上；海量历史代码与算子库是按 CUDA 写的；一整代开发者的肌肉记忆也是 CUDA。三者咬合，迁移成本被推到极高——这正是为什么业内普遍认为，CUDA 的价值不亚于英伟达的硬件本身。今天买一张 AI 加速卡，本质上买的是它背后的软件生态，而不是那块硅。^{^[11]}

落到数字：英伟达在 AI 加速器市场握有约 80% 的份额，而 CUDA 在 AI 开发者中的渗透率长期被引用为同一量级。^{^[1]} 一道二十年的墙，不是一年能拆的。

二、结论先行

一句话：墙还在、而且很厚；但 2026 年，它第一次被三股力量同时凿。真正危险的不是「谁能复制 CUDA」，而是「绕过 CUDA」——当抽象层上移，CUDA 正从『唯一入口』变成『可替换的后端之一』。

拆开看：

三股凿墙力量——AMD 的开源 ROCm、OpenAI 的 Triton（＋PyTorch 编译器）、华为开源的 CANN，路径各异，但都指向同一面墙。^{^[1]^[6]^[8]^[9]}
最致命的一招是「架空」而非「复制」——多数推理负载如今跑在 vLLM、SGLang 这类框架上，开发者只追求「每秒多少 token」，根本不直接碰 CUDA。^{^[6]^[7]}
但护城河远未失守——CUDA 仍是约 80% 开发者的默认选项，剩余的硬骨头（自定义算子、训练侧）短期难被替代。^{^[1]}
英伟达的应对，是把墙「加宽」——用 CUDA-X、下沉 PC 把 CUDA 从「训练标准」做成「从云到端的跨层标准」。

三、凿墙的三股力量（数据模块）

力量	路径	2026 进度	来源
AMD ROCm 7	开源软件栈，硬刚 CUDA	支持 FP4／FP8、推理较上代提速约 3.5×；PyTorch／vLLM day-zero 支持；「ROCm everywhere」铺到 Windows 与消费级 Radeon；MI450 计划 2H2026 出货、拿下 Meta 6GW 大单	^{^[1]^[3]^[12]}
OpenAI Triton ＋ PyTorch	不复制 CUDA，而是把它「架空」	Triton 是 PyTorch 2.x 默认 kernel 层，`torch.compile` 默认下降到 Triton；vLLM 的注意力后端用 Triton 写成，可跨 NVIDIA／AMD 运行	^{^[5]^[6]^[7]}
华为 CANN	国产替代，绕开出口管制	Ascend 的 CUDA 对标栈，计划年底前开源；经 `torch_npu` 适配让 PyTorch 模型跑昇腾；但成熟度与易用性差距仍大	^{^[9]^[10]}

AMD ROCm：从「能跑」到「敢押注」

AMD 的策略是「开源对闭源」。ROCm 7 补上了 FP4／FP8 低精度、给 PyTorch 和 vLLM 做了 day-zero 支持，还把栈铺到 Windows 和消费级 Radeon，让开发者能在游戏 PC 上写、到云上跑。^{^[1]} 更有分量的信号是订单：Meta 为 MI450 押下 6GW 级承诺。^{^[12]} 当一家超大规模厂商敢在这个体量上压注 ROCm，说明它的可靠性已经迈过了某条线——哪怕离 CUDA 还远。

OpenAI Triton：最危险的不是对手，是「中间层」

如果说 ROCm 是正面攻墙，Triton 干的是「把墙架空」。它让开发者用 Python 写 GPU kernel、一次写成可跨 NVIDIA 与 AMD 硬件运行，省掉手工把 CUDA 移植成 HIP 的活。^{^[6]} 关键在于它的位置：Triton 已是 PyTorch 2.x 的默认 kernel 层，torch.compile 默认下降到 Triton；vLLM 的注意力后端也用 Triton 写成。^{^[5]^[7]} 这意味着——绝大多数开发者其实已经不直接写 CUDA 了，他们写 PyTorch、写 Triton，CUDA 退到了看不见的底层。

华为 CANN：成熟度换地缘空间

华为把昇腾的 CANN 开源，计划年底前落地，意在出口管制之下托起一个国产 AI 软件生态。^{^[9]^[10]} 它已能经 torch_npu 适配跑 PyTorch 模型。但 CANN 2018 年才起步，对上近二十年持续迭代的 CUDA，成熟度与易用性差距明显，有开发者直言昇腾「难用且不稳定」。^{^[10]} 它换来的更多是地缘腾挪空间，而非短期内的生态平替。

四、真正的变量：行业「还需不需要 CUDA」

把三股力量连起来看，会发现一个比「复制 CUDA」更深的转变：问题正在从「能不能写 CUDA」变成「还要不要写 CUDA」。

业内一个被反复印证的观察是：把代码从 CUDA 转出来，已经不再是常见需求——因为多数推理客户用的是 vLLM 或 SGLang，跑的是少数几个主流大模型，目标只有一个：每秒榨出尽可能多的 token。^{^[6]^[7]} 在这种工作流里，CUDA 是不是唯一后端，开发者根本不关心。

这正是 CUDA 锁定最实质的松动来源——不在芯片层，而在模型层：

抽象层上移——torch.compile → Triton 这条链，把「写给特定硬件的 kernel」变成了编译器的活。开发者面对的是框架，不是 CUDA。^{^[5]}
推理框架标准化——vLLM／SGLang 成了事实标准，它们把「在哪块芯片上跑」抽象成可替换的后端。^{^[7]}
于是 chips 层的锁定被 models 层架空——CUDA 没有被打败，它只是被挪到了「看不见、也不必在意」的位置。

用「五层蛋糕」的话说：CUDA 是 chips 层与 models 层之间的那道软件黏合剂；当模型层自己长出了通用的抽象，黏合剂就不再是唯一的。

五、英伟达的加固：把墙「加宽」

英伟达当然清楚这一点，它的应对不是把墙修得更高，而是修得更宽——让 CUDA 无处不在，从而把「绕过它」的成本重新抬上去。

CUDA-X 库持续扩张，把优化算子的护城河延伸到推理、数据科学、生物医药等更多领域；
下沉到 PC——Computex 2026 上，英伟达把完整 CUDA 与 RTX 生态随 RTX Spark 芯片搬进 Windows PC，喊出「CUDA 无处不在」，意在让从云端到桌面、到 Jetson 边缘、到机器人，用的都是同一套 CUDA。

这一步的算盘是：当 CUDA 不只是「数据中心训练的标准」，而是从云到端到机器人的跨层标准，开发者要「绕过」它的成本就不止是换个推理后端，而是放弃一整条贯穿五层的工具链。护城河从「深」转向「广」——这与首篇里英伟达「每一层占位、每一层收租」的逻辑，是同一套打法。

六、量级校准与反方（防一边倒）

凿墙是真的，但「墙要塌了」远没到。

CUDA 仍是默认选项。 它在 AI 开发者中约 80% 的渗透不是一年能逆转的；ROCm 虽在 PyTorch／vLLM 上达到了生产可用，但剩余差距集中在 TensorRT-LLM、FlashAttention 3、NVIDIA NIM 容器，以及任何带 CUDA 专用自定义 kernel 的流水线。^{^[1]}
「能跑」不等于「好用」。 多家评测的共识是：ROCm 不会一夜补平 CUDA，趋势虽明确，但仍是「一步接一步」。^{^[2]^[4]} CANN 的成熟度差距更大。^{^[10]}
训练侧几乎没动。 上述松动主要发生在推理；前沿模型的训练，仍高度依赖 CUDA 的成熟工具链与自定义算子。
份额预测只是预测。 有云服务商（Tensorwave）预计 AMD 2026 年可拿下 20%～25% 的份额（第三方预测，不代表本文立场）^{^[1]}——这类数字反映的是趋势与情绪，不等于既成事实。

所以更准确的说法是：CUDA 不会被「复制」掉，但它「唯一性」的溢价正在被抽象层稀释——尤其在推理这一侧。而唯一性，恰恰是过去支撑英伟达约 75% 毛利率的软实力之一。^{^[13]}

七、五层视角：一道「衔接层」的松动

从「五层蛋糕」看，CUDA 的特殊在于它不属于某一层，而是 chips 层与 models 层之间的衔接层。这道衔接层一旦从「唯一」变成「可替换」，传导是双向的：

向下（chips）——硬件的差异化更难只靠「软件不兼容」来维持，AMD、华为、乃至各家自研芯片，第一次有了「软件够用」的底气；
向上（models）——模型层获得了对硬件的议价权与可移植性，“在哪块芯片上跑”从战略问题降级为工程选项。

这也是「读懂老黄」坚持用五层框架的意义：很多人盯着芯片层的份额之争，但这一代真正的胜负手，可能在那道把芯片与模型粘起来的软件衔接层上。

八、结语

英伟达最深的护城河，依然在它脚下——CUDA 不会在一两年里被谁掀翻。但 2026 年的转变在于：对手们终于不再执着于”造一个更好的 CUDA”，而是合力把行业带到”不必依赖 CUDA”的那一侧。 一个被架空的标准，哪怕仍在运行，溢价也会慢慢褪色。

老黄的反制——让 CUDA 无处不在——是在用「广度」赎回「唯一性」。这堵墙未来是更厚还是更空，取决于推理这条主战场上，开发者最终是继续站在 CUDA 里，还是站在 CUDA 之上。这，正是我们这个系列要替你长期盯住的地方。

一、先讲清楚：CUDA 为什么是「最深的墙」

二、结论先行

三、凿墙的三股力量（数据模块）

AMD ROCm：从「能跑」到「敢押注」

OpenAI Triton：最危险的不是对手，是「中间层」

华为 CANN：成熟度换地缘空间

四、真正的变量：行业「还需不需要 CUDA」

五、英伟达的加固：把墙「加宽」

六、量级校准与反方（防一边倒）

七、五层视角：一道「衔接层」的松动

八、结语

延伸阅读

参考来源

一、先讲清楚：CUDA 为什么是「最深的墙」

二、结论先行

三、凿墙的三股力量（数据模块）

AMD ROCm：从「能跑」到「敢押注」

OpenAI Triton：最危险的不是对手，是「中间层」

华为 CANN：成熟度换地缘空间

四、真正的变量：行业「还需不需要 CUDA」

五、英伟达的加固：把墙「加宽」

六、量级校准与反方（防一边倒）

七、五层视角：一道「衔接层」的松动

八、结语

延伸阅读

参考来源

同系列往期

相关百科

相关每日新闻