是什么
DeepSeek 是一家来自中国的人工智能公司,专注于大语言模型的研发,并以发布开源或开放权重的模型而受到关注。它的多款模型在公开评测中展现出有竞争力的能力,同时强调在训练与推理上的成本效率,常被视为「在有限算力下做强模型」路线的代表。
为什么重要
DeepSeek 引发广泛讨论的关键,在于它推动了关于「训练顶尖模型究竟需要多少算力」的重新审视。其相对高效的做法,提示模型能力不只取决于堆叠算力,也取决于数据、架构与工程优化。开放权重的策略也让更多开发者能够在其基础上构建应用,影响了开源与闭源路线的竞争格局。
与五层蛋糕的关系
DeepSeek 位于「五层蛋糕」的「模型」层。它向下依赖「基础设施」与「芯片」层提供算力,但其效率导向的路线,正是在探讨这层对下层算力的依赖能压缩到何种程度。向上,它通过开放模型为「应用」层提供可自由调用与微调的基础,丰富了模型层的供给生态。