是什么

Transformer 是 2017 年由一篇题为《Attention Is All You Need》的论文提出的神经网络架构。它的核心是「自注意力」(self-attention)机制,让模型在处理一段序列时,能够同时衡量每个位置与其他所有位置的关联程度。相比之前的循环网络,这种结构更易于并行计算,也更擅长捕捉长距离依赖。

为什么重要

Transformer 的可并行特性让它能充分利用 GPU 的算力,从而支撑起参数规模不断扩大的模型训练。如今几乎所有主流大语言模型都建立在这一架构之上,它也被推广到图像、音频、蛋白质结构等多种领域。可以说,Transformer 是引发本轮大模型浪潮的关键技术起点之一。

与五层蛋糕的关系

Transformer 位于「五层蛋糕」的「模型」层,是这一层的底层技术范式。它的可并行特性,正是「芯片」层 GPU 算力得以高效转化为模型能力的桥梁;而它催生的强大模型,又为上方「应用」层的各类产品提供了通用能力底座。可以说,它把芯片的算力优势顺畅地传导到了模型与应用。