Transformer 是一种基于 Self-Attention 机制的深度学习模型架构,主要用于处理序列到序列(Seq2Seq)任务,广泛应用于自然语言处理(NLP)和其他领域(如计算机视觉、语音处理等)。它是由 Vaswani 等人于 2017 年提出的,其论文《Attention is All You Need》介绍了这一新型架构,Transformer 彻底改变了 NLP 领域,成为许多先进模型(如 BERT、GPT、T5、BART 等)的基础。
1. Transformer 架构概述
Transformer 架构的核心思想是 完全基于注意力机制,而不依赖于传统的递归神经网络(R...