BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformer架构的预训练语言模型,通过双向上下文建模在多项NLP任务中取得突破性进展。以下是对BERT架构的详细解析:
1. 核心架构
BERT基于Transformer编码器堆叠而成,主要特点包括: - 双向性:通过自注意力机制同时捕捉上下文信息。 - 多层堆叠:Base版(12层)和Large版(24层)分别包含不同规模的参数。 - 多头注意力:Base版12个头,Large版16个头,增强模型对不同语义子空间的关注能力。