词形还原(Lemmatization) 是自然语言处理(NLP)中的一个重要预处理步骤,它旨在将词语的各种变形形式归约为其“词根”或“词典形式”,通常也称为“词元”或“基本形式”。与词干提取(Stemming)不同,词形还原考虑到词语的语法和上下文信息,确保还原后的词汇是语言中实际存在的词语。
1. 词形还原的原理
词形还原的目的是通过理解词汇的语法和词性来找到其最基本的形式。例如: - 动词的时态变化:running → run(动词的原形) - 名词的复数形式:cats → cat(单数形式) - 形容词的比较级和最高级:better → good(原级)
与词干提取不同,词形还原不...