词干提取(Stemming) 是自然语言处理(NLP)中的一种文本预处理技术,旨在将一个词汇的不同变形形式(如动词时态、名词复数形式等)归约为它们的“词干”或基本形式。词干提取的主要目标是将具有相同词根意义的词语归为同一类,以便进一步处理和分析。
1. 词干提取的原理
词干提取通过去除词尾的变化部分,简化词语。这个过程通常不会保留完整的语法或拼写规范,而是通过简单的规则或算法去除词尾后缀,从而得到一个“词干”。这些词干可能并不总是实际的词形,但它们有助于文本分析时的归类和匹配。
例如: - 动词:run, runs, running → run - 名词:cats, cat's → ca...