一、定义
-
词袋模型(Bag of Words,简称BoW)是自然语言处理(NLP)中一种简单但非常基础且重要的文本表示方法。它将文本看作是一个无序的单词集合,忽略单词的语法和词序信息,只关注单词在文本中出现的频率。
-
例如,对于句子“我爱自然语言处理”和“自然语言处理很有趣,我喜欢它”,在词袋模型下,重点关注的是“我”“爱”“自然语言处理”“很有趣”“喜欢”这些单词出现的次数。这两个句子可以表示为一个词频向量,如[2,2,2,1,1](假设按照上述单词顺序统计词频),其中数字分别代表这些单词在这两个句子组合中的出现次数。
二、构建步骤
- 词汇表构建
- 首先需要构建一个词汇表,这个...