特征工程(Feature Engineering)是机器学习中至关重要的一步,旨在通过从原始数据中提取、转换和选择特征,提升模型的性能。特征工程的质量直接影响模型的预测能力和泛化能力。以下是特征工程的主要步骤和方法:
1. 特征提取
从原始数据中提取有用的信息,生成特征。 - 结构化数据:从表格数据中提取列作为特征。 - 非结构化数据(如文本、图像、音频): - 文本:TF-IDF、词袋模型、词嵌入(Word2Vec、BERT)。 - 图像:像素值、边缘检测、卷积特征。 - 时间序列:滑动窗口统计、傅里叶变换。
2. 特征清洗
处理数据中的噪声和异常值,确保特征质量。 -...