分类目录归档:Books

批处理特征工程-流式特征工程


在机器学习中,特征工程是将原始数据转换为模型可用特征的关键步骤。根据数据处理的方式,特征工程主要分为批处理特征工程和流式特征工程。

批处理特征工程:

批处理特征工程指的是在离线环境中对数据进行处理,通常在模型训练前完成。这种方法适用于数据量相对较小或对实时性要求不高的场景。其优点是处理速度较快,易于实现复杂的特征转换和组合。然而,缺点是无法实时反映数据的最新变化,可能导致模型在实际应用中性能下降。

流式特征工程:

流式特征工程是在数据流入的同时,实时地对数据进行处理和特征提取。这种方法适用于需要实时预测和快速响应的场景,如金融风控、在线推荐等。其优点是能够及时捕捉数据的最新变化,确保模型...

Read more

流数据


流数据(Streaming Data)是指以连续、实时、动态的方式生成和传输的数据流。这类数据通常具有高速度、无界性(理论上无限持续)和时序性的特点,广泛应用于实时分析、监控、物联网、金融交易等场景。


流数据的核心特点

  1. 实时性
  2. 数据持续生成并需要即时处理(如传感器数据、社交媒体动态、交易记录)。
  3. 处理延迟通常在毫秒到秒级。

  4. 无界性

  5. 数据流理论上没有终点,需按时间窗口或事件触发处理(如每分钟统计点击量)。

  6. 高吞吐量

  7. 数据生成速率快(如IoT设备每秒上万条数据),要求系统具备高并发处理能力。

  8. 时序性

  9. 数据按时间顺序到达,处理时需考虑事件时间(Eve...

Read more