作者文章归档:course

流数据


流数据(Streaming Data)是指以连续、实时、动态的方式生成和传输的数据流。这类数据通常具有高速度、无界性(理论上无限持续)和时序性的特点,广泛应用于实时分析、监控、物联网、金融交易等场景。


流数据的核心特点

  1. 实时性
  2. 数据持续生成并需要即时处理(如传感器数据、社交媒体动态、交易记录)。
  3. 处理延迟通常在毫秒到秒级。

  4. 无界性

  5. 数据流理论上没有终点,需按时间窗口或事件触发处理(如每分钟统计点击量)。

  6. 高吞吐量

  7. 数据生成速率快(如IoT设备每秒上万条数据),要求系统具备高并发处理能力。

  8. 时序性

  9. 数据按时间顺序到达,处理时需考虑事件时间(Eve...

Read more

批量/离线推理


批量/离线推理架构主要用于按照预先设定的调度,对一批数据进行预测分析,以下从数据处理流程、组件构成、优势与挑战等方面介绍:

数据处理流程

  1. 数据收集与存储:从各种数据源(如数据库、文件系统、日志文件等)收集待处理的数据,并存储在数据仓库或分布式文件系统中,如Hadoop分布式文件系统(HDFS)。这些数据可以是历史积累的,也可以是在特定时间段内收集的。
  2. 数据预处理:对收集到的数据进行清洗、转换和特征工程等预处理操作。例如,处理缺失值、异常值,将数据进行归一化、编码等转换,提取或构造有助于模型预测的特征。
  3. 模型加载:将已经训练好的机器学习或深度学习模型加载到推理环境中。这些模型可以是在大规...

Read more