TimeXer:融合外部变量的时间序列预测新范式


TimeXer:融合外部变量的时间序列预测新范式

TimeXer 是清华大学研究团队在2024年提出的一种创新型时间序列预测模型,它专门设计用于有效融合外生变量(外部因素) 来提升对目标序列(内生变量)的预测精度。该模型基于经典的Transformer架构,通过巧妙的嵌入策略和注意力机制调整,使其能够同时捕捉时间序列的内在模式和外部因素的影响。

核心设计与原理

TimeXer 的核心创新在于其差异化的嵌入策略双注意力机制,解决了传统方法在处理外生变量时面临的挑战。

  1. 差异化的嵌入策略

    • 内生变量嵌入:采用分块(Patching)策略(将时间序列分割为不重叠的片段,每个片段视为一个 token)来捕捉细粒度的时间依赖性,同时引入一个可学习的全局 token 作为整个内生序列的宏观表示。
    • 外生变量嵌入:采用变量级(Variate-level)表示,将每个外生变量的整个序列压缩为一个单一的 token。这种粗粒度表示有效避免了冗余细节和噪声,并天然兼容处理缺失值、时间错位、频率不一致等现实数据的不规则性。
  2. 双注意力机制

    • 内生自注意力:在内生 tokens(时间分块 tokens 和全局 token)间进行。除了捕捉分块间的时序关系(Patch-to-Patch),全局 token 还负责聚合全局信息(Patch-to-Global),并将综合后的信息分发给各时间分块(Global-to-Patch),形成内外信息交互的桥梁。
    • 外生-内生交叉注意力:以内生全局 token 作为查询(Query),外生变量 tokens 作为键(Key)和值(Value)。此机制使模型能自适应地从外生变量中提取与内生序列最相关的信息,并将其通过全局 token 整合到内生序列的表示中。

主要优势

  • 精准的信息融合:通过交叉注意力和全局 token 的桥接作用,模型能更有效地利用外生变量的有用信息,提升预测准确性。
  • 强大的鲁棒性:变量级嵌入使 TimeXer 能更好地处理不规则数据(如外生变量缺失、长度不一、未对齐等),这在真实场景中非常实用。
  • 优异的性能表现:在包括电力、能源、交通等多个领域的12个真实世界数据集上,TimeXer 在短期和长期预测任务中均表现优异,取得了领先(state-of-the-art)的性能
  • 良好的可解释性:通过分析交叉注意力权重,有助于理解不同外生变量对预测结果的影响程度,提供了模型的可解释性。

应用场景

TimeXer 特别适合那些目标序列明显受到外部因素影响的应用场景,例如: * 电力负荷预测:温度、天气条件、节假日信息等作为外生变量。 * 商品需求预测:促销活动、节假日、季节性因素等作为外生变量。 * 金融市场预测:宏观经济指标、市场新闻情绪等作为外生变量。 * 气象预测:多种相关气象指标作为外生变量相互预测。

总结

TimeXer 通过其创新的嵌入设计和注意力机制,为 Transformer 模型在处理包含外生变量的时间序列预测问题上提供了新的思路和强大的解决方案。它不仅在学术 benchmark 上证明了其有效性,也显示出在复杂现实世界中应用的巨大潜力。

需要注意的是,引入外部变量和交叉注意力机制可能会增加模型的计算复杂度。同时,虽然模型对不规则数据有较好的鲁棒性,但外生变量的质量(如缺失过多或完全无关)仍然会对最终预测性能产生重要影响。

对 TimeXer 感兴趣的读者可以进一步阅读其原始论文 TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables 或查看开源代码实现 GitHub - thuml/TimeXer