在实际深度学习时序预测中,“数据量小/大”没有绝对标准,但有一些经验参考:
数据量小:
通常指样本数低于几千条(如<2000~3000),或者训练集天数少于1年(A股5分钟数据一天48条,1年约1万条)。 特征维度多时,样本数/特征数比值低于10~20,也算偏小。 小数据下,复杂模型(如一次性多步Seq2Seq)容易过拟合,递归单步预测更稳健。 数据量大:
样本数达到几万条以上(如>10000~20000),或训练集覆盖2年以上。 特征维度不多时,样本数/特征数比值高于50~100。 大数据下,一次性多步预测模型能学到更复杂的时序关系,效果更好。 预测步数(序列长度):
短步...