AutoML 中用于时序预测的滞后特征

本文重点介绍 AutoML 为预测回归模型创建滞后性和滚动窗口聚合特征的方法。 这些使用既往信息的特征可以帮助模型及时学习相关模式,从而大幅提高准确度。 有关 AutoML 中预测方法的一般信息,请参阅方法概述文章。 有关在 AutoML 中训练预测模型的说明和示例,请参阅为时序预测设置 AutoML 一文。

滞后特征示例

AutoML 根据预测边际生成滞后性。 本部分中的示例将演示此概念。 在此处,我们将使用预测边际 3 和目标滞后阶数 1。 考虑以下每月时序:

表 1:原始时序

日期 $y_t$
1/1/2001 0
2/1/2001 10
3/1/2001 20
4/1/2001 30
5/1/2001 40
6/1/2001 50

首先,我们仅为边际 $h=1$ 生成滞后特征。 随着你继续阅读,可以清楚地知道我们为何要使用每个表中的单个边际。

表 2:$h=1$ 的滞后特征化

日期 $y_t$ $y_{t-1}$ $h$
1/1/2001 0 12/1/2000 - 1
2/1/2001 10 1/1/2001 0 1
3/1/2001 20 2/1/2001 10 1
4/1/2001 30 3/1/2001 20 1
5/1/2001 40 4/1/2001 30 1
6/1/2001 50 5/1/2001 40 1

表 2 是在表 1 的基础上通过将 $y_t$ 列下移一个观察项生成的。 我们添加了一个名为 Origin 的列,其中包含滞后特征的来源日期。 接下来,我们仅为预测边际 $h=2$ 生成滞后特征。

表 3:$h=2$ 的滞后特征化

日期 $y_t$ $y_{t-2}$ $h$
1/1/2001 0 11/1/2000 - 2
2/1/2001 10 12/1/2000 - 2
3/1/2001 20 1/1/2001 0 2
4/1/2001 30 2/1/2001 10 2
5/1/2001 40 3/1/2001 20 2
6/1/2001 50 4/1/2001 30 2

表 3 是在表 1 的基础上通过将 $y_t$ 列下移两个观察项生成的。 最后,我们仅为预测边际 $h=3$ 生成滞后特征。

表 4:$h=3$ 的滞后特征化

日期 $y_t$ $y_{t-3}$ $h$
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 3/1/2001 20 3

接下来,我们将表 1、2 和 3 串联起来并重新排列行。 结果如下表所示:

表 5:完整的滞后特征化

日期 $y_t$ $y_{t-1}^{(h)}$ $h$
1/1/2001 0 12/1/2000 - 1
1/1/2001 0 11/1/2000 - 2
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 1/1/2001 0 1
2/1/2001 10 12/1/2000 - 2
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 2/1/2001 10 1
3/1/2001 20 1/1/2001 0 2
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 3/1/2001 20 1
4/1/2001 30 2/1/2001 10 2
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 4/1/2001 30 1
5/1/2001 40 3/1/2001 20 2
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 4/1/2001 40 1
6/1/2001 50 4/1/2001 30 2
6/1/2001 50 3/1/2001 20 3

在最后一个表中,我们已将滞后列的名称更改为 $y_{t-1}^{(h)}$,以反映滞后性是根据特定边际生成的。 该表显示,我们根据边际生成的滞后性可以对应于前面表中生成滞后性的传统方式。

表 5 是由 AutoML 应用于训练数据,以便能够从回归模型直接预测的数据扩充示例。 当配置包含滞后特征时,AutoML 会创建边际相关的滞后性,以及整数值边际特征。 这样,AutoML 的预测回归模型就可以在边际 $h$ 处做出预测,而无需考虑 $h-1$ 处的预测,这与递归定义的模型(例如 ARIMA)形成了对比。

注意

生成边际相关的滞后特征会将新行添加到数据集。 新行数与预测边际成正比。 这种数据集大小增长可能导致较小的计算节点出现内存不足错误,或者在数据集大小已经很大时出现此类错误。 有关此问题的解决方法,请参阅常见问题解答一文。

此滞后策略的另一个后果是,滞后阶数和预测边际是分离的。 例如,如果预测边际为 7,而你希望 AutoML 使用滞后特征,则无需将滞后阶数设置为 7 即可确保基于整个预测边际进行预测。 由于 AutoML 根据边际生成滞后性,你可以将滞后阶数设置为 1,这样,AutoML 将扩充数据,使任何阶数的滞后性在不超过预测边际的情况下都是有效的。

后续步骤