传统的用于时间序列预测的非线性自回归模型（ NRAX ）很难捕捉到一段较长的时间内的数据间的时间相关性并选择相应的驱动数据来进行预测。本文将介绍一种基于 Seq2Seq 模型(Encoder-Decoder 模型)并结合 Attention 机制的时间序列预测方法。作者提出了一种双阶段的注意力机制循环神经网络模型（DA-RNN），能够很好的解决上述两个问题。

模型的第一部分，我们引入输入注意力机制在每个时间步选择相应的输入特征。模型的第二部分，我们使用时间注意力机制在整个时间步长中选择相应的隐藏层状态。通过这种双阶段注意力机制，我们能够有效地解决一些时序预测方面的问题。我们将这两个注意力机制模型集成在基于 LSTM 的循环神经网络中，使用标准反向传播进行联合训练。

2. DA-RNN 模型

2.1 输入与输出

输入：给定 n 个驱动序列（输入特征），$X = （ x^1,x^2,...,x^n ）^T = (x_1,x_2,...,x_T) \in R^{n \times T}$ ，$T$ 表示时间步长，$n$ 表示输入特征的维度。

输出：$\hat{y}{T}= F(y_1,...,y{T-1},x_1,...,x_T)$。$(y_1,...,y_{T-1})$表示预测目标过去的值，其中 $y_t\in R$；$(x_1,...,x_T)$ 为时间 $T$ 内 $n$ 维的外源驱动输入序列，$x_t \in R^n$；$F(\cdot)$ 为模型需要学习的非线性映射函数。

2.2 模型结构

DA-RNN 模型是一种基于注意力机制的 Encoder-Decoder 模型。在编码器部分，我们引入了输入注意力机制来选择相应的驱动序列；在解码器部分，我们使用时间注意力机制来选择整个儿时间步长中相应的隐藏层状态。通过这个两种注意力机制，DA-RNN 模型能够选择最相关的输入特征，并且捕捉到较长时间内的时间序列之间的依赖关系，如图 1 所示。

图 1：DA-RNN 模型结构

2.3 编码器

编码器本质上是一个 RNN 模型，它能够将输入序列转换为一种特征表示，我们称之为隐藏层状态。对于时间序列预测问题，给定输入 $X = (x_1,x_2,...,x_T) \in R^{n \times T},x_t \in R^n$，在时刻 $t$ ，编码器将 $x_t$ 映射为 $h_t$：$h_t = f_1(h_{t-1},x_t)$，$h_t \in R^m$ 表示编码器隐藏层在时刻 $t$ 的状态，$m$ 表示隐藏层的维度，$f_$ 为非线性激活函数，本文中我们使用 LSTM。

本文中，我们提出了一种输入注意力机制编码器。它能够适当地选择相应的驱动序列，这对时间序列预测是至关重要的。我们通过确定性注意力模型来构建一个输入注意力层。它需要将之前的隐藏层状态$h_{t-1}$ 和** LSTM** 单元的** cell **状态 $s_{t-1}$ 作为该层的输入得到： $$e^k_t = v^T_etanh(W_e[h_{t-1};s_{t-1}]+U_ex^k)$$，其中$v_e \in R^T,W_e \in R^{T \times 2m},U_e \in R^{T \times T}$是需要学习的参数。输入注意力层的输出 $(e^1_t,e^2_t,...,e^n_t)$ 输入到 softmax 层得到 $\alpha_t^k$ 以确保所有的注意力权重的和为 1，$\alpha_t^k$ 表示在时刻 $t$ 第 $k$ 个输入特征的重要性。

得到注意权重后，我们可以自适应的提取驱动序列 $\tilde x_t = (\alpha^1_tx^1_t,\alpha^2_tx^2_t,...,\alpha^n_tx^n_t)$，此时我们更新隐藏层的状态为 $h_t = f_1(h_{t-1},\tilde x_t)$。

2.4 解码器

为了预测输出 $\hat y_T$，我们使用另外一个 LSTM 网络层来解码编码器的信息，即隐藏层状态 $h_$。当输入序列过长时，传统的 Encoder-Decoder 模型效果会急速恶化。因此，在解码器部分，我们引入了时间注意力机制来选择相应的隐藏层状态。

与编码器中注意力层类似，解码器的注意力层也需要将之前的隐藏层状态$d_{t-1}$ 和LSTM 单元的cell状态 $s'{t-1}$ 作为该层的输入得到该层的输出： $l^i_t = v^T_dtanh(W_d[d{t-1};s'{t-1}]+U_dh_i)$，其中$v_d \in R^m,W_d \in R^{m \times 2p},U_e \in R^{m \times m}$是需要学习的参数。通过 softmax 层，我们可以得到第 $i$ 个编码器隐藏状态 $h_i$ 对于最终预测的重要性 $\beta^i_t$。解码器将所有的编码器隐藏状态按照权重求和得到文本向量 $c_t = \sum{i=1}^T \beta_t^ih_i$，注意 $c_t$ 在不同的时间步是不同的。

在得到文本向量之后，我们将其和目标序列结合起来得到 $\tilde y_{t-1} = \tilde w^T[y_{t-1};c_{t-1}]+\tilde b$。利用新计算得到的 $\tilde y_{t-1}$，我们来更新解码器隐藏状态 $d_t=f_2(d_{t-1},\tilde y_{t-1})$，我们使用 LSTM 来作为激活函数 $f_2$。通过 DA-RNN 模型，我们预测 $\hat y_T = F(y_1,...,y_{T-1},x_1,...,x_T) = v_y^T(W_y[d_T;c_T]+b_w)+b_v$。

2.5 训练过程

在该模型中，作者使用平均方差作为目标函数，利用 Adam 优化器，min-batch 为 128 来进行参数优化。目标函数： $$O （ y_T,\tilde y_T ）=\frac{1}{N}\sum_{i=1}^N(\hat y^i_T-y_T^i)^2$$

3. 实验

3.1 数据集

本文的作者采用了，两种不同的数据集来测试验证 DA-RNN 模型的效果。这里我们仅对 NASDAQ 100 Stock 数据集进行介绍。作者根据 NASDAQ 100 Stock 收集了 81 家主要公司的股票价格作为驱动时间序列，NASDAQ 100 的股票指数做目标序列。数据收集的频率为一分钟一次。该数据集包含了从 2016 年 7 月 26 日至 2016 年 12 月 22 日总共 105 天的数据。在本实验中，作者使用 35100 条数据作为训练集，2730 条数据作为验证集，以及最后 2730 条数据作为测试集。

3.2 参数设置和评价指标

时间窗口的大小 $T \in {3,5,10,15,25}$。实验表明：T=10 时，模型在验证集上的效果最好。编码器和解码器隐藏层的大小 $m ,p\in{16,32,64,128,256}$。当$m=p=64,128$ 时，实验效果最好。

为评估模型的效果，我们考虑了三种不同的评价指标：RSME，MAE，MAPE。

3.3 模型预测

为展示 DA-RNN 模型的效果，作者将该模型和其他的模型在两个不同的数据集上的预测效果进行了对比，如表 1 所示。由表 1 可以看出，DA-RNN 模型相对于其他模型，误差更小一些。DA-RNN 模型在时间序列预测方面具有良好的表现。 表 1：SML 2010 数据集和纳斯达克 100 股票数据集的时间序列预测结果

为了更好的视觉比较，我们将 Encoder-Decoder 模型，Attention RNN 和 DA-RNN 模型的在纳斯达克 100 股票数据集上的预测结果在图 2 中展示出来。我们不难看出 DA-RNN 模型能更好地反映真实情况。图 3：三种模型在纳斯达克 100 股票数据集上的预测结果

4. 总结

在本文中，我们介绍了一种基于注意力机制的双阶段循环神经网络模型。该模型由两部分组成：Encoder 和 Decoder。在编码器部分，我们引入了输入注意力机制来对输入特征进行特征提取，为相关性较高的特征变量赋予更高的权重；在解码器部分，我们通过时间注意力机制为不同时间 $t$ 的隐藏状态赋予不同的权重，不断地更新文本向量，来找出时间相关性最大的隐藏层状态。Encoder 和 Decode 中的注意力层分别从空间和时间上来寻找特征表示和目标序列之间的相关性，为不同的特征变量赋予不同的权重，以此来更准确地预测目标序列。 项目源码地址：https://momodel.cn/workspace/5da8cc2ccfbef78329c117ed?type=app