searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

时间序列预测模型介绍:PatchTST

2023-09-26 07:52:14
125
0

论文来源

《A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS》,2023 ICLR顶会论文。

模型结构如下:

存在的问题

时间序列预测领域,需要对长时间的数据提取周期性特征,输入数据的维度通常表现出时间尺度长、指标数量少的特点,这种数据的信息密度低,不利于模型有效提取数据的特征。

举一个例子说明:自然语言处理领域,输入的语句通常可以通过转化为one-hot向量,再通过embedding的方法将数据降为512维,如果设定最大句子长度为100,那么输入数据的矩阵尺寸为[100, 512]。在预测领域,输入信号的长度可以自由选定,如果信号采集以5分钟为间隔,一天时长的数据长度为288,监控指标通常在十几个左右,那么输入数据的矩阵尺寸为[288, 20]。与自然语言处理任务相比,数据在每个时间步的维度更小,数据长度更长也导致时间点之间的特征提取困难。

核心思想

需要把数据的长度进行采样,减少数据长度,这样可以增加模型的感受野,但是会降低数据的精度。因此把损失的数据精度,补充在模型的维度层面上,即降低了数据的长度,还增加了数据的维度。

核心方法Patching

  1. 对于多维输入数据[seq_len, n_vals],拆分为若干个单维度数据,每个单维度数据尺寸为[seq_len]
  2. 对每个单维度数据切割,采用patch为长度,按照固定间隔分割为若干份,再组装为二维矩阵[patch_num, patch]
  3. 将每个单维度数据[patch_num, patch]输入给Transformer的Encoder层,获得预测输出
  4. 将每个单维度数据[patch_num, patch]转化回[seq_len]的尺寸,并拼接,获得多维输出数据[seq_len, n_vals]
  5. 经全连接层变化,获得最终输出数据

实验

实验数据可以看出,PatchTST有显著提升。

值得一提的是:论文作者对比了原数据、采样数据并通过增加数据补齐数据长度、使用Patch并增加数据补齐数据长度三种方法,证明了在相同输入数据尺寸下,数据来自的时间线越长、数据的留存精度越高——>模型效果越好(虽然这个结论一直是大家都共知的,但是作者用这方法说明了Patch的理论有效性)

0条评论
0 / 1000
z****n
3文章数
0粉丝数
z****n
3 文章 | 0 粉丝
z****n
3文章数
0粉丝数
z****n
3 文章 | 0 粉丝
原创

时间序列预测模型介绍:PatchTST

2023-09-26 07:52:14
125
0

论文来源

《A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS》,2023 ICLR顶会论文。

模型结构如下:

存在的问题

时间序列预测领域,需要对长时间的数据提取周期性特征,输入数据的维度通常表现出时间尺度长、指标数量少的特点,这种数据的信息密度低,不利于模型有效提取数据的特征。

举一个例子说明:自然语言处理领域,输入的语句通常可以通过转化为one-hot向量,再通过embedding的方法将数据降为512维,如果设定最大句子长度为100,那么输入数据的矩阵尺寸为[100, 512]。在预测领域,输入信号的长度可以自由选定,如果信号采集以5分钟为间隔,一天时长的数据长度为288,监控指标通常在十几个左右,那么输入数据的矩阵尺寸为[288, 20]。与自然语言处理任务相比,数据在每个时间步的维度更小,数据长度更长也导致时间点之间的特征提取困难。

核心思想

需要把数据的长度进行采样,减少数据长度,这样可以增加模型的感受野,但是会降低数据的精度。因此把损失的数据精度,补充在模型的维度层面上,即降低了数据的长度,还增加了数据的维度。

核心方法Patching

  1. 对于多维输入数据[seq_len, n_vals],拆分为若干个单维度数据,每个单维度数据尺寸为[seq_len]
  2. 对每个单维度数据切割,采用patch为长度,按照固定间隔分割为若干份,再组装为二维矩阵[patch_num, patch]
  3. 将每个单维度数据[patch_num, patch]输入给Transformer的Encoder层,获得预测输出
  4. 将每个单维度数据[patch_num, patch]转化回[seq_len]的尺寸,并拼接,获得多维输出数据[seq_len, n_vals]
  5. 经全连接层变化,获得最终输出数据

实验

实验数据可以看出,PatchTST有显著提升。

值得一提的是:论文作者对比了原数据、采样数据并通过增加数据补齐数据长度、使用Patch并增加数据补齐数据长度三种方法,证明了在相同输入数据尺寸下,数据来自的时间线越长、数据的留存精度越高——>模型效果越好(虽然这个结论一直是大家都共知的,但是作者用这方法说明了Patch的理论有效性)

文章来自个人专栏
时间序列预测模型
1 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0