Loading... # 论文研读 #2: 面向时空图建模的图小波卷积神经网络模型 <button class="btn m-b-xs btn-info btn-addon" onclick='window.open("https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2021&filename=RJXB202103009&v=ed6oAmHPQrIWvMJ6NfsQlh9169L14ho5hqz8q0Pj4EgSMRRAaY51KWX%25mmd2Bvq%25mmd2FLr8TJ","_blank")'><i><i data-feather="external-link"></i></i>CNKI</button> > **标题**: 面向时空图建模的图小波卷积神经网络模型 > **作者**: 姜山, 丁治明, 朱美玲, 严瑾, 徐馨润 > **通讯作者**: 丁治明 (zhiming@iscas.ac.cn) > **单位**: 中国科学院大学, 中国科学院 ## Abstract 面向时空图建模的图小卷积神经网络模型(GWNN-STGM)通过设计图小卷积神经网络层和堆叠的扩张因果卷积网络层, 克服了传统时空图建模方法中灵活性低和无法捕获长时时空趋势的缺点. ### Some Question 1. 传统的时空图建模方法是怎样实现的 2. 为什么传统的时空图建模方法灵活性较低, 不能捕获节点间的长时时空趋势 3. 图小波卷积神经网络层的实现过程, 引入自适应邻接矩阵进行节点嵌入学习的作用是什么 4. 扩张的因果卷积网络层的实现过程, 为什么有效 ## Introduction ### 时空图建模 时空图建模(spatiotemporal graph modeling, STGM)是分析系统中各个组件的空间关系和时间趋势的一项重要技术. - 时空图中: 每个节点都有**动态的输入特征**. - 时空图建模的目标: 给定图结构, 对每个节点的动态特征进行建模 - 时空图建模通常用于: 城市道路交通参数预测, 出租车需求量预测, 行为识别等. - 处理图结构数据的神经网络模型的思想来自于: CNN, RNN, DAE. 时空图建模是通过图中节点间的依赖关系构建图节点的动态输入. 文章中以城市道路短时交通速度和流量预测为例子, 将城市交通探测系统看做成一个图结构, 描述了各个节点之间的相互依赖关系. ### 当前发展 图结构本身就拥有丰富的**空间属性模式**, 加上**时间依赖**就会变成**时空图结构**. 因此时空图建模的核心问题是:同时捕捉空间和时间的相关性. 传统方法有以下几个问题: - 通常集中在图结构的关系型建模或节点级的时序建模其中一个上, 忽略了空间(时间)关联关系; - 现实世界中, 各个网络节点收到历史状态累计的影响, 无法捕获长时间的时空趋势. ### 解决方案 针对**静态网络场景的时空图建模**, 需要满足以下两个要求: - 同时捕获隐藏的时空依赖关系 - 进行针对预测 文章提出了面向时空图建模的图小波卷积神经网络模型(GWNN-STGM): - 设计图小波卷积神经网络层 - 在图小波卷积神经网络层引入自适应邻接矩阵进行节点嵌入学习 - 采用堆叠的扩张因果卷积来捕获图节点的事件相关性 ## 综述 ### 时空图建模 STGM是分析系统中各组件空间关系和时间趋势的一项重要技术, 建模过程中, 我们总会假设各个对象之间的显式连接关系是预先确定的. 现有方法通过捕捉固定图形结构的依赖性, 但是存在一定缺点: - 不能够真实的反应节点之间的依赖关系 - 会丢失隐藏的空间连接关系 目前对时空图建模研究的两个方向: 将GCN集成到RNN中, 将GCN集成到CNN中. 这两种方法也存在一定的缺点: - 没有考虑到没有节点间存在连接但存在以来的情况 - 不能有效地捕获时间相关性特性 动态图能够动态建模, 但需要动态记录每个时间戳下的图结构, 对于结构不明显变化的应用场景, 动态图建模是不合适的. ### CNN 图卷积网络有两种主流: - 基于频谱的方法 从图信号处理的角度引入滤波器来定义图卷积. 图卷积操作被定义为从图信号中去除噪声. - 基于空间的方法 从图中节点邻域聚合节点的特征信息, 并进行特征更新. 上面的两种方法中, 图的邻接矩阵通常被认为是先验知识, 以结构的形式存在且在训练中是固定不变(或经常不变)的, 但因为时空图的输入经常是动态的, 因此这种建模方法不能同时捕获空间和时间的相关性. ### 图小波卷积神经网络 基于空间的方法的图卷积神经网络仍存在难于确定合适的邻域大小这一问题. 基于空间的方法能够解决上述问日, 是通过图傅里叶变换和卷积定理 定义卷积操作. 但图傅里叶变换中, Laplacian矩阵的特征分解是十分麻烦耗时的. 通过图小波变换替换傅里叶变换, 能够降低神经网络的计算资源消耗, 优点: 1. 不需要对Luplacian进行特征分解就能得到图小波矩阵, 效率提升 2. 图小波矩阵是稀疏的, 可以使用稀疏运算库, 效率提升 3. 图小波网络有局部化特性, 反映了每个节点为中心的信息扩散. 但是图小波模型仍然存在缺乏时空图建模的能力. ### 时空图网络 时空图建模方法可以划分两类: - 基于RNN构建的图卷积递归神经网络 - 基于CNN构建的图卷积递归神经网络 这两种网络都需要进行多层叠加或者使用图的池化扩大图卷积神经网络模型的感受野, 带来了更大的计算消耗. ## 实验设计 ### 图谱卷积层 与基于图傅里叶变换定义的图卷积操作相比, 基于图小波变换定义图卷积具有更高的计算效率. 为了学习**时空图的空间依赖项**和**图小波卷积网络隐藏层的空间依赖项**, 通过定义自适应邻接矩阵并将其引入到图小波卷积层中, 无需图的结构先验信息, 直接从数据集中自学习. 自适应邻接矩阵定义: $$ \tilde{A}_{dy}=\alpha(\text{ReLU}(U_s U_t^T)) $$ 其中, $U_s \in R^{n \times r}$ 是目标节点信息的动态嵌入矩阵, $U_s U_t^T$ 是源节点与目标节点. $\alpha$ 为 soft-max函数, 作用是消除弱空间依赖. 图小波卷积层公式如下: $$ Z=\sum^M_{m=0} \tilde{P}_m'XW_{m1}+\tilde{A}^m_{dy}XW_{m2} $$ 其中, 加号的前半部分表示图信号向邻域扩散的有限步骤. 当图结构不可用的时候, 可以单独使用自适应邻接矩阵来部或隐藏的空间相关性: $$ Z = \sum^M_{m=0}\tilde{A}^m_{dy}XW_{m} $$ 通过汇聚来自不同阶邻域的变换特征信息, 捕获空间的相关性. ### 时间卷积层 时空图建模的另一个任务是进行时间相关性的建模. 使用扩展因果卷积(dilated causal convolution, DCC)作为时间卷积层来捕捉图节点的时间趋势. 在DCC中, 通过增加网络层深度来获得指数级增长的感受野, 可以有效扩大对时序序列数据处理的历史范围. DCC相较于基于RNN的方法, DCC具有明显的优势, 能够以非递归的方式处理长时序列数据, 却有利于并行加速运算. 缓解了梯度爆炸了问题. ### 架构 架构如下: - 输入层 - 第 $l$ 卷积层 - 门控时间卷积计算 - 图小波卷积计算 - 输出层 采用MAE作为模型目标函数: $$ \text{Loss}=\frac{1}{ndN} \sum^N_{i=1}\sum^{n}_{j=1}\sum^d_{k=1}\left\vert \tilde{Y}^{t+1}_{jk} - Y^{t+1}_{jk} \right\vert $$ ## 实验数据与结果分析 ### 数据 文章使用了公共交通网络数据集对模型进行验证: - METR-LA - PEMS-BAY 数据按照采样时间顺序对网络节点属性特征数据进行提取. 通过验证:测试=7:1.2的比率策略对数据集进行划分, 并在训练过程中对数据进行shuffle处理. ### 结果分析 实验与ARIMA, DCRNN, STGCN, Graph WaveNet模型作为参考基准模型进行对比试验. 将MAE, MAPE, RMSE作为这三种度量函数为模型性能的评估度量. #### 模型性能对比分析 ![](/usr/uploads/2021/08/333598573.png) 可以看到文章模型对ARIMA模型有很大的优势. 预测的MAE数值比ARIMA要低49.71%, 43.44%. 在Graph Wavenet模型上中在15分钟是有较小的提升, 只降低了0.01, 而在60分钟的预测时长窗口下提升MAE降低了0.05和0.8. 可以得出文章的模型具有更大的时空作用域. #### 自适应邻接矩阵模型作用分析 引入自适应邻接矩阵后, 预测窗口为5分钟的MAE与未引入差别不大, 而对着预测窗口时间的增加, 引入矩阵 $\tilde{A}_{dy}$ 的模型性能优势较为明显. #### 图小波变换矩阵的稀疏性分析 ![](/usr/uploads/2021/08/309463175.png) 根据图标可以发现, 图小波变换矩阵 $\psi^{-1}$ 的非零元素占比比傅里叶变换矩阵 $U^{T}$ 的非零元素占比要小很多. 因此图小波变换矩阵的加快了运算速度. #### 尺度因子大小对模型的影响 图小波卷积层中, 尺度因子 $s$ 控制每个节点信息扩散邻域的大小. 文章统计了 $s=1,2,3,5,10,15,20$ 时模型在数据集上MAE的性能曲线. ![](/usr/uploads/2021/08/3560489615.png) ![](/usr/uploads/2021/08/2274779216.png) 可以发现不同尺度因子 $s$ 对模型进行较大预测窗口中, 大于45分钟是对MAE的影响有十分的明显的差异. 可以得出结论: 选用合适的尺度参数, 对性能有积极的影响作用. 文章提出 $s=1$, $s=15$ 时, MAE曲线去向一致. $s=1$ 可以作为因子无法确定时的最佳选择. #### 模型抗干扰对比分析 文章通过过去1小时时段($12 \times 5$) 的观测值来预测下一小时的特征, 窗口设置为12. 设置4组对比实验: - 在整个输入窗口期添加0均值高斯噪声 - 在历史时间点6添加非高斯噪声 - 在历史时间点1, 6, 12添加非高斯噪声 - 在全部历史时间点添加非高斯噪声 ![](/usr/uploads/2021/08/1272464458.png) 可以发现, 模型对长时预测具有一定的抗干扰性, 而对短时预测的抗噪声能力较弱. ## 总结 基于时空图建模的图小波卷积神经网络, 将两者结合在一起, 成功捕获了时空图节点间属性特征的时空相关性. 模型可以有效得对交通信息得到有效的预测, 可以对长时预测有一定的抗干扰能力. 但是对于短时预测的抗干扰性仍然较弱. 最后修改:2021 年 08 月 28 日 © 允许规范转载 赞 0 如果觉得我的文章对你有用,请随意赞赏