物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)

摘要
随着物联网及人工智能技术的快速发展,对交通数据进行精准的分析和预测成为智慧交通的首要环节。近年来,交通预测方法逐渐从经典的模型驱动转变为数据驱动,然而,如何通过大数据有效分析路网的时空特性是预测过程中面临的关键难题之一。时空大数据分析是交通预测的利器,将交通路网建模为图网络,将深度学习方法在图网络上进行扩展,通过图神经网络建立时空预测模型,采用图卷积的方式有效地获取路网传感器节点之间的时空相关性,可以显著提高交通预测模型的精度。针对图神经网络驱动的交通预测技术进行了探索,基于深度时空特性分析提炼了两大类交通预测模型,并通过实例进行分析和验证,探讨了图神经网络在交通预测领域的技术优势和主要挑战,挖掘了图神经网络预测机制的潜在研究方向。
关键词: 交通预测 ; 图神经网络 ; 时空相关性 ; 同步卷积 ; 图注意力网络
1 引言
近年来,城市车辆数量的急增引发了交通事故、交通拥堵等一系列安全问题,提高通行效率是城市交通发展的重要方向。在物联网时代的大背景下,城市交通逐渐向智能化、网联化[1]、绿色化等方向发展。智能交通系统(ITS, intelligent transportation system)充分利用人工智能、边缘计算[2]、物联网、传感网、移动通信[3]等前沿技术,可实现车辆对道路交通态势的智慧感知及人、车、路等要素的高效协同[4]。而交通预测是实现ITS的首要环节,也是助力交通控制、路径优化、车辆调度等各种应用的必要条件。交通事故、高峰拥堵等事件的频繁发生使交通状况随时间动态变化,导致了时间序列的非平稳性;另外,路网上布置的传感器之间存在着复杂的空间依赖性,即使两个传感器在欧几里得空间中的距离较近,也可能呈现完全不同的交通状态。因此,要获得准确的交通预测结果,必须同时解决时间相关性和空间相关性这两大交通预测挑战。
交通预测方法分类及优缺点见1。典型的交通预测方法主要有两大类,即模型驱动方法和数据驱动方法。模型驱动方法主要研究流量、速度和密度之间的瞬时和稳态关系,其主要依赖先验知识进行系统建模[5],如交通速度模型、排队论模型等。但实际道路中的交通态势易受交通事故、天气状况等多种因素的影响,很难用固定的模型模拟实际的交通状况。因此,随着交通物联网及大数据技术的快速发展,研究人员逐渐将注意力转向数据驱动方法。数据驱动方法主要根据数理统计分析法进行预测[6],早期有历史平均分析预测法,它将历史数据的平均值作为最终预测值,这种方法虽然计算简单但预测精度较低。随后,又出现了统计分析和机器学习两大类数据驱动预测模型。
经典的统计分析模型对历史数据进行分析,然后利用回归函数进行预测,主要有线性回归预测法、自回归综合移动平均(ARIMA,auto-regressive integrated moving average)法[7]、卡尔曼滤波分析预测法[8]等。统计分析法虽然算法和模型简易,实现方便,但其主要建立在时间序列数据平稳的假设前提下。由于交通数据具有极强的动态性和高度非线性,统计分析模型不能有效地分析未来交通状况的发展态势。机器学习模型通过提取与交通相关的特征并对模型进行训练,可以用于非线性数据的模型构建,同时降低预测误差。常用的机器学习模型有 K 近邻、支持向量回归、人工神经网络等。Dell'Acqua 等[9]设计了一种时间感知多元近邻回归的预测方法。Luo等[10]将离散傅里叶变换和支持向量回归相结合,提出了一种混合预测方法。传统的机器学习模型依赖于人工提取的交通特征,虽然可以对非线性关系进行建模,但在捕捉时间特征时,其模型架构浅易、参数有限且计算效率较低致使其仅限于交通状况简单或交通数据规模较小的场景。近年来,前馈神经网络、深度信念网络、递归神经网络(RNN, recurrent neural network)等深度学习模型被广泛用于各种复杂关系的预测任务中,RNN作为一种特殊设计的神经网络,能够学习交通数据的长期时间相关性。Duan等[11]将RNN的变体长短期记忆网络(LSTM, long short-term memory)用于出行时间的预测。Wang等[12]结合LSTM和高斯过程回归对网络流量负荷进行预测。然而这些模型只考虑了交通大数据的时间特性,对路网结构中存在的空间特性考虑不足。
随着深度学习在图网络领域的发展,从时空特征的分析角度研究交通预测势在必行。卷积神经网络(CNN, convolutional neural network)和RNN是提取时空相关性的典型方法。Han等[13]提出了一种大规模路网中短期预测的深度学习框架,通过基于CNN的深度聚类方法提取道路的形状特征,并在此基础上建立了基于RNN的深度预测模型。但CNN只能处理欧几里得域中的图像数据,路网符合一个非欧几里得空间的数据结构,这必然限制了 CNN的能力。图神经网络(GNN, graph neural network)[14,15,16,17]是一种在图域上运行的基于深度学习的扩展方法,它能够从底层数据中提取出网络中复杂的关联性,且在自然语言处理、推荐系统等任务上表现良好。随后GNN逐渐被用于交通领域,GNN分为图卷积网络(GCN, graph convolutional network)、图注意力网络(GAT, graph attention network)、图自动编码器、图生成网络和图时空网络等五大类[15]。Kipf等[18]采用了图卷积网络对图数据进行半监督学习,但该方法仍然不能同时捕获路网的时空特征及动态相关性。Li等[19]将道路结构整合为一张有向的路网拓扑图,提出了一种扩散卷积递归神经网络(DCRNN,diffusion convolutional recurrent neural network)模型,模型使用扩散卷积网络和门控递归单元(GRU,gated recurrent unit)分别捕获路网中的空间相关性和时间相关性。DCRNN 和时空图卷积网络(STGCN, spatio-temporal graph convolutional network)[20]作为最早的基于图的交通预测模型,通过结合GCN和RNN模型捕获路网的时空相关性。随后,越来越多的研究倾向于用图神经网络建模复杂的、非线性的、具有时空相关性的路网结构。Guo等[21]提出了一种优化的图卷积递归神经网络,在训练阶段通过数据驱动的方式学习一个优化图,利用交通数据揭示路段之间潜在的关系。由于图卷积赋予节点的权重矩阵是固定的,Cirstea 等[22]在DCRNN 的基础上引入注意力机制获得节点的自适应权重矩阵,进一步提高了预测精度,充分表明基于图神经网络的交通预测模型的有效性。
尽管上述基于图神经网络的预测模型通过获取路网的时空相关性达到了较优的预测效果,但它们忽略了交通数据极强的周期规律性。例如,每个工作日的交通状况、每周整体的交通状况都具有一定的相似性。采用神经网络(RNN、多层感知器等)对这种周期规律性进行特征提取,然后与时空特征进行融合作为时空预测模型的输入将有利于提高预测精度。文献[23]分析了预测目标近期、日周期、周周期的 3 种时间维特性,构建了一个多组件时空图卷积网络架构,3个组件的输入分别经过多个时空卷积块和一个全连接层,经融合输出信息得到最终预测结果,其中每个时空卷积块都包含空间和时间两个维度的图卷积。为了提高预测精度,Guo 等[24]在多组件图卷积网络的基础上又加入了注意力机制,构成一种基于注意力机制的时空图卷积网络(ASTGCN, attention based spatial-temporal graph convolutional network),由时空注意力模块和时空卷积模块共同构成时空块,进一步降低了预测误差。Zhou 等[25]同时考虑路网的时空变量及周期规律性,通过融合时空变量和外部特征向量(日周期、周周期)构造输入向量,输入到由注意力机制和门控递归单元为基本架构的编码器模型,捕获时空相关性;为了发现历史时间序列的本质隐藏状态,在解码过程中也加入了注意力机制,结果表明注意力机制能够有效地提高预测精度。Shi等[26]设计了一种获取动态空间关联性的注意力机制,可以有效捕获路网的空间、时间及长期周期相关性。然而,交通事故等突发事件也会导致周期规律性存在偏差。Zhao等[27]考虑了非周期性拥堵下的预测,提出了一种优化的 GRU 算法,并分别在工作日、周末、雨天、事故4种场景下验证了模型的有效性,但其缺乏对路网时空相关性的考虑。
基于图神经网络的交通预测模型从时空相关性的角度对路网特征进行分析。基于图神经网络的预测模型见2,可以看出,在GNN的基础上,研究者又引入了随机扩散、注意力、膨胀因果卷积(DCC,dilated causal convolution)等方法提高预测精度。虽然上述方法已经展现了优越的性能,但仍存在一些亟待解决的问题。许多工作侧重于多步预测,常用的方法有全连接层(FC,fully connected layer)、序列到序列(Seq2Seq,sequence to sequence)模型[37]等。FC作为输出层,是获得所需输出形状最简单的方法[23,29]。而大多数基于图的交通预测方法都依赖于Seq2Seq模型架构[19,25,32],它主要包含两个组件:一个用于读取输入序列的编码器和一个根据编码器的输出产生最终输出序列的解码器,且通常选用 RNN 作为编码器和解码器的内部结构。然而,当前的Seq2Seq模型存在一个重要缺陷,在训练过程中,模型的损失由真实样本即传感器监测到的真实数据监督,解码器根据真实样本中当前时刻的真实值计算下一时刻的输出[38]。但是在测试的过程中,模型将当前时刻得到的预测值作为下一时刻的输入。训练时解码器的输入来自真实数据分布,而测试时解码器的输入来自模型分布,这会导致模型在训练和测试过程中产生的下一个决策存在差异,这个过程产生的误差便会迅速累积,这种差异又称为曝光误差(exposure bias)[39]。
表1交通预测方法分类及优缺点

方法
优点
缺点
模型驱动
主要研究流量、速度和密度之间的瞬时和稳态关系,主要依赖先验知识进行系统建模
模型固定,难以准确地模拟变化多端的真实交通状况
数据驱动
统计分析模型
算法和模型简易,实现方便
模型建立在时间序列数据平稳的假设前提下
机器学习模型
可以提取与交通相关的特征,用于非线性数据的模型构建
依赖于人工提取的交通特征,模型架构浅易、参数有限且计算效率较低
深度学习模型
能够让计算机自动学习路网特征,减少对人工提取特征的依赖性
只考虑路网空间或时间特征
图神经网络+深度学习
从时间和空间两个角度提取路网特征
学习时间相关性效率不高,长期预测精度有待进一步提高

表2基于图神经网络的预测模型
文献
空间模型
时间模型
数据集
[5]
GCN
GRU
SZ-taxi;Los-loop
[28]
GCN
LSTM
出租车的GPS数据(上海TIC)
[23]
GCN
标准二维卷积
PeMSD4;PeMSD8
[20]
GCN
门控CNN
BJER4;PeMSD7
[29]
GCN
DCC
PeMSD4;PeMSD7
[30]
GCN
门控TCN
METR-LA;PEMS-BAY
[31]
考虑高阶邻域的GCN
LSTM
LOOP;INRIX
[32]
GCN
GRU+注意力
A-map
[19]
扩散卷积网络
GRU
METR-LA;PEMS-BAY
[21]
基于优化图矩阵的GCN
GRU
D.C.;Philadelphia;PeMSD4
[22]
GAT
GRU
METR-LA
[24]
GCN+注意力
标准二维卷积+注意力
PeMSD4;PeMSD8
[26]
注意力
LSTM+注意力
PeMSD4;PeMSD8
[33]
GAT
LSTM
PeMSD7
[34]
注意力
注意力
Xiamen;PeMS
[35]
时空同步卷积
时空同步卷积
PEMS03;PEMS04;PEMS07;PEMS08
[36]
注意力
注意力
METR-LA;PEMS-BAY

为了避免曝光误差的影响,Daumé等[40]首次提出在训练过程中减少对真实样本的依赖,令模型在训练的过程中使用自身的预测结果进行下一步预测。Li等[19]使用调度采样(scheduled sampling)的方法,通过采样随机决定用概率为ε的真实数据,或概率为1-ε的预测值作为模型的输入。虽然调度采样可以简单地缓解曝光误差问题,但它在地面真实值或模型输出之间随机选择,大大增加了误差反向传播的复杂度。Yu 等[41]采用生成对抗网络避免曝光误差问题的发生。生成对抗网络由生成器和判别器组成,生成器依据输入的真实样本尝试生成与之相似的数据,然后经过判别器识别生成数据与真实样本是否接近,鉴别完成后判别器会反馈给生成器一个奖励值,生成器根据奖励值的大小优化模型参数以生成更接近真实样本的数据。生成对抗网络类似于调度采样,在模型训练时依赖模型自身的输出避免对真实值的依赖,从而缓解曝光误差问题。然而,生成对抗网络没有损失函数的监督,在训练过程中很难判断是否正在取得进展。随后, Keneshloo等[42]将强化学习用于Seq2Seq模型。Zhou等[25]用强化学习中的蒙特卡罗策略梯度算法挖掘出相关性最大的信息,用自身的预测值训练模型,而不仅仅依赖数据分布,这在很大程度上缓解了Seq2Seq 模型中的曝光误差问题。当然,强化学习还包含Actor-Critic、深度确定性策略梯度(DDPG, deep deterministic policy gradient)等优于蒙特卡罗策略梯度的算法,如何用它们缓解曝光误差问题值得进一步研究。
上述是本文总结的交通预测的研究现状,当然在本文之前也有许多类似的工作。例如,Lana等[43]总结了交通预测领域的最新技术成果,并对尚未解决的主要技术挑战进行了分析。Nagy 等[44]概述了现有的数据来源,详细介绍了如何使用预测方法促进交通流动性。Zhang等[45]主要对短期交通流预测中的ARIMA模型、RNN模型和稀疏自动编码器这3类方法做了总结。文献[46]对时空流量预测方法在解决城市交通问题上的发展现状进行了总结。Ye等[47]研究了多种基于图的深度学习架构在各种交通问题中的应用,总结了常见的交通问题及其相应的图深度学习解决方案。而本文主要探索了基于图神经网络的交通预测方法及其挑战,图神经网络驱动的交通预测研究框架如1所示。本文总结了交通预测的发展背景及研究现状,在此基础上分析了通过图神经网络进行预测比经典方法更能充分利用路网空间相关性的优势。同时,本文综述了用图神经网络捕获路网时间相关性、空间相关性及时空相关性的几种典型方法,并用经典的DCRNN时空模型进行了实际交通数据的预测分析与验证。另外,本文还从间接捕获和直接捕获两个角度提炼了图神经网络驱动下的交通预测模型。最后,深入挖掘了交通预测技术中潜在的研究方向。
2 时空交通预测模型
图是一种由节点和边构成的复杂数据结构,在现实世界中处处可见,如社交网络、知识图、化学分子结构等[48]。图可以表示来自不同学科的各种不同类型、存在相互关联的数据。交通路网包含错综复杂的连接关系,因此,路网也可以用一个有向图G=(V, E, A)描述。其中,V表示路网中N个节点的集合,节点可以是路网上部署的传感器或道路交叉口等(本文以传感器为例);E表示边的集合,若节点 vi 与节点 vj 相邻,则它们之间存在边eij;A∈RN×NA∈RN×N表示路网拓扑图的邻接矩阵。用AijAij表示邻接矩阵AijAij中第i行、第j列的元素,若节点vi与节点vj相邻,则Aij=1,否则Aij=0。将路网上观测到的交通信息(即交通流、交通速度等状态信息)作为节点的属性特征,用X∈RN×PX∈RN×P表示图G中节点的特征矩阵,P表示节点属性特征的数量,N表示节点的数量。给定一个路网,首先提取道路中所有的传感器作为节点,然后根据传感器之间的连接创建节点与节点之间的边,从而得到整个路网的拓扑图。交通预测本质是学习一个映射函数f(?),通过给定的道路结构和T个时间步长的历史交通状态,映射出未来T'个时间步长的交通状态,即
[y?1,?,y?T']=f([X1,?,XT],G)?(1)[y^1,?,y^T']=f([X1,?,XT],G)?(1)
其中,X1,?,XTX1,?,XT表示历史交通数据的时间序列,G表示路网拓扑图,y?T+1,?,y?T+T'y^T+1,?,y^T+T'表示预测出的未来T'个时间步的交通态势。为了方便表达,本文在陈述过程中省略T,用 y?1,?,y?T'y^1,?,y^T'代替y?T+1,?,y?T+T'y^T+1,?,y^T+T'。所以,交通预测问题可以描述为基于路网拓扑结构和历史时间序列数据预测未来的交通状态。而如何获取路网的空间特征和时间特征也相应成为了交通预测中亟待解决的难题。
基于图神经网络的时空交通预测模型如2所示。整个模型建立在Seq2Seq的基础上,将传感器作为节点,相邻传感器之间的距离关系作为边,根据不同传感器所处的地理位置和它们之间的距离构建路网拓扑图。路网的空间相关性主要受路网中边的特征影响,表现为相邻节点之间的影响。而时间相关性主要受节点自身特征的影响,表现为同一传感器节点随着时间的推移所采集的交通数据的变化情况。在编码器中,将历史的时间序列数据X1,?,XTX1,?,XT输入 GNN,通过邻域聚合的方式分别在路网拓扑结构中的每个传感器节点上进行传播,并递归聚合邻域节点的状态信息来更新每个传感器节点的隐藏状态,从而捕获路网的空间相关性。再将带有空间相关性的时间序列输入 RNN 来捕获路网的时空相关性。用编码器的最后一个隐藏状态hT初始化解码器,再根据编码器编码的上下文向量cTcT及T时刻的交通状况XTXT预测T+1时刻的交通状况y?1y^1。
图1
物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)
文章图片


图1图神经网络驱动的交通预测研究框架

本节阐明了图神经网络驱动下的时空交通预测模型,主要通过结合GNN和RNN捕获路网的时空特征。下面将分析和探索如何使用GNN和RNN模型捕获路网的时间相关性和空间相关性。
图2
物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)
文章图片


图2基于图神经网络的时空交通预测模型


3 时间相关性
路网的时间相关性表现为某一传感器在t时刻的交通状态将对其在t+1时刻的状态造成影响,t+2时刻的状态也会间接受到影响。也即,每个传感器节点当前时刻的交通数据受之前交通数据的影响,同时也影响着当前时刻之后的交通数据,局部路网时空示意图如3所示。例如,某条道路18:00发生了拥堵,则此拥堵将有可能持续到 18:30。不仅如此,路网的时间相关性还包含日周期、周周期等特性,如每个工作日的上下班高峰期的交通状况,本周的交通状况和上周的交通状况等也存在一定的相关性。因此,准确获取历史交通时间序列数据中所包含的时间相关特性是交通预测中的一大挑战。
图3
物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)
文章图片



图3局部路网时空示意图

为了获取路网的时间相关性,通常将交通预测建模为一个时间序列回归问题,即用历史时间序列的数据进行统计分析。经典的历史平均预测法、自回归移动平均法、支持向量回归等模型都建立在交通状况平稳的假设下,不能处理路网上的紧急突发状况。本节重点分析3种用来建模路网时间相关性模型(RNN、LSTM、GRU)的优缺点以及它们之间的关联。
3.1 循环神经网络
RNN[49]由输入层、隐藏层、输出层组成。RNN可以使用自身的内存单元处理任意输入的时间序列,因此,相比于前馈神经网络等深度学习方法,更适合在动态的交通系统中捕捉交通状态的长时间依赖性[19,21,28]。RNN结构如4所示,RNN模型属于一种自循环机制,它独特的记忆单元可以储存历史时刻交通信息的隐藏状态,并将其用于下一时刻交通状态的预测。例如,在t时刻,RNN通过对上一时刻的输出(记忆单元储存的历史隐藏信息ht-1)和当前时刻的输入xt进行加权计算预测出下一时刻的交通状态y?ty^t。
RNN 在处理时间序列建模的问题上表现较好,但是由于长时间依赖问题,即在t时刻,预测未来的交通速度不能仅仅依赖t-1时刻的速度,还要考虑交通状况的日周期、周周期等特性,输入的时间序列可能很长。然而RNN隐藏层的存储空间有限,当输入的交通数据序列过长时,后输入的数据将覆盖前面输入的数据,造成交通数据模糊或缺失。而且在计算传感器节点的输出特征时,RNN使用的是矩阵乘法,每个时间步上的梯度会根据矩阵乘法的值发生变化,当矩阵乘法值过大或过小时,容易发生梯度爆炸或梯度消失等问题。为了解决此问题, Hochreiter 等[50]提出了 LSTM,它不仅能够学习并建模时间序列的长期相关性[51],还可以自动确定最优的预测时滞。
图4
物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)
文章图片



图4RNN结构


3.2 长短期记忆网络
LSTM[50,52,53,54]在RNN的基础上加入了门结构,它的隐藏层由3个门结构(遗忘门、输入门、输出门)和一个记忆单元构成。在 RNN 中,当前时刻预测的输出Y根据输入X和隐藏状态H计算得到,而LSTM通过门结构去除、增加记忆单元所储存的交通状态的信息,选择性地保留对当前交通状态影响较大的交通信息,与此同时丢弃那些对当前交通状态几乎不产生影响的交通信息,从而避免输入序列过长造成的数据缺失。
LSTM结构如5所示。其中,遗忘门 ft决定在 t 时刻要丢弃哪些交通信息;输入门it用来确定在t时刻需要将多少新输入的交通信息传递给下一步,以便更新旧记忆单元存储的信息;输出门ot用于输出t时刻的交通状态。LSTM隐藏层的计算过程如下
???????????????????????ft=σ(Wf[ht?1,Xt]+bf)it=σ(Wi[ht?1,Xt]+bi)ot=σ(Wo[ht?1,Xt]+bo)C?t=tanh(WC[ht?1,Xt]+bC)Ct=ftCt?1+itC?tht=ottanh(Ct)?(2){ft=σ(Wf[ht?1,Xt]+bf)it=σ(Wi[ht?1,Xt]+bi)ot=σ(Wo[ht?1,Xt]+bo)C?t=tanh(WC[ht?1,Xt]+bC)Ct=ftCt?1+itC?tht=ottanh(Ct)?(2)
其中,Xt表示t时刻的交通状态,Ct-1表示t-1时刻记忆单元所存储的交通信息,C?tC?t表示t时刻输入记忆单元的交通信息,ht-1为t-1时刻的隐藏状态, Wf、Wi、Wo、WC及bf、bi、bo、bC表示训练过程中的权重和偏差,σ(?)、tanh均为激活函数。在得到编码器的隐藏状态ht后,通常会将ht输入到一个单层神经网络或全连接层来得到最终的预测结果。
3.3 门控循环单元
LSTM虽然可以缓解梯度消失和梯度爆炸,但其参数较多,计算复杂。GRU 和 LSTM 都是采用门控机制控制记忆单元对交通信息的长期记忆,但GRU只包含了更新和重置两个门,结构相对简单。因此越来越多的研究趋向于用 GRU 提取时间相关性,Fu等[55]用LSTM和GRU两种方法分别进行短期交通流预测,结果表明在相同的实验配置下,用GRU进行预测得到的误差小于LSTM。GRU结构较为简单,参数较少,不仅可以加快训练速度,而且更容易收敛。
图5
物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)
文章图片



图5LSTM结构

GRU结构如6所示,GRU的隐藏层由更新门、重置门和记忆单元构成。其中,更新门zt用来控制在t时刻使用t-1时刻隐藏状态的程度,重置门rt用来控制在 t 时刻忽略 t-1 时刻的交通信息的程度。在输出的过程中,GRU直接将隐藏状态传递给下一个单元,比LSTM更为简便,不需要再通过输出门进行控制。GRU的传播规律如下
???????????zt=σ(Wz[ht?1,Xt]+bz)rt=σ(Wr[ht?1,Xt]+br)Ct=tanh(WC[(rtht?1),Xt]+bC)ht=ztht?1+(1?zt)Ct?(3){zt=σ(Wz[ht?1,Xt]+bz)rt=σ(Wr[ht?1,Xt]+br)Ct=tanh(WC[(rtht?1),Xt]+bC)ht=ztht?1+(1?zt)Ct?(3)
其中,ht-1表示t-1时刻的隐藏状态,Xt表示t时刻输入的交通信息,Wz、Wr、WC和bz、br、bC表示训练过程中的权重和偏差,σ(?)、tanh均为激活函数。
图6
物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)
文章图片



图6GRU结构

综上,在现有的基于时空相关性的交通预测模型架构中,RNN被广泛使用于捕获路网的时间相关性。它具有长期记忆功能,每一层 RNN 的输入都会考虑上一层 RNN 的输出,从而捕获路网交通状态的时序关系。然而经典的 RNN 模型存在梯度消失、爆炸等问题,随后出现了LSTM和GRU等模型,它们通过加入门控机制缓解了 RNN 的不足。但LSTM参数较多,结构复杂,训练时间较长,而GRU的模型较为简单,参数也相对较少,在训练模型时更加节约时间,因此越来越多的研究趋向于选取GRU模型来捕获路网的时间相关性。
4 空间相关性
3可以看出,路网中不仅存在时间相关性,相邻传感器在空间维度上也存在一定的影响。若节点1处发生拥堵,则此拥堵将会在一定时间内传播至与节点1相邻的节点2、节点3、节点4。在双向公路网中位于不同方向的两个传感器,即使它们在欧几里得空间内相邻近,但在某一特定时刻,相对车道之间交通状况的不同使它们检测到的交通数据具有较大差异。很大程度上,上游交通状况更容易受到下游交通状况的影响,路网的空间相关性与交通预测结果是息息相关的。因此成功捕获路网中的空间相关性对交通预测结果的准确性至关重要。本节将介绍图卷积网络和图注意力网络两种建模路网空间相关性的方法。
4.1 图卷积网络
在诸多研究中,基于交通预测的工作都使用卷积运算提取路网中复杂的空间依赖性。传统的CNN[56]适用于欧几里得空间,它将路网建模为网格,网格中的每个顶点都被当作一个节点,通过一个共享参数的卷积核对中心节点及相邻节点特征加权求和从而获取路网的空间特征。然而路网有其独特且复杂的拓扑结构,每个传感器节点可能存在不同数目的相邻节点,GCN能够将传统网格数据的卷积运算推广到图数据上,可类比于一种在图上进行操作的卷积神经网络[18]。在图卷积的过程中,卷积核的大小可以随着中心传感器相邻节点的个数而发生变换,只需要通过对相邻节点的特征进行加权计算来更新传感器节点自身的特征,因此采用 GCN可以更加充分地利用路网的空间特征进行预测。
GCN架构如7所示,GCN在每层卷积中分别对每个传感器节点都进行一次卷积操作,从而更新节点的隐藏特征,然后叠加多层图卷积获取路网的空间相关性。根据输入路网拓扑图G得到传感器节点的邻接矩阵AA,根据传感器观测到的交通信息构建路网的特征矩阵X∈RN×PX∈RN×P,P为节点的特征个数。GCN 的本质是找到适用于图的可学习的卷积核。它通过聚合传感器vi自身的速度或流量特征XiXi、相邻传感器vj的特征XjXj以及节点与相邻节点之间边的特征更新每个传感器的隐藏特征。每个传感器节点的特征更新规则为
X(l+1)=σ(D??12A?D??12X(l)W(l))?(4)X(l+1)=σ(D??12A?D??12X(l)W(l))?(4)
其中,l是层数,σ为激活函数,DD为对角度矩阵, A?=A+INA?=A+IN表示含自连接的邻接矩阵,ININ表示单位矩阵,WW是一个可训练的权值矩阵[18]。
图7
物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)
文章图片



图7GCN架构

GCN有两种类型:一种是空域卷积,另一种是频域卷积。空域卷积的核心在于聚集邻居节点的信息,它将卷积操作直接定义在每个节点的连接关系上,让节点先在空间域中连接达到层级结构,然后再进行卷积,相当于直接在图的节点上进行卷积。而频域卷积[57]以分析图的频谱为理论基础,它用傅里叶变换把空域转换到频域,然后进行卷积,主要通过图的拉普拉斯矩阵代替频域上的拉普拉斯算子,再依据频域上的卷积转换为图上的卷积。Yu等[20]将路网建模为无向图,并用频谱卷积进行预测,虽然取得了一定的效果,但频谱卷积方法通常要求图结构是无向的,无法得到节点的上下游信息。Li等[19]将路网建模为有向加权图,用扩散过程模拟交通流,通过k步双向扩散卷积运算对空间相关性进行建模,表明了双向扩散卷积捕获路网交通流随机性的有效性。
4.2 图注意力网络
图注意力网络[58-59]是在 GCN 的基础上进行改进而实现的。在捕获空间相关性时,GCN对传感器节点同阶邻域中不同邻居节点分配的权重是相同的。它无法为邻居中不同的传感器节点分配不同的权重,这限制了其对路网空间相关性的捕获能力。GAT和GCN的关键区别在如何收集相邻传感器节点的特征表示。与图卷积中固定的标准化操作不同的是,GAT用注意力机制对邻近节点特征进行加权计算,迭代学习每个节点的隐藏特征。
用 GAT 捕获路网的空间相关性时,首先将传感器检测到的历史时间序列数据转换为特征向量集h={h→1,h→2,?,h→N}h={h→1,h→2,?,h→N} ,h→i∈RPh→i∈RP ,P 为每个传感器节点属性特征的数量。对所有传感器节点训练一个权重矩阵W∈RP'×PW∈RP'×P表示输入的 P 个传感器属性特征和输出的P'个传感器属性特征的关系。然后对每个传感器节点使用自注意机制,通过式(5)计算每个传感器节点的注意力系数
eij=a(Whi,Whj)?(5)eij=a(Whi,Whj)?(5)
其中,a(?)表示注意力机制。为了便于比较不同传感器节点的权重系数,利用 softmax 函数对所有相邻传感器节点的注意力分值进行归一化
αij=softmax(eij)=exp(eij)∑k∈Niexp(eik)?(6)αij=softmax(eij)=exp(eij)∑k∈Niexp(eik)?(6)
通过归一化后,传感器节点的原始注意力分值被转换成所有元素权重之和为1的概率分布,使相关性强(即权重大)的传感器节点更加突出。经过归一化得到每个传感器节点的注意力分值αij后,对每个传感器节点的邻居节点特征进行线性组合,再经过激活函数σ得到最终的输出特征
h′i=σ(∑j∈NiαijWhj)?(7)hi'=σ(∑j∈NiαijWhj)?(7)
其中,σ为激活函数,使输出具有非线性特征。对每个节点采用注意力机制,可以获取不同传感器节点对预测结果的影响程度,更有利于提取路网的空间相关性。
文献[25]在图卷积的过程中加入注意力机制来学习传感器节点的权值矩阵,根据节点的权值矩阵和不同时间戳的输入获得传感器节点的自适应邻接矩阵,从而捕获不同时间序列下路网结构的空间相关性。Zhang等[33]用注意力机制代替了上述图卷积网络中的卷积运算,采用多头注意机制[60]使模型通过多个独立的注意块共同学习路网的空间相关性,并在真实数据集上进行验证,实验结果表明基于图的注意力机制在对时空相关性的学习上具有很大的潜力。Zheng等[34]使用具有门控融合的空间和时间注意力机制模拟复杂的时空相关性,通过一个图多注意力网络预测路网中不同位置的超前时间步长的交通状况。Bello 等[61]开发了一种新的二维相对自注意力机制,通过自注意力机制扩充卷积算子,并通过大量的实验证明当卷积与自注意力机制两者相结合时效果最好。
本节总结了捕获路网空间相关性的常用方法。在空间相关性的捕获过程中,GCN可以有效地聚合邻居节点的特征信息。但在传感器节点特征的更新过程中,图卷积分配给每个相邻传感器节点的权重是相同的,而实际道路中相邻节点对传感器节点的影响会随着时间的推移和空间位置的不同而发生变化。图注意力网络采用注意力机制在节点状态的更新过程中给每个相邻传感器节点分配不同的权重,使传感器节点的隐藏状态更依赖于对其影响较大的相邻节点,使得模型可以捕获更加精确的空间特征信息,从而提高预测精度。
5 时空相关性
在上面两节中,本文依次介绍了路网的时间相关性和空间相关性,对时间相关性来说,当前时间步的每个传感器节点可以直接影响下一个时间步的自身;对于空间相关性来说,在同一个时间步内,每个传感器节点可以直接影响其相邻节点。而在实际路网中,信息的传播同时发生在时间和空间两个维度上。路网的时空相关性如8所示,时空图中的传感器节点4能够影响它的相邻节点(节点1、节点3、节点5)在下一时间步的交通状态。
图8
物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)
文章图片


图8路网的时空相关性

时空网络是一种典型的数据结构,能够描述交通网络、社交网络、引文网络、化学分子结构、推荐系统等相关应用中的大量数据,对时空网络数据的准确预测可以显著提高这些应用的服务质量。在捕获路网的时空相关性时,使用T个历史时间序列的交通数据作为输入,通过图卷积获取路网的空间相关性,然后将含有空间相关性信息的时间序列输入RNN,通过RNN之间的信息传递获得包含时空特征的T个隐藏状态。通过卷积得到的空间位置信息只能展现某个时间点的信息,不能反映交通状态随时间变化的趋势,再经过RNN,可以通过记忆单元所储存的历史时刻隐藏状态辅助预测下一时刻的交通状态。所以,使用时空模型可以同时捕获路网中复杂的空间和时间相关性。
捕获时空相关性的方法有两种,一种是间接捕获,一种是直接捕获。Guo等[28]结合基于频谱卷积的GCN和LSTM提出了一种序列到序列的交通速度预测模型(GC-LSTM),用图卷积操作代替LSTM中的矩阵乘法。为避免输入的时间序列数据过长而引起数据丢失,还加入了注意力机制使模型在解码时更加关注输入序列中影响力较大的特定部分,从而使整个GC-LSTM模型可以同时预测整个路网的多步交通速度。文献[5]提出一种时间图卷积网络(T-GCN)模型,将历史时间序列输入GCN得到路网空间特征,再将获得的具有空间特征的时间序列输入GRU,从而捕捉时空特征,最后经过一个全连接层得到预测结果。DCRNN 采用双向随机扩散模拟交通流,通过扩散卷积捕获路网的空间相关性,然后通过扩散卷积代替 GRU 中的矩阵乘法,从而获得时空相关性。除此之外,ASTGCN[24]等方法也是采用间接捕获的方式。它们虽然都从时间相关性和空间相关性两方面捕获了路网的特性,但它们都是使用两个单独的组件分步进行捕获的,先得到路网的空间相关性,然后将空间表示输入 RNN 等时间模块间接获取时空相关性,并没有达到时空相关性的同时捕获。在现有文献中,大多数研究都采用间接捕获的方式,模型架构如2所示。其中,GNN (以GCN为例)与RNN(以GRU为例)之间的连接关系如9所示。在t时刻,输入每个传感器的交通特征Xt,经过GCN聚合其邻居节点的特征得到传感器节点的空间特征X?tX?t,将其与t-1时刻的隐藏特征同时输入GRU得到t时刻的预测结果y?ty^t和隐藏特征ht。
图9
物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)
文章图片



图9GCN与GRU之间的连接关系(间接捕获)

另外一种方法是直接捕获,通过一种时空卷积组件实现同时提取路网时空相关性的效果,不需要再通过不同类型的神经网络模型分别获取时间和空间相关性,这种方式有效地揭示了时空网络数据的生成方式。Song等[35]提出了一种时空同步图卷积网络模型,通过设计一种时空同步建模机制,把时间和空间的邻接关系统一到局部时空图的邻接矩阵中,以达到同时捕获路网局部时空相关性的效果。将相邻时间步长的单个空间图连接成一个图来构造局部时空图,然后通过一个时空同步图卷积模块捕获构造局部时空图中复杂的局部时空相关性,最后在不同的时间段叠加多个单独的时空同步图卷积模块,通过多个时空图卷积模块的堆叠聚集长期的时空相关性和异质性,以达到更精确的预测结果。
直接捕获方法的结构如10 所示,首先输入路网的局部时空网络图,通过输入层将输入特征转换为高维度的空间特征,然后通过叠加多个时空同步卷积模块获取路网中的局部时空相关性,最后经过一个多模块全连接层将最终的输出映射至输出空间,从而得到预测结果。
图10
物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)
文章图片



图10直接捕获方法的结构

本节综述了捕获时空相关性的两种方法,一种是间接捕获,它通过两个单独的神经网络分别对路网的时间和空间相关性进行建模,然后将带有空间相关性的表示输入时间建模模块,从而间接得到路网的时空相关性。另外一种方法是直接捕获,它将相邻的时间步长构造成一个局域时空图,通过叠加时空同步图卷积直接获取路网的局部时空相关性,然后叠加多层时空同步图卷积获取整个路网的长期时空相关性。相比于间接捕获,直接捕获考虑了时空数据的异质性。间接捕获通过叠加神经网络层捕获长时间序列的全局相关性,当时间序列过长或路网较广时,间接捕获可能会发生局部信息丢失的现象。而直接捕获把时间和空间的邻接关系统一到局部时空图中,通过对局部时空图进行处理,同步捕获路网的局部关联性,更有利于揭示路网复杂的时空特性。在现有文献中,大多数研究都采用间接捕获的方法,对直接捕获方法的研究相对较少,有望成为未来的研究方向。
无论是直接捕获还是间接捕获,它们都建立在图神经网络的基础上。为了更好地将节点特征融入模型,研究人员引入了注意力机制、随机扩散等方法,但这些模型在预测时大多只考虑路网的节点特征和时间相关性,忽略了道路周围兴趣点(POI, point of interest)、天气、特殊事件、周期性等外部因素对预测性能的影响。尽管有些研究考虑到了一两种外部因素的影响[29],但要想得到更为精确的预测结果,POI、天气、特殊事件、周期性等外部因素的影响都是不可忽略的,尤其是在较为复杂的城市场景下。然而现有的研究缺乏对多种外部因素影响下预测性能的分析。融合多外部因素的时空预测模型如11 所示,可以在上述直接捕获、间接捕获模型的基础上,通过RNN或多层感知器(MLP, multi-layer perceptron)对外部因素特征进行处理,然后与时空相关性模型得到的结果进行融合,得到基于多种外部因素影响下的预测结果。考虑多种因素的情况下,模型的计算复杂度也会随之增加,如何在多因素影响和计算复杂度之间寻求平衡也是未来研究的一大难题。
6 实例分析
DCRNN 作为最早一批将图神经网络用于交通预测的经典方法之一,为后来的研究奠定了基础。本文在真实的数据集 PEMS-BAY[62]上用 DCRNN方法对基于图神经网络的预测模型进行验证分析。PEMS-BAY数据集以5 min为一个时间步采集交通信息,包含了旧金山湾区内325个传感器节点,记录了从2017年1月1日到2017年5月31日的交通数据信息,包括交通速度数据、传感器节点的地理位置等信息。
图11
物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)
文章图片



图11融合多外部因素的时空预测模型

DCRNN 通过间接捕获的方式,整体采用Seq2Seq 模型架构,在编码器和解码器中都通过扩散卷积和GRU分别建立空间相关和时间相关模型,用扩散卷积代替 GRU 中的矩阵乘法,从而间接得到路网的时空相关性。首先,用一个扩散过程模拟交通流的随机特性,通过扩散卷积更新每个传感器节点的空间隐藏特征,随后将包含空间特征的历史序列输入 GRU 得到历史交通数据对未来交通的影响特性。在训练模型之前,首先将 PEMS-BAY 数据集分为训练集(70%)、验证集(10%)、测试集(20%)3个部分,然后通过调度采样选取概率为ε的真实样本或概率为1-ε的预测值对模型进行训练。将历史时间序列数据输入编码器,编码器会将整个时间序列数据编码为一个固定长度的向量,然后再由解码器从向量中读取下一个时间步的输出,即预测结果。在 PEMS-BAY 数据集中选取一个传感器节点,对预测结果进行可视化,DCRNN 模型的预测结果如12所示。
可以看出,DCRNN 能够预测出与实际道路中高峰期的开始和结束吻合的趋势,这表明了扩散卷积能够很好地捕获路网的空间依赖性。由于路网易受异常事件的影响,图卷积定义的是一个相对平滑的滤波器,它通过不断移动捕获空间特征,这一过程可能使预测结果发生微小的变化,致使 DCRNN在峰值处的预测能力较差。
将 DCRNN 方法与历史平均(HA,historical average)模型、向量自回归(VAR,vector autoregression)模型、ARIMA、全连接LSTM(FC-LSTM)、Graph WaveNet[30]方法进行对比,其中 Graph WaveNet结合GCN和DCC获取路网的时空相关性。采用平均绝对误差(MAE,mean absolute error)、平均绝对百分比误差(MAPE,mean absolute per-centage error)和均方根误差(RMSE,root mean squared error)3个度量标准对模型的预测结果进行评估。不同预测方法的性能比较见3,展现了对未来15 min、30 min、60 min路网信息的预测结果。
图12
物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)
文章图片



图12DCRNN模型的预测结果

RMSE(y,y?)=1|N|∑i∈N(yi?y?i)2?????????????√RMSE(y,y^)=1|N|∑i∈N(yi?y^i)2
MAPE(y,y?)=1|N|∑i∈N∣∣∣yi?y?iyi∣∣∣MAPE(y,y^)=1|N|∑i∈N|yi?y^iyi|
MAE(y,y?)=1|N|∑i∈N|yi?y?i|?(8)MAE(y,y^)=1|N|∑i∈N|yi?y^i|?(8)
其中,N 表示观测样本数,y 表示真实值,y?y^表示预测值。
3 可以看出,与 HA 等传统方法和FC-LSTM等深度学习方法相比,DCRNN在所有预测范围内的所有误差度量指标都达到最小,这表明了 DCRNN 时空预测模型的有效性。Graph WaveNet采用DCC代替GRU获取路网的时间相关性,并达到比DCRNN更低的误差,表明DCC可以更高效地处理具有长时间序列的时空图数据。然而随着预测时间的增加,误差逐渐增大,这是由于在预测的过程中,没有真实样本的监督,误差不断累积而造成的。因此,提高时空预测模型长期预测的精度是实现智能交通系统的一大难题,有待进一步研究。DCRNN虽然带我们走进了用图神经网络进行交通预测的大门,并展示了用图神经网络捕获路网空间相关性对提高预测精度的有效性,但如何缓解 Seq2Seq 模型中的曝光误差问题、如何提高长期预测的精度等,仍是交通预测中急需解决的难题。
表3不同预测方法的性能比较
时间
模型
MAE
RMSE
MAPE
15 min
HA
2.88
5.59
6.76%
VAR
1.74
3.09
3.59%
ARIMA
1.62
3.30
3.50%
FC-LSTM
2.05
4.19
4.80%
DCRNN
1.31
2.76
2.73%
Graph WaveNet
1.301.30
2.742.74
2.73%2.73%
30 min
HA
2.88
5.59
6.76%
VAR
2.33
4.15
5.02%
ARIMA
2.33
4.76
5.40%
FC-LSTM
2.20
4.55
5.20%
DCRNN
1.65
3.77
3.72%
Graph WaveNet
1.631.63
3.703.70
3.67%3.67%
60 min
HA
2.88
5.59
6.76%
VAR
2.92
5.11
6.46%
ARIMA
3.38
6.50
8.30%
FC-LSTM
2.37
4.96
5.70%
DCRNN
1.97
4.62
4.71%
Graph WaveNet
1.951.95
4.524.52
4.63%4.63%


7 挑战与未来方向
本文对图神经网络驱动下的交通预测方法进行了分析研究,综述了路网的时间和空间相关性的建模方法。本节将讨论未来交通预测可能的发展方向。
1)与强化学习相结合
本文介绍了基于Seq2Seq架构的预测模型,它可以较好地捕获路网的时空相关性。但在 Seq2Seq架构中仍存在曝光误差及模型在训练和测试时不一致等问题。随着强化学习的发展,研究人员也逐渐用它来解决交通领域的一些难题[63]。对于上述曝光误差等问题,可以在解码器中加入 Actor-Critic网络使模型在训练的过程中根据自身的预测值对下一时间步的交通状况进行预测。Actor-Critic网络[64]在策略梯度的基础上加入了价值函数,Actor 使用策略函数生成下一步动作并和环境交互,而 Critic使用价值函数评估当前的策略并指导其下一阶段的动作,即监督每一步的预测结果。然而Actor-Critic仍存在难以收敛的问题,可以使用强化学习中的 A3C、DDPG 等方法,其中 A3C 采用了多线程的方式使模型易于收敛,DDPG采用双Actor和双Critic网络改善了收敛性。这些方法在Seq2Seq模型中仍需进行深入研究。
2)大型路网预测
现有模型方法大多在包含传感器节点较少的数据集上进行验证分析。然而对于一些大型路网(如 PeMS 数据集包含了整个加州地区所有道路上数千个传感器节点),其卷积计算的复杂度令人望而却步,一台计算机的内存也难以承受数千个节点的训练数据,这导致基于 GCN 的模型难以完成整个PeMS路网空间特征的提取[65]。在大型路网中,每个节点的状态都与大量邻接节点的隐藏状态相关,这不仅导致卷积操作计算量的增加,还对计算机的内存有着极高的要求。针对上述问题,可以通过图分割技术将大型路网分割为若干个子图。文献[65]在DCRNN的基础上加以改进,使其能够用于大型公路网(PeMS)的预测,采用图形分区包Metis将整个路网拓扑图分割为若干个大小大致相同的子图,并同时用一个权值DCRNN对所有子图进行训练。图分割方法虽然可以将DCRNN扩展到大型路网,但不准确的图划分可能会导致大量空间相关节点被分割到不同的子图中,从而导致预测精度大打折扣。所以还可以考虑通过叠加多层图注意力网络对大型路网进行预测,注意力机制可以使每个传感器节点只依据与自身相关性较大的相邻节点更新自身的隐藏特征。虽然大型路网中的传感器节点存在大量相邻节点,但是可以通过叠加多层图注意力网络的方式使模型提取与每个节点最相关的邻居节点信息,从而减轻计算的复杂度。
3)长期预测的精度
交通预测模型在短期交通流预测方面表现良好,从3可以看出,随着预测时间的增加,误差不断变大。随着路网规模的不断扩大,路网中的交叉口及传感器数量随之增加,路网拓扑图也变得更加复杂,历史的交通数据量也更加庞大。由于RNN模型的记忆单元有限,当输入数据过多时,数据容易被覆盖或丢失,这会导致预测误差随着预测时间的增加不断累积。在这种情况下,如何有效地提高长期预测的精确度是一项非常具有挑战性的任务,也是交通预测中必须要克服的一个难题。LSTM、GRU等RNN模型是一条从旧记忆单元到新记忆单元的序列路径,由于增加了门结构分支,路径更加复杂,过长的序列路径可能造成数据丢失,从而产生误差并随着时间的推移不断积累。为避免过长的序列路径引起数据丢失,采用多个注意力模块构成分层注意力结构,将所有过去的向量编码汇总到一个上下文向量中,类似于分层神经网络和时域卷积网络(TCN, temporal convolutional network)[66-67]。多层注意力可以回顾更多过去的记忆,从而影响未来的决策,缓解误差的积累。TCN的体系结构比规范的回归网络(LSTM、GRU)更加准确、简单、清晰,不仅如此,在训练时,TCN所需内存比循环神经网络更低,更适合用于处理长时间序列任务。因此,可以通过 TCN 记忆更长时间的历史交通信息,缓解序列路径过长引起的数据丢失问题,从而提高长期预测的精确度。
4)非周期拥堵下的预测
在捕获时间相关性方面,研究人员考虑在预测过程中加入日周期、周周期等周期性因素,但降雨、交通事故、大型会议、演出等多种不确定因素对交通预测也存在着很大的影响,而高速公路延误大多是由非周期性拥堵事件引起的,这使得交通状况的预测更加困难。所以提高非周期性拥堵情况下预测模型的能力是一个需要解决的重要问题。可以采用RNN或MLP处理非周期性的外部因素,也可以考虑通过元学习方法对节点的外部属性特征进行处理。以降雨为例,可以将降雨前后的交通速度数据筛选出来,构成一个新的数据集,通过上述方法构建时空预测模型,用筛选出来的数据集对模型进行训练得到降雨时路网的时空特性,从而进一步实现降雨时的交通预测。在预测非周期性外在因素引起的交通拥堵时,还可以在预测的过程中加入神经网络模型对外在因素(如交通事故,大型会议等)特征进行处理,最后将外在因素特征与时空特征进行融合,预测非周期因素影响下的交通状态。
5)交通数据缺失
现有的交通预测研究大多基于环形线圈检测器、超声波传感器等设备采集到的数据,这些数据常常会因为天气、传感器失灵、交通管制等原因出现数据缺失、无效、不确定等情况。这不仅会增加数据预处理的难度,还会降低分析结果的准确性和预测模型的效率。在 5G大数据背景下,可以在预测的过程中,将激光雷达、毫米波雷达等路侧单元监测的交通数据信息作为辅助数据源。先对不同来源的数据进行特征提取,得到相应的特征矩阵,采用全连接层对其进行融合作为模型的输入,经过上述时空预测模型为交通管理者提供更为精确的预测结果。除此之外,还可以通过生成对抗网络(GAN,generative adversarial network)[68]根据以往数据生成缺失的数据,生成器根据历史数据仿造数据,判别器用于鉴别生成器仿造的数据是否有效。随后生成器根据判别器的判定结果调参,直至判别器不能判定生成器生成的结果与真实值之间的真假时,再对判别器进行调优,重复上述步骤,通过不断对生成器和判别器进行优化,使模型生成的数据尽可能地达到最优。然后用训练好的模型补全数据集中缺失的数据,从而提高预测精度。在路网模式相同的情况下,还可以考虑通过迁移学习将模型从数据充足的路网转移到数据缺失的路网。所以,在面对交通数据缺失的问题时,不仅可以通过融合多源异构数据进行弥补,还可以考虑GAN、迁移学习等方法。
6)实际交通场景应用
现有的交通预测方法大多基于数据集对模型进行训练及测试,而模型在真实场景中的应用是极度匮乏的。然而实现准确的交通预测是为了给交通管理者和出行者提供方便,从而缓解交通拥堵,实现智能交通。在实际应用中,首先收集选定场景周围的交通数据,用上述方法进行交通预测,然后将预测得到的交通数据用于规划出行道路、设计红绿灯的自动调控等。将交通状况分为不拥堵、轻微拥堵、非常拥堵等情况,并为每种情况设定一种交通灯调控方案。让路口的交通灯可以依据提前得知的交通预测信息判断未来的交通状况,并实时采取对应的交通灯调控方案,从而帮助交通管理者避免拥堵的发生。随着6G网络[69]的快速发展,我们认为未来的研究应更加专注于如何将交通预测用于实际场景中,这将有助于交通管理者对交通进行管控,为人们的出行带来方便。准确的交通预测是交通信息服务系统的重中之重,有利于缓解交通拥堵,减少交通事故的发生,从而实现人、车、路协同的智能交通系统。
8 结束语
【物联网及AI前沿技术专栏|图神经网络驱动的交通预测技术(探索与挑战)】本文针对如何充分利用路网时间相关性和空间相关性进行预测等问题,综述了将图神经网络中图卷积网络、图注意力网络等关键技术与递归神经网络相结合进行交通预测的时空预测模型。基于上述模型,本文总结了两种捕获路网时空相关性的解决方案:直接捕获、间接捕获。最后,提供了基于图神经网络的交通预测中与强化学习结合、大型路网预测、长期预测的精度、非周期拥堵下的预测、实际交通场景应用等可能的发展方向。总之,图神经网络驱动下的交通预测不仅可以获取路网的时空特征,还有望解决预测过程中大型路网、长期预测等技术难题,为智能交通系统的实现奠定了坚实的基础。

    推荐阅读