交通级联模式推断

tech2023-10-26  102

Inferring Traffic Cascading Patterns

作者信息 Yuxuan Liang,Zhongyuan Jiang,Yu Zheng

1 摘要

在现实生活中,我们只能观察到离散的时间间隔内不同路段上的个别交通状况,而不是路段之间的显示交互或者传播(如:A-->B)。本文首先对交通传播中存在的三重影响进行建模,然后提出了一个数据驱动的方法,此方法通过最大化交通观测数据的可能性来发现级联模式。

公式显示有些问题,可以看我的原文 https://zhuanlan.zhihu.com/p/214009422

2 挑战

隐式交互:交通条件的真实传播路径是隐式的,我们只能观察到的是在不连续的时间间隔内不同路段上的个别交通状况。即我们只能观测到何时何地发生了交通拥堵,而不是拥堵怎样到达特定的路段。此外,推断交通级联模式并不等同于在包含实际传播路径的图上挖掘频繁的子图。

多源:一个路段上的交通由两部分组成:来自于其他路段的交通流和来自于相邻路段的交通。因此,一个路段交通条件的影响因子可分为两类:

a)临近交通:来自同当前路段具有直接物理连接的路段的“直接影响”或来自需要多跳间接连接的路段的“间接影响”(如图 2)。

b)周边环境:路段周边的环境(如:P# Inferring Traffic Cascading Patterns

地理空间关联:在社交网络中,信息的传播同等待时间有很强的关联性。而在交通网络中,除了交通拥堵的时差外,交通网络还存在地理空间相关性。

3 定义

定义 1(路网):路网 由一组路段 组成,路段间以有向图的形式相互连接。路段 是具有两个终端节点的有向边, 为长度, 表示其通行能力。

定义 2(交通条件):交通条件表示一个路段在一个特定的时间间隔内的独特状态:拥堵或流畅。如果在给定的时间片在路段 上的行进速度低于 20km/h,则说路段 拥堵。

定义 3(级联):级联 是从一天的交通观测数据中提取的 n 维向量。 记录了路段 拥堵的时间,若 未出现拥堵,则设置 。

定义 4(级联模式):级联模式 是一个潜在网络,在该网络中交通拥堵在一个给定的时间范围内进行扩散。

问题定义:给定一个路网 ,包含从 到 的多个时间间隔的时间跨度 以及 天中每个时间间隔内的离散交通状况。我们提取一组级联 , 表示从第 天的时间跨度 内的交通状况提取的级联。基于这一组提取的级联 ,整个路网 上的 数据以及气象数据,我们的目标为:推测在时间跨度 上最可能出现级联 的级联模式 。

4 框架

文中提出的方法包含四个主要部分:

数据获取。主要获取四个真实数据集:POI 数据,气象数据,路网数据和出租车轨迹数据;

多源建模。使用 ITL 模块推测路段之间的传播概率,使用 EMT 模块推测环境影响强度;

级联模式推测。将多源模块中的概率和强度在图上公式化为许多传播树,并使用一种近似算法来有效解决最大似然问题;

评价。评判算法的有效性和效率。

模型的整体框架如下图所示:

4.1 多源影响建模

此模块包含个体转移概率(ITL)和环境强度(EMT)两部分。其中个体转移概率部分用于推断直接和间接影响。环境强度部分利用时空关系分析推测由路段本身环境因素造成拥堵的可能性。

4.1.1 个体转移概率

文中将一对拥堵路段出现拥塞时间 和 之间的的时间差视为等待时间。等待时间越长,路段拥塞的传播概率越小。此外,由于路段距离的影响,相邻路段的直接影响会比相隔较远路段的间接影响更大。文中将时间距离和空间距离整合入指数模型中用于描述拥塞从 传播至 的条件概率:

 

式中, 表示拥塞从 传播至 的时间差, 表示 与 之间的空间距离, 表示转移率,文中对所有路段对假定为恒定值 用于控制空间距离作为权衡的重要性。( 和 需要归一化)。

4.1.2 环境强度推测

在经过一些实验验证和分析之后,文中确定了以下影响环境强度的因素:a)区域的空间特征。区域中最相关的 POI 类型的密度作为 POI 特征,总长度和道路密度作为路网特征;b)区域的时间特征。提取温度,压力以及一天中的时间作为时间特征。

由于空间约束,文中将一个城市划分为(0.5km * 0.5km)大小的网格分别代表不同的区域,并假定在给定的网格 中所有路段的环境强度是统一的。在一个小区域 之内拥堵路段的百分比仍反映了 中环境强度的大小(如图 5 所示)。假设路段之间没有扩散,则百分比值可以大致表示该区域中每条道路上出现拥堵的可能性。因此,给定网格 g 和时空特征,推断 g 中的环境强度可近似为预测该时间间隔内 g 的拥挤路段百分比。

文中从一系列的日期中提取了不同网格的时空特征,并从历史交通数据中获得了上述的百分比数据。整合时空特征作为监督学习方法(SVM)的输入,尝试预测百分比值,来推断环境强度。

4.2 级联模式构建

文中使用生成概率模型将三重影响整合进级联模式中,并使用图或网络来表示级联模式,其中的边代表级联模式中的关系连接。

4.2.1 模型制定

先前的工作考虑交通拥堵以有向树的形式扩散,即一个路段变得拥堵是因为另一个单一路段。根据这一假设,给定一个传递树 ,单一级联 的可能性可以使用如下公式计算:

 

式中, 表示传递树 的边集。通常,在给定的一个级联模式 中,可以有很多可能的传递树 。给定一个网络 ,考虑 中所有可能的传递树 ,单一级联的可能性可以计算如下:

 

式中, 表示 的子网络中所有的有向连接生成树的集合。给定一个级联 ,可以有很多可能的传播树能够形成这样的级联(如图 6)。假设 影响 具有恒定的先验概率,因此,在级联 中所有树 的 值相等,故可以将 3 式简化如下:

 

为了简化,文中假设给定的网络 中的级联是条件独立的,因此,网络 中一组级联的联合概率可以被简单表示如下:

 

给定观察到的交通数据,包含从每天的给定时间跨度中获得的一组级联 以及基于时空距离的成对传播的可能性,文中将问题表述为网络推断问题。目标为找到一个网络 ,使得:

 

式中, 最好的解释了所观察到的级联,最大化是在最多 个边的所有可能的图 上进行的,因为现实世界的网络总是稀疏的,例如路网。

4.2.2 目标替换

因为直接优化 6 式的目标函数是十分困难的,因此可以将其替换。矩阵树定理表明图 的不同生成树的数量等于其拉普拉斯矩阵的任何辅因子。通过这个定理,等式 4 可以被简化为:

 

环境影响可能会诱发第一个拥堵路段的形成并产生不连续的级联,它可以出现在图中任意位置甚至是空图中。文中采用 EMT 模块来推测不同网格中的环境强度,然后计算图 在空图 上的级联 的对数似然的提高如下:

 

式中,,可以看作 中边 的权重。变量 表示区域 所在网格 的环境强度。 是对数似然函数中的三重影响之间的折衷参数。最终,等式 6 的优化目标等价于最大化如下的目标函数:

 

式中 是非负单调的,且最大化是在最多 个边的所有可能的图 上进行的。

4.2.2 目标替换

为一个网络推断问题寻找最优解被证明是一个 NP 难问题,等效于 MAX-k-COVER 问题,它满足子模性,即自然递减的反馈特性。证明如下: 给定一个级联 ,首先证明 的子模性。即证明 ,式中, 且边 不在 中。 表示图 中边 的权重。。特别的,若边 同时存在于图 和图 中,则 。令 ,且满足 则有:

 

因为条件概率 满足子模性,而目标函数 是 的非负线性组合,所以 仍满足子模性。可以证明该功能可以通过类似 MultiTree 的近似算法进行优化,该算法至少可以获得使用 k 条边时可达到的最优值的 的常数效果。 实际上,核心路段经常发生交通拥堵。这意味着有大量潜在的临时链接作为候选者,者导致优化速度很慢。如果 距离 较远,则潜在边 存在的可能性非常小。

如算法 1 描述的,文中在第 2 行提出了一种近似算法,作为具有空间约束的 MultiTree 的扩展。 从一个空的图 (line 1)开始,从潜在边集合 中添加边,从而使得序列 的收益最大化(line 15-16)。也就是说,在每次迭代 中,都选择满足下式的边 。

 

利用目标函数的子模性,每个迭代状态都可以在 时间复杂度下完成, 表示最大级联的大小。

5 实验

5.1 数据集

本文中使用了四个北京地区的相关数据集,包括 32670 条出租车的轨迹数据,以及对应地区的路网数据,气象数据和 POI 数据。数据集的具体细节如下表:

5.2 真值及参数设定

为了评判方法的有效性,文中设计了对应的评判标准。在已有的数据集中,可以知道一个路段拥挤之后,下一个会拥挤的路段。给定一个时间窗 ,若方法在给定的时间窗内预测出下一个会拥堵的路段,则表示一次命中。文中使用出现概率来表示模型在 天中发现的级联模式的有效性,出现概率的计算公式如下:

 

式中, 表示在 天的数据中,模型对 之间拥堵关系预测正确的次数, 表示 天中路段 拥堵的次数。为了验证方法产生级联模式的正确性,文中定义了 score(即 correctness)作为评估标准。

 

式中的 表示级联模式 中的边的集合, 表示级联模式中边的个数,文中设定为 500。

本文选取了北京市的四个标志性区域对方法进行了评估,地区选取的细节如下图:

5.3 对比实验和结果

文中从三个方面进行了对比实验:

网络传播推断,主要包括 NetInf,stNetInf(在 NetInf 上添加了 ITL 和 EMT 模块,用于捕捉时空特性)以及 MultiTree 三个方法。

频率子图挖掘,主要包括 Frequency-Based Method(选取出现频率最高的前 k 个连接)和 STC-DBN(基于已识别拥堵的时空信息构造 stctree,并采用基于先验的算法检测森林的频繁子结构)。

文中方法的变体,主要包括 CasInf-gd(使用 geometrical distance 作为 ITL 模块中的空间距离度量,而不是路网距离),CasInf-td(将 设置为 0,即只考虑时间距离,忽略空间距离),CasInf-ne(去除 EMT 模块的变体,将所有路段的环境强度设置为一个常量)以及 CasInf-ni(忽略路段间的间接影响)。

实验效果如下表:

文中还使用“每条边增加的平均运行时间”作为度量在选择的三个区域中对模型的有效性进行了研究,具体实验效果如下:

 

结论

在这篇论文中,作者提出了一种数据驱动的方法来从多个时空数据集推断流量的级联模式。更准确地说,他们设计了 ITL 模型、EMT 模型和级联模式来构建模型从而进行级联模式推断。在北京市出租车轨迹数据、道路网络数据、POIs 数据和气象数据上的实验结果显示了所提出模型的准确性和有效性。

更多详细信息请阅读原文

更多专业内容关注图与交通公众号:

 

最新回复(0)