PEMs数据集-526互联

交通流量数据PEMs数据集说明

distance_df_filename (str): path of the csv file contains edges information

        tuple: two adjacency matrix.
         adj_PEMS07.pkl np.array: connectivity-based adjacency matrix A (A[i, j]=0 or A[i, j]=1)
           adj_PEMS07_distance.pkl    np.array: distance-based adjacency matrix A

最近刚开始学习有关交通流量数据分析处理方面的内容，将学习过程中对pems数据集的理解记录如下。

PEMs数据集的数据采集方式：

由分布在不同地点的xxx个探测器每隔5分钟采集一次，连续采集xxx天。

例如PEMS04是由307个探测器每隔5分钟采集一次数据，共采集59天产生的交通流量数据；

PEMS08是由170个探测器每隔5分钟采集一次，共采集62天产生的数据。
并且，每个探测器每次采集的数据包含三个维度的特征，分别为：流量、平均速度和平均占有率。

这里对平均占有率进行说明：占有率分为时间占有率和空间占有率，是衡量道路被利用程度的重要指标(我认为它也衡量了拥挤程度)。其中，空间占有率是指在观测时间内，观测路段中各车辆所占道路面积总量与区域道路面积总量的比值；时间占有率是指在观测时间内通过道路某断面的累计时间与该段时间的比值。平均占有率的话取个平均就是了。

基于以上说明，理论上PEMs数据集中的数据维度应该为：

PEMS04：(16992,307,3)
307是指307个探测器，3是指每个探测器每次采集的数据有3个维度特征，16992=59×24×12 (每隔5分钟采集一次数据，因此一小时内可以采集12次，而一天有24小时，又采集了59天，因此就是59×24×12=16992了)

PEMS08：(62×24×12=17856, 170, 3)
csdn上已有大佬将数据可视化如下：(附博客链接GNN交通流量预测_pems04数据集介绍-CSDN博客)

这张图是PEMS数据中一个节点(也就是一个探测器)一天的观测数据，横坐标就是时间度量，上面我们说了探测器每隔五分钟采一次数据，因此一天中采集了288次数据，可以看到上面的图在横坐标也就是时间上展开大致就是0-288，与之前所述符合。三条不同颜色的线对应的就是包含3个维度特征的数据。

然后说一下数据集实际下载下来是什么样子的。(可能有些许偏差，因为我还没自己下载，不过在网上看到的视频里面好像大差不差)

PEMs数据集总的来说包含两部分：

一是csv文件，存储节点之间的边信息
二是npz压缩文件，存储的就是上面说的PEMs数据

上面说过了npz文件里存储的PEMs数据是啥玩意，在此再对csv文件进行说明。csv文件里保存着格式为(from,to,cost)的节点边信息，from是指源节点，to是指目标节点，cost是代价、成本。举个例子，(9, 153, 310.6)的意思是编号为9的节点(探测器)到编号为153的节点(探测器)的成本(其实就是距离)是310.6。
————————————————
链接：https://blog.csdn.net/weixin_51399904/article/details/134351695