CN113780396B

CN113780396B - 基于全链式空铁联程出行的个性化方案生成方法

Info

Publication number: CN113780396B
Application number: CN202111012909.5A
Authority: CN
Inventors: 李大韦; 楼碧霞; 陈诗嘉; 任刚; 白桦; 马江山
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2024-11-29
Anticipated expiration: 2041-08-31
Also published as: CN113780396A

Abstract

本发明公开了一种基于全链式空铁联程出行的个性化方案生成方法，该方法包括旅客出行数据采集、确定旅客出行选择的最大影响因素、获取空铁联程旅客出行需求、采集联程出行信息、出行方案生成及排序、制定个性化出行方案六大步骤。本发明通过采集旅客的历史出行数据和个人偏好属性，运用基于决策树的随机森林算法预测不同旅客出行选择的最大影响因素，考虑旅客的全链式空铁联程出行需求，为旅客定制个性化联程出行方案。

Description

基于全链式空铁联程出行的个性化方案生成方法

技术领域

本发明属于多模式交通出行与数据挖掘领域，具体涉及基于全链式空铁联程出行的个性化方案生成方法。

背景技术

随着交通运输供给侧改革，现代化综合运输体系的发展，城市交通供给从单一的道路交通网络向“航空网络、道路网络、轨道网络”多模式融合交通网络转变。提供安全、快捷、准点的出行方案成为“交通强国”背景下的重要任务。但是目前航空、高铁和公路缺少有效的合作管控，如何充分发挥出航空、铁路、公路等多模式出行优势，避免因无序竞争造成市场混乱，打造全链式多模式交通出行系统是新时代交通发展的重要研究方向。

在空铁联程方案生成中，大多数研究将城际交通、城内交通分开讨论，缺少对全链式交通的整体考量。除此之外，我国的空铁联程发展还存在着一体化票务信息系统不完善，存在信息壁垒等问题。为了贴合联程旅客出行的真实需求和考虑到旅客的异质性，在城际交通和城内交通双驱动出行需求的背景下，打造全链式联程出行的个性化方案生成。

目前的空铁联程市场发展潜力巨大，符合国家和人民的交通发展需要。但是对于旅客的个性化出行需求研究还不够完善，旅客可选择的出行方案无法满足旅客的真实出行需求，空铁联程出行对旅客的吸引力并不理想。

发明内容

发明目的：针对以上问题，本发明提出一种基于全链式空铁联程出行的个性化方案生成方法，可以充分考虑不同旅客的出行需求，提供个性化联程出行方案，拓展空铁联程选择空间，提升联程出行服务水平。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于全链式空铁联程出行的个性化方案生成方法，包括如下步骤：

步骤一：旅客出行数据采集；包括采集N名旅客的一年内关于空铁联程的城内和城际的历史出行数据和感知数据；

第i名旅客历史出行数据包括旅客收入水平A_i、程前交通方式B_i、旅客出发城市C_i、旅客目的城市D_i、换乘城市E_i、旅客的出行目的F_i、旅客一年内一次出行的平均距离G_i、旅客一年内一次出行的平均总成本H_i；

第i名旅客的感知数据包括出发时间偏好I_i、购票时间偏好J_i、旅客出行方式选择时的最大影响因素Y_i，i＝1,2,3…,N；

步骤二：确定旅客出行选择最大影响因素；将步骤一获取到的N名旅客的数据划分成训练集X_train和检验集X_test；

构建旅客出行选择最大影响因素分类模型，十个属性参量A_i～J_i作为模型的自变量，最大影响因素Y_i作为模型的因变量，采用随机森林算法结合决策树算法训练得到最终的分类模型；

步骤三：获取空铁联程旅客出行需求，即该旅客的十个属性参量A_i～J_i；

步骤四：采集联程出行信息；出行由城内交通和城际交通两部分组成，城内交通由巴士负责，城际交通由航空和高铁提供服务；采集航班价格P_A、高铁价格P_R、城内巴士价格P_B、空铁旅客优惠补贴S、航班时长T_A、高铁时长T_R，换乘时长T_T、程前城后交通时长T_C、以及航班和高铁的班次表；

步骤五：出行方案生成及排序；根据步骤三获取的旅客出行需求，利用步骤二训练得到的分类模型得到旅客出行选择最大影响因素，查询出发日期、出发城市至目的地城市所有可行出行方案并进行排序；

步骤六：制定个性化出行方案；包括根据旅客出行选择最大影响因素和步骤五的所有出行方案排序寻找最合理的出行方案，完成空铁联程旅客的个性化出行方案推荐。

进一步的，所述步骤二训练得到最终的分类模型，方法包括：

对于训练集X_train采用随机森林算法，即随机有放回地选择T个训练子集U_T；

在每个子集中根据决策树算法对数据进行分类，根据信息增益比确定分裂节点的顺序，建立决策树；

对于检验集X_test的所有数据，单独将每组数据代入T个子集的决策树中，得到T个关于旅客出行选择的最大影响因素分类结果；

利用随机森林算法对分类结果进行投票并统计投票结果，将出现次数最高的因变量Y作为该数据的分类结果；

对分类模型进行测试，判断该分类模型预测得到的因变量Y_i与该名旅客实际出行选择的最大影响因素是否一致；

当准确率高于一定阈值，则判定该分类效果满足预期值，结束模型训练，否则返回重新随机挑选T个子集进行分类训练，不断重复直至准确率满足要求。

进一步的，根据信息增益比确定分裂节点顺序，构建决策树具体包括：

1)计算训练子集U_T的信息熵Ent(U_T)：

式中，p_k为子集U_T中第k类样本所占比例，k＝1,2,3,…,n，n为U_T中样本种类数量；

2)计算子集U_T中每个属性的信息增益Gain(U_T,a)：

设属性A有V个可能取值{A¹,A²,…,A^V}，其中属性A上取值为A^V的样本量为U_T ^V，属性A的条件概率分布则为|U_T ^V|/|U_T|，则属性A的信息增益Gain(U_T,A)表达为：

Gain(U_T,A)＝Ent(U_T)-Ent(U_T，A)

其中，Ent(U_T，A)为属性A的信息熵；

3)遍历所有属性，获取不同属性的不同信息增益；

4)计算所有属性的信息增益比g_R(U_T，a)；

对于属性A的信息增益比为g_R(U_T,A)，其定义为信息增益Gain(U_T,A)与训练子集U_T关于A的信息熵Ent(U_T，A)之比，即

g_R(U_T，A)＝Gain(U_T，A)/Ent(U_T，A)

5)遍历所有属性的信息增益比g_R(U_T,a)，找到最大的信息增益比，将该最大信息增益比对应的属性作为分支节点；

6)循环步骤2)-步骤5)，找到下一个最大信息增益比的属性作为下一分支节点，直至对所有属性遍历结束。

进一步的，所述步骤五中出行方案排序方法具体如下：

计算每个可行出行方案的旅客空铁联程总出行费用C＝P_A+P_R+P_B-S、旅客空铁联程出行总时长T＝T_A+T_R+T_T+T_C；

按照总费用从低到高、总时长由低到高、出发时刻由早到晚、换乘时间由低到高四种方法将可行出行方案进行排序，形成按照总费用、总时长、出发时刻、换乘时间四种方式划分的出行方案。

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：本发明提出的基于全链式空铁联程出行的个性化方案生成方法，考虑了旅客的个性化联程出行需求和实际联程出行信息，结合城内交通和城际交通双驱动，打造全链式空铁联程出行个性化方案推荐体系。通过本方法一方面增加了联程旅客的出行方案的可选择性，另一方面提升联程出行的服务水平，满足旅客的个性化出行需求。

附图说明

图1是本发明实施的步骤流程图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提供基于全链式空铁联程出行的个性化方案生成方法，为解决空铁联程旅客个性化需求和全链式出行方案生成提供新思路。针对旅客的历史出行数据建立数据库，训练基于决策树的随机森林算法预测旅客出行选择的最大影响因素，最后结合联程出行信息和个人偏好从总费用、总时长、出发时间、换乘时间四个角度定制旅客的个性化联程出行方案。

如图1所示，本发明实施例公开的一种基于全链式空铁联程出行的个性化方案生成方法，步骤如下：

步骤一：旅客出行数据采集；包括采集N名旅客的一年内关于空铁联程的城内和城际的历史出行数据和感知数据，用于确定旅客出行方式选择时影响最大的因素。

旅客出行数据X_i包括旅客历史出行数据和旅客的感知数据

第i名旅客的感知数据包括出发时间偏好I_i、购票时间偏好J_i、旅客出行方式选择时的最大影响因素Y_i。

本实施例中，在南京绿口机场和南京南高铁站、南京高铁站对使用空铁联程的旅客进行SP调查，设置参数如下：

第i名旅客的收入水平A_i的取值范围是1-5，A_i＝1表示旅客月平均收入为5000元以内，A_i＝2表示月平均收入5001-10000元，A_i＝3表示月平均收入10001-15000元，A_i＝4表示月平均收入15001-20000元，A_i＝5表示月平均收入20000元以上；

第i名旅客的程前交通方式B_i的取值范围是1-4，B_i＝1表示公交出行，B_i＝2表示地铁出行，B_i＝3表示网约车出行，B_i＝4表示私家车出行；

第i名旅客的出发城市C_i的取值范围是1-5，C_i＝1表示一线城市，C_i＝2表示二线城市，C_i＝3表示三线城市，C_i＝4表示四线城市，C_i＝5表示五线城市；

第i名旅客的目的城市D_i的取值范围是1-5，D_i＝1表示一线城市，D_i＝2表示二线城市，D_i＝3表示三线城市，D_i＝4表示四线城市，D_i＝5表示五线城市；

第i名旅客的换乘城市E_i的取值范围是1-6，E_i＝1表示一线城市，E_i＝2表示二线城市，E_i＝3表示三线城市，E_i＝4表示四线城市，E_i＝5表示五线城市,E_i＝6表示无换乘；

第i名旅客的出行目的F_i的取值范围是1-3，F_i＝1表示公务出行，F_i＝2表示上学/回家,F_i＝3表示旅游；

第i名旅客一年内一次出行的平均距离G_i的取值范围是1-4，G_i＝1表示小于500公里，G_i＝2表示500-1000公里，G_i＝3表示1000-1500公里G_i＝4表示大于1500公里；

第i名旅客一年内一次出行的平均总成本H_i的取值范围是1-4，H_i＝1表示小于500元，H_i＝2表示500-1000元，H_i＝3表示1000-2000元，H_i＝4表示大于2000元；

第i名旅客出发时间偏好I_i的取值范围是1-4，I_i＝1表示00:00-06:00，I_i＝2表示06:00-12:00，I_i＝3表示12:00-18:00，I_i＝4表示18:00-24:00；

第i名旅客购票时间偏好J_i的取值范围是1-4，J_i＝1表示提前十五天以上，J_i＝2表示提前7-15天，J_i＝3表示提前3-7天，J_i＝4表示出发前0-3天。

步骤二：确定旅客出行选择最大影响因素；将步骤一获取到的N名旅客的数据划分成训练集X_train和检验集X_test；其中，训练集X_train的个数是N₁＝0.8*N取整后得到的数值，检验集X_test的个数则为N₂＝N-N₁。

构建旅客出行选择最大影响因素分类模型，十个属性参量A_i～J_i作为模型的自变量，最大影响因素Y_i作为模型的因变量，采用随机森林算法结合决策树算法训练得到最终的分类模型。

其中，训练得到最终的分类模型，方法包括：

对于训练集X_train采用随机森林算法，即随机有放回地选择T(T可选择奇数)个训练子集U_T(随机有放回是指每当选中一个样本，它等可能地被再次选中并被再次添加到训练集中)；

设一致的样本数为m，总样本数为N₂，准确率A＝m/N₂，当准确率高于95％，则判定该分类效果满足预期值，结束模型训练，否则返回重新随机挑选T个子集进行分类训练，不断重复直至准确率满足要求。

其中，根据信息增益比确定分裂节点顺序，构建决策树，具体包括：

1)计算训练子集U_T的信息熵Ent(U_T)：

2)计算子集U_T中每个属性的信息增益Gain(U_T,a)：

设属性A有V个可能取值{A¹，A²，…,A^V}，其中属性A上取值为A^V的样本量为U_T ^V，属性A的条件概率分布则为|U_T ^V|/|U_T|，则属性A的信息增益Gain(U_T,A)表达为：

Gain(U_T,A)＝Ent(U_T)-Ent(U_T,A)

其中，Ent(U_T,A)为属性A的信息熵；

3)遍历所有属性，获取不同属性的不同信息增益；

4)计算所有属性的信息增益比g_R(U_T，a)；

g_R(U_T，A)＝Gain(U_T，A)/Ent(U_T，A)

步骤三：对于任何一名需要定制个性化联程出行方案的旅客，获取空铁联程旅客出行需求，即该旅客的十个属性参量A_i～J_i。

步骤四：采集联程出行信息；出行由城内交通和城际交通两部分组成，且所有出行都是从某一城市市中心到另一城市市中心，属于全链式出行；城内交通由巴士负责，城际交通由航空和高铁提供服务；

航空数据的采集。在携程、去哪儿等网页采集针对旅客i要求的出发城市O_i、中转城市P_i、目的城市D_i、出发时间TO_i以及个人偏好属性，采集从出发城市到目的城市的所有可行路线的航班价格P_A、空铁旅客优惠补贴S、航班时长T_A、高铁时长T_R，换乘时长T_T、以及航班的班次表。

高铁数据的采集。在12306APP中采集旅客i从出发城市到目的城市的所有可行路线的高铁价格P_R、城内巴士价格P_B、高铁时长T_R，换乘时长T_T、以及高铁的班次表。

城内交通数据采集。在巴士管家等与机场高铁站建立合作的巴士运营商产品中，采集城内巴士价格P_B、程前城后交通时长T_C、以及巴士的班次表。

步骤五：出行方案生成及排序；根据步骤三获取的旅客出行需求，利用步骤二训练得到的分类模型得到旅客出行选择最大影响因素，然后查询携程，12306等出行APP，查询出发日期、出发城市至目的地城市所有可行出行方案。

若旅客i选择先乘坐高铁再换乘飞机，根据筛选出的可行路线，计算每个可行出行方案的旅客i空铁联程最低总出行费用C＝min(P_R+P_A+P_B-S)、旅客i空铁联程出行最短总时长T＝min(T_T+T_R+T_A++T_C)、出发时间最早TO_i＝Schedule(市中心-高铁站)、换乘时间最短T_T＝min(Transfer Time)。按照总费用从低到高、总时长由低到高、出发时刻由早到晚、换乘时间由低到高四种方法将可行出行方案进行排序，形成按照总费用、总时长、出发时刻、换乘时间四种方式划分的出行方案。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于全链式空铁联程出行的个性化方案生成方法，其特征在于：该方法包括以下步骤：

构建旅客出行选择最大影响因素分类模型，十个属性参量A_i～J_i作为模型的自变量，最大影响因素Y_i作为模型的因变量，采用随机森林算法结合决策树算法训练得到最终的分类模型，过程如下：

在每个子集中根据决策树算法对数据进行分类，根据信息增益比确定分裂节点的顺序，建立决策树，具体包括：

1)计算训练子集U_T的信息熵Ent(U_T)：

2)计算子集U_T中每个属性的信息增益Gain(U_T,a)：

Gain(U_T,A)＝Ent(U_T)-Ent(U_T,A)

其中，Ent(U_T,A)为属性A的信息熵；

3)遍历所有属性，获取不同属性的不同信息增益；

4)计算所有属性的信息增益比g_R(U_T,a)；

对于属性A的信息增益比为g_R(U_T,A)，其定义为信息增益Gain(U_T,A)与训练子集U_T关于A的信息熵Ent(U_T,A)之比，即

g_R(U_T,A)＝Gain(U_T,A)/Ent(U_T,A)

6)循环步骤2)-步骤5)，找到下一个最大信息增益比的属性作为下一分支节点，直至对所有属性遍历结束；

当准确率高于一定阈值，则判定该分类效果满足预期值，结束模型训练，否则返回重新随机挑选T个子集进行分类训练，不断重复直至准确率满足要求；

步骤五：出行方案生成及排序；根据步骤三获取的旅客出行需求，利用步骤二训练得到的分类模型得到旅客出行选择最大影响因素，查询出发日期、出发城市至目的地城市所有可行出行方案并进行排序，具体如下：

按照总费用从低到高、总时长由低到高、出发时刻由早到晚、换乘时间由低到高四种方法将可行出行方案进行排序，形成按照总费用、总时长、出发时刻、换乘时间四种方式划分的出行方案；