研究论文

一种基于深值网络的多源订单调度方法

作者:

志伟（托尼）秦,

宏图朱、和

杰平 Ye（是）作者信息和声明

KDD’19：第25届ACM SIGKDD知识发现和数据挖掘国际会议记录

2019年7月

页1780-1790

https://doi.org/10.1145/3292500.3330724

出版:2019年7月25日出版历史

获取访问权限

摘要

最近关于分乘命令调度的工作强调了在调度过程中考虑空间和时间动态对提高运输系统效率的重要性。与此同时，深度强化学习已经发展到在许多领域实现超人表现的程度。在这项工作中，我们提出了一种基于深度强化学习的订单调度解决方案，并在DiDi的骑行调度平台上进行了大规模的在线a/B测试，结果表明，该方法在驾驶员总收入和用户体验相关指标上都取得了显著改善。

特别是，我们将乘车调度问题建模为半马尔可夫决策过程，以考虑调度行动的时间方面。为了提高非线性函数逼近器（如神经网络）值迭代的稳定性，我们提出了一种具有新型分布式状态表示层的小脑值网络（CVNet）。我们进一步推导了CVNet的正则化策略评估方案，该方案惩罚较大的Lipschitz常数值网络，以增强对抗扰动和噪声的鲁棒性。最后，我们将各种迁移学习方法应用于CVNet，以提高跨多个城市的学习适应性和效率。我们通过DiDi的平台，基于实际调度数据和在线AB测试进行了大量的离线模拟。结果表明，CVNet始终优于其他最近提出的调度方法。我们最后表明，通过有效使用迁移学习可以进一步提高性能。

补充材料

MP4文件（p1780-tang.mp4）

下载
1377.93百万

工具书类

[1]

J.S.阿尔伯斯。小脑功能理论。数学生物科学，10（1-2）：25-611971。

[2]

J.A.Boyan和A.W.Moore。强化学习中的泛化：安全地逼近值函数。G.Tesauro、D.S.Touretzky和T.K.Leen主编，《神经信息处理系统进展》第7期，第369-376页。麻省理工学院出版社，1995年。

数字图书馆

[3]

S.J.Bradtke和M.O.Duff。连续时间Markov决策问题的强化学习方法。神经信息处理系统进展，1995年。

数字图书馆

[4]

M.Cisse、P.Bojanowski、E.Grave、Y.Dauphin和N.Usunier。Parseval网络：提高对抗性示例的鲁棒性。《第34届机器学习国际会议论文集》，第70卷，第854-863页，澳大利亚悉尼国际会议中心，2017年8月6-11日。

数字图书馆

[5]

G.Hinton、O.Vinyals和J.Dean。在神经网络中提取知识。NIPS深度学习和表征学习研讨会，2015年。

[6]

G.E.Hinton、J.L.McClelland和D.E.Rumelhart。并行分布式处理：认知微观结构的探索，第1卷。分布式表示一章，第77-109页。麻省理工学院出版社，马萨诸塞州剑桥，美国，1986年。

数字图书馆

[7]

G.E.Hinton和R.R.Salakhutdinov。利用神经网络降低数据的维数。科学，313（5786）：504-5072006。

[8]

Z.廖。使用全球定位系统进行实时出租车调度。ACM通讯，46（5）：81-832003。

数字图书馆

[9]

V.Mnih、K.Kavukcuoglu、D.Silver、A.A.Rusu、J.Veness、M.G.Bellemare、A.Graves、M.Riedmiller、A.K.Fidjeland、G.Ostrovski等，通过深度强化学习进行人本控制。《自然》，518（7540）：529-5332015。

[10]

L.Moreira-Matias、J.Gama、M.-M J.Ferreira、Michel和L.Damas。关于预测出租车乘客需求：一种实时方法。在葡萄牙人工智能会议上，第54-65页。施普林格，2013年。

[11]

A.M.Oberman和J.Calder。Lipschitz正则化深度神经网络收敛并推广。arxiv预印arxiv:1808.095402018。

[12]

A.A.Rusu、N.C.Rabinowitz、G.Desjardins、H.Soyer、J.Kirkpatrick、K.Kavukcuoglu、R.Pascanu和R.Hadsell。渐进式神经网络。arXiv预印arXiv:1606.046712016。

[13]

R.S.萨顿。强化学习中的泛化：使用稀疏粗编码的成功示例。《神经信息处理系统进展》，1996年。

数字图书馆

[14]

R.S.Sutton、D.Precup和S.Singh。在MDP和半MDP之间：强化学习中时间抽象的框架。人工智能，112（1-2）：181-211999年8月。

数字图书馆

[15]

C.Szegedy、W.Zaremba、I.Sutskever、J.Bruna、D.Erhan、I.Goodfellow和R.Fergus。神经网络的有趣特性。在2014年国际学习代表大会上。

[16]

H.Van Hasselt、A.Guez和D.Silver。双q学习深度强化学习。在AAAI中，第2094-2100页，2016年。

数字图书馆

[17]

王振中、秦振中、唐熙、叶杰和朱浩。在线骑乘命令调度的知识转移深度强化学习。在IEEE数据挖掘国际会议上。IEEE，2018年。

[18]

T.Xin-min、W.Yuting和H.Song-chen。基于离散事件动态系统建模的a-smgcs飞机滑行路线规划。计算机建模与仿真，2010年。ICCMS’10。第二届国际会议，第1卷，第224-228页。IEEE，2010年。

数字图书馆

[19]

许忠，李忠，关庆，张德良，李庆南，刘春华，卞伟伟，叶杰。按需骑乘平台中的大规模订单调度：一种学习和规划方法。第24届ACM SIGKDD知识发现与数据挖掘国际会议论文集，第905-913页。ACM，2018年。

数字图书馆

[20]

R.Yee。控制学习中的抽象。《技术报告》，《货币92——16号技术报告》，马萨诸塞大学，1992年。

[21]

L.Zhang、T.Hu、Y.Min、G.Wu、J.Zhangs、P.Feng、P.Gong和J.Ye。基于组合优化的出租车订单调度模型。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集，第2151-2159页。ACM，2017年。

数字图书馆

[22]

R.Zhang和M.Pavone。机器人按需移动系统的控制：排队理论视角。《国际机器人研究杂志》，35（1-3）：186-2032016。

数字图书馆

索引术语

一种基于深度值网络的多司机订单调度方法
1. 应用计算
  1. 运营研究
    1. 交通运输
2. 计算理论
  1. 应用领域的理论和算法
    1. 机器学习理论
      1. 强化学习
        多智能体强化学习

建议

基于平均场多智能体强化学习的高效分乘命令调度
WWW’19：万维网会议

在任何点对点的乘车共享系统中，一个基本问题是如何有效和高效地将用户的乘车请求实时发送给合适的驾驶员。传统的基于规则的解决方案通常适用于简化的问题设置。。。
阅读更多信息
价值功能就是你所需要的：一个统一的游乐平台学习框架
KDD’21：第27届ACM SIGKDD知识发现和数据挖掘会议记录

DiDi、优步（Uber）和Lyft等大型骑乘平台将一个城市的数万辆汽车连接到全天数百万的骑乘需求，为通过订单任务提高运输效率提供了巨大的希望。。。
阅读更多信息
深度学习：系统回顾、模型、挑战和研究方向
摘要
目前，深度学习的发展正经历着向自动化应用程序的指数级转变。这种自动化转换可以为更高的性能和更低的复杂性提供一个有希望的框架。正在进行的过渡。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

KDD’19：第25届ACM SIGKDD知识发现和数据挖掘国际会议记录

2019年7月

3305页

国际标准图书编号：9781450362016

DOI（操作界面）：10.1145/3292500

一般主席：
安库尔·特雷德赛
肯西
,
维平·库马尔
明尼苏达大学
,
课程主席：
李颖
EV分析公司
,
罗梅尔·罗萨莱斯
LinkedIn链接
,
埃维马里亚·特尔齐
波士顿大学
,
乔治·卡里皮斯
明尼苏达大学

版权所有©2019 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

赞助商

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2019年7月25日

权限

请求对此文章的权限。

检查更新

作者标记

限定符

研究文章

会议

KDD’19款

赞助商：

KDD’19：第25届ACM SIGKDD知识发现和数据挖掘会议

2019年8月4日至8日

AK，安克雷奇，美国

接受率

KDD’19论文接受率为110（1200份），9%；

8635份提交文件的总体接受率为1133份，占13%

即将召开的会议

KDD'24款

赞助商：
sigkdd公司
sigkdd公司

第30届ACM SIGKDD知识发现和数据挖掘会议

2024年8月25日至29日

巴塞罗那，西班牙

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

114
引文总数
查看引文
3,525
总下载次数

下载次数（过去12个月）194
下载次数（最近6周）12

其他指标

查看作者指标

引文

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子