跳到主要内容
10.1145/3292500.3330724acm会议文章/章节视图摘要出版物页面千迪拉姆会议记录会议集合
研究论文

一种基于深值网络的多源订单调度方法

出版:2019年7月25日 出版历史
  • 获取引文提醒
  • 摘要

    最近关于分乘命令调度的工作强调了在调度过程中考虑空间和时间动态对提高运输系统效率的重要性。与此同时,深度强化学习已经发展到在许多领域实现超人表现的程度。在这项工作中,我们提出了一种基于深度强化学习的订单调度解决方案,并在DiDi的骑行调度平台上进行了大规模的在线a/B测试,结果表明,该方法在驾驶员总收入和用户体验相关指标上都取得了显著改善。
    特别是,我们将乘车调度问题建模为半马尔可夫决策过程,以考虑调度行动的时间方面。为了提高非线性函数逼近器(如神经网络)值迭代的稳定性,我们提出了一种具有新型分布式状态表示层的小脑值网络(CVNet)。我们进一步推导了CVNet的正则化策略评估方案,该方案惩罚较大的Lipschitz常数值网络,以增强对抗扰动和噪声的鲁棒性。最后,我们将各种迁移学习方法应用于CVNet,以提高跨多个城市的学习适应性和效率。我们通过DiDi的平台,基于实际调度数据和在线AB测试进行了大量的离线模拟。结果表明,CVNet始终优于其他最近提出的调度方法。我们最后表明,通过有效使用迁移学习可以进一步提高性能。

    补充材料

    MP4文件 (p1780-tang.mp4)

    工具书类

    [1]
    J.S.阿尔伯斯。小脑功能理论。数学生物科学,10(1-2):25-611971。
    [2]
    J.A.Boyan和A.W.Moore。强化学习中的泛化:安全地逼近值函数。G.Tesauro、D.S.Touretzky和T.K.Leen主编,《神经信息处理系统进展》第7期,第369-376页。麻省理工学院出版社,1995年。
    [3]
    S.J.Bradtke和M.O.Duff。连续时间Markov决策问题的强化学习方法。神经信息处理系统进展,1995年。
    [4]
    M.Cisse、P.Bojanowski、E.Grave、Y.Dauphin和N.Usunier。Parseval网络:提高对抗性示例的鲁棒性。《第34届机器学习国际会议论文集》,第70卷,第854-863页,澳大利亚悉尼国际会议中心,2017年8月6-11日。
    [5]
    G.Hinton、O.Vinyals和J.Dean。在神经网络中提取知识。NIPS深度学习和表征学习研讨会,2015年。
    [6]
    G.E.Hinton、J.L.McClelland和D.E.Rumelhart。并行分布式处理:认知微观结构的探索,第1卷。分布式表示一章,第77-109页。麻省理工学院出版社,马萨诸塞州剑桥,美国,1986年。
    [7]
    G.E.Hinton和R.R.Salakhutdinov。利用神经网络降低数据的维数。科学,313(5786):504-5072006。
    [8]
    Z.廖。使用全球定位系统进行实时出租车调度。ACM通讯,46(5):81-832003。
    [9]
    V.Mnih、K.Kavukcuoglu、D.Silver、A.A.Rusu、J.Veness、M.G.Bellemare、A.Graves、M.Riedmiller、A.K.Fidjeland、G.Ostrovski等,通过深度强化学习进行人本控制。《自然》,518(7540):529-5332015。
    [10]
    L.Moreira-Matias、J.Gama、M.-M J.Ferreira、Michel和L.Damas。关于预测出租车乘客需求:一种实时方法。在葡萄牙人工智能会议上,第54-65页。施普林格,2013年。
    [11]
    A.M.Oberman和J.Calder。Lipschitz正则化深度神经网络收敛并推广。arxiv预印arxiv:1808.095402018。
    [12]
    A.A.Rusu、N.C.Rabinowitz、G.Desjardins、H.Soyer、J.Kirkpatrick、K.Kavukcuoglu、R.Pascanu和R.Hadsell。渐进式神经网络。arXiv预印arXiv:1606.046712016。
    [13]
    R.S.萨顿。强化学习中的泛化:使用稀疏粗编码的成功示例。《神经信息处理系统进展》,1996年。
    [14]
    R.S.Sutton、D.Precup和S.Singh。在MDP和半MDP之间:强化学习中时间抽象的框架。人工智能,112(1-2):181-211999年8月。
    [15]
    C.Szegedy、W.Zaremba、I.Sutskever、J.Bruna、D.Erhan、I.Goodfellow和R.Fergus。神经网络的有趣特性。在2014年国际学习代表大会上。
    [16]
    H.Van Hasselt、A.Guez和D.Silver。双q学习深度强化学习。在AAAI中,第2094-2100页,2016年。
    [17]
    王振中、秦振中、唐熙、叶杰和朱浩。在线骑乘命令调度的知识转移深度强化学习。在IEEE数据挖掘国际会议上。IEEE,2018年。
    [18]
    T.Xin-min、W.Yuting和H.Song-chen。基于离散事件动态系统建模的a-smgcs飞机滑行路线规划。计算机建模与仿真,2010年。ICCMS’10。第二届国际会议,第1卷,第224-228页。IEEE,2010年。
    [19]
    许忠,李忠,关庆,张德良,李庆南,刘春华,卞伟伟,叶杰。按需骑乘平台中的大规模订单调度:一种学习和规划方法。第24届ACM SIGKDD知识发现与数据挖掘国际会议论文集,第905-913页。ACM,2018年。
    [20]
    R.Yee。控制学习中的抽象。《技术报告》,《货币92——16号技术报告》,马萨诸塞大学,1992年。
    [21]
    L.Zhang、T.Hu、Y.Min、G.Wu、J.Zhangs、P.Feng、P.Gong和J.Ye。基于组合优化的出租车订单调度模型。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第2151-2159页。ACM,2017年。
    [22]
    R.Zhang和M.Pavone。机器人按需移动系统的控制:排队理论视角。《国际机器人研究杂志》,35(1-3):186-2032016。

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM会议
    KDD’19:第25届ACM SIGKDD知识发现和数据挖掘国际会议记录
    2019年7月
    3305页
    国际标准图书编号:9781450362016
    DOI(操作界面):10.1145/3292500
    如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

    赞助商

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2019年7月25日

    权限

    请求对此文章的权限。

    检查更新

    作者标记

    1. 神经网络
    2. 订单调度
    3. 强化学习
    4. 迁移学习

    限定符

    • 研究文章

    会议

    KDD’19款
    KDD’19:第25届ACM SIGKDD知识发现和数据挖掘会议
    2019年8月4日至8日
    AK,安克雷奇,美国

    接受率

    KDD’19论文接受率为110(1200份),9%;
    8635份提交文件的总体接受率为1133份,占13%

    即将召开的会议

    KDD'24款
    第30届ACM SIGKDD知识发现和数据挖掘会议
    2024年8月25日至29日
    巴塞罗那,西班牙

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)194
    • 下载次数(最近6周)12

    其他指标

    引文

    视图选项

    获取访问权限

    登录选项

    完全访问权限

    查看选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享