研究论文

自主式按需服务中任务调度的深度强化学习探索

作者：
雷阳

中国广东广州华南理工大学软件工程学院

中国广东广州华南理工大学软件工程学院
查看个人资料

,
西域

中国广东广州华南理工大学软件工程学院

中国广东广州华南理工大学软件工程学院
查看个人资料

,
曹建农

香港九龙香港理工大学计算机系

香港九龙香港理工大学计算机系
查看个人资料

,
刘旭勋

华南工业大学电子与信息工程学院，广东广州

华南工业大学电子与信息工程学院，广东广州
查看个人资料

,
潘舟

湖北省大数据安全工程研究中心、网络科学与工程学院、华中科技大学，中国湖北省武汉市

湖北省大数据安全工程研究中心、网络科学与工程学院、华中科技大学，中国湖北省武汉市
查看个人资料

作者信息和声明

ACM数据知识发现事务第15卷第3版条款编号：44第1-23页https://doi.org/10.1145/3442343

出版：2021年4月21日出版历史

ACM数据知识发现事务

摘要

自主式点播服务，如香港的GOGOX（前身为GoGoVan），为用户提供了一个请求服务的平台，也为供应商提供了满足此类需求的平台。在这样一个平台上，供应商可以自主接受或拒绝发送给他/她的需求，因此在需求和供应商之间进行在线匹配很有挑战性。现有方法使用基于循环的方法来调度需求。在这些工作中，调度决策是基于供应商对本轮需求的预测响应模式，但都没有考虑未来需求和供应商对当前调度决策的影响。从未来的角度来看，这可能导致做出次优的调度决策。为了解决这个问题，我们提出了一种新的基于深度强化学习的需求调度模型。在这个模型中，我们将每个需求作为一个代理。每个代理的行为，即每个需求的调度决策，由一个集中式算法以协调的方式确定。该模型通过以下两个步骤工作。（1）它使用历史过渡数据学习每个时空状态下的需求期望值。（2）基于学习值，采用组合优化算法，综合考虑下一轮需求的即时回报和期望值，进行多目标多目标调度。为了获得更高的总回报，未来期望值高（响应时间短）的需求可能会推迟到下一轮。相反，未来期望值较低（响应时间较长）的需求将立即发送。通过使用真实数据集的大量实验，我们表明该模型在取消率和平均响应时间方面优于现有模型。

工具书类

Aamena Alshamsi、Sherief Abdallah和Iyad Rahwan。2009年，出租车调度系统的多智能体自组织。在第八届自治代理和多代理系统国际会议的会议记录中。21–28.谷歌学者
P.Arunapuram、J.W.Bartel和P.Dewan。2014.堆栈溢出响应时间的分布、相关性和预测。第十届IEEE协作计算国际会议论文集：网络、应用和工作共享。378–387。内政部：https://doi.org/10.4108/icst.collaboratecom.2014.257265谷歌学者
N.Burlutskiy、A.Fish、N.Ali和M.Petridis。2015年问答社区用户响应时间预测。2015年IEEE第14届机器学习和应用国际会议论文集。618–623. 内政部：https://doi.org/10.109/ICMLA.2015.190谷歌学者
陈勇、周明、温颖、杨耀东、苏玉凤、张卫南、张戴尔、王军和刘韩。2018.用于大规模多智能体系统的因子化Q学习。在第一届分布式人工智能国际会议论文集上。ACM，第7条。https://doi.org/10.1145/3356464.3357707谷歌学者
P.Cheng、X.Lian、L.Chen和C.Shahabi，2017年。空间众包中基于预测的任务分配。《2017年IEEE第33届国际数据工程会议论文集》，IEEE，997-1008。内政部：https://doi.org/10.109/ICDE.2017.146谷歌学者
David Geiger和Martin Schader。2014年。众包信息系统中的个性化任务建议——最新技术。决策支持系统65，C（2014），3–16。谷歌学者
戈戈斯。2020年，GOGOX香港。检索自https://www.gogox.com.hk。谷歌学者
金嘉瑞、周明、张卫南、李敏妮、郭子龙、秦志伟、闫焦、汤晓成、王晨曦、王军、魏国斌和叶洁平。2019年。CoRide：多尺度骑乘平台的联合订单调度和车队管理。第28届ACM信息和知识管理国际会议记录。ACM，美国纽约州纽约市，1983-1992年。内政部：https://doi.org/10.1145/3357384.3357978谷歌学者数字图书馆
柯锦涛、冯晓、海阳和叶洁平，2020年。《骑乘外包系统中的延迟学习：多智能体深度强化学习框架》，IEEE知识与数据工程汇刊，DOI:10.1109/TKDE.2020.3006084谷歌学者
S.Klos née Müller、C.Tekin、M.van der Schaar和A.Klein。2018.移动众包绩效最大化的情境软件分层在线学习。IEEE/ACM网络汇刊26，3（2018年6月），1334–1347。内政部：https://doi.org/10.109/TNET.2018.2828415谷歌学者
李德洪、王浩、周汝龙和周勋。2004年。基于当前需求和实时交通状况的出租车调度系统。《运输研究记录1882》、《1882》（2004）、《193-200》。谷歌学者交叉引用
W.Li、J.Cao、J.Guan、S.Zhou、G.Liang、W.K.Y.So和M.Szczecinski。2019.按需运输服务中未满足需求预测的一般框架。IEEE智能交通系统汇刊20、8（2019年8月），2820–2830。内政部：https://doi.org/10.109/TITS.2018.2873092谷歌学者交叉引用
林开祥、赵仁宇、徐哲和周嘉玉。2018年。通过多智能体深度强化学习实现高效的大规模车队管理。第24届ACM SIGKDD知识发现与数据挖掘国际会议论文集。ACM，纽约州纽约市，1774-1783年。内政部：https://doi.org/10.1145/3219819.3219993谷歌学者数字图书馆
贾拉尔·马哈茂德（Jalal Mahmud）、吉林·陈（Jilin Chen）和杰弗里·尼科尔斯（Jeffrey Nichols）。2013年。你什么时候回答这个问题？估计Twitter中的响应时间。第七届AAAI网络日志和社交媒体国际会议论文集。谷歌学者
Volodymyr Mnih、Koray Kavukcuoglu、David Silver、Andrei A.Rusu、Joel Veness、Marc G.Bellemare、Alex Graves、Martin Riedmiller、Andreas K.Fidjeland、Georg Ostrovski、Stig Petersen、Charles Beattie、Amir Sadik、Ioannis Antonoglou、Helen King、Dharshan Kumaran、Daan Wierstra、Shane Legg和Demis Hassabis。2015年。通过深度强化学习进行人性化控制。《自然》5187540（2015），529-533。内政部：https://doi.org/10.1038/nature14236谷歌学者
詹姆斯·蒙克雷斯（James Munkres）。1957.分配和运输问题的算法。《工业和应用数学学会杂志》10，1（1957），196-210。谷歌学者
K.T.Seow、N.H.Dang和D.Lee。2010年，多智能体协同出租车调度系统。IEEE自动化科学与工程学报7，3（2010年7月），607-616。内政部：https://doi.org/10.109/TASE.20092577谷歌学者
唐晓成、秦志伟、张凡、王兆东、徐哲、马银泰、朱宏图和叶洁平，2019年。一种基于深度值网络的多驱动程序订单调度方法。第25届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM，纽约州纽约市，1780-1790年。内政部：https://doi.org/10.1145/3292500.3330724谷歌学者数字图书馆
Hien To、Cyrus Shahabi和Leyla Kazemi。2015年。服务器设计的空间众包框架。ACM空间算法系统交易1，1（2015年7月），第2条，28页。内政部：https://doi.org/10.1145/2729713谷歌学者数字图书馆
童永新、舍洁英、丁伯林、陈雷、沃天宇、徐珂。2016年，实时空间数据中的在线最小匹配：实验和分析。VLDB捐赠会议记录9，12（2016年8月），1053–1064。内政部：https://doi.org/10.14778/2994509.2994523谷歌学者数字图书馆
童永新、舍洁英、丁伯林、王立斌和陈雷。2016年，空间众包中的在线移动微任务分配。2016年IEEE第32届国际数据工程会议论文集。IEEE，49–60。谷歌学者交叉引用
童永新、王立斌、周子木、丁伯林、陈雷、叶洁平、徐珂。2017.实时空间数据中的灵活在线任务分配。VLDB捐赠会议记录10，11（2017），1334-1345。谷歌学者数字图书馆
Y.Tong、Y.Zeng、B.Ding、L.Wang和L.Chen。2019.空间众包双边在线微任务分配。IEEE知识与数据工程汇刊。DOI:https://doi.org/10.109/TKDE.2019.2948863谷歌学者
Tong Yongxin、Zhou Zhou、Yuxiang Zeng、Lei Chen和Cyrus Shahabi，2020年。空间众包：一项调查。VLDB期刊29，1（2020），217-250。内政部：https://doi.org/10.1007/s00778-019-00568-7谷歌学者数字图书馆
王玉琪、曹建农、何丽芳、李文根、孙立超和余菲利普。2017.用于物流服务响应时间预测的耦合稀疏矩阵分解。2017年ACM信息和知识管理会议记录。ACM，纽约州纽约市，939–947。内政部：https://doi.org/10.1145/3132847.3132948谷歌学者
Y.Wang、Y.Tong、C.Long、P.Xu、K.Xu和W.Lv.2019。自适应动态二部图匹配：一种强化学习方法。《2019年IEEE第35届国际数据工程会议论文集》，IEEE，1478-1489。内政部：https://doi.org/10.1109/ICDE.2019.00133（网址：https://doi.org/10.1109/ICDE.2019.00133）谷歌学者
王振中、秦振中、唐熙、叶杰和朱浩。2018年，通过知识转移进行深度强化学习，以实现在线骑乘订单调度。2018年IEEE数据挖掘国际会议论文集。IEEE，617–626。内政部：https://doi.org/10.109/ICDM.2018.00077谷歌学者交叉引用
徐哲、李志新、关庆文、张定水、李强、南军校、刘春阳、魏卞和叶洁平，2018年。按需搭车平台中的大规模订单调度：一种学习和规划方法。第24届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM，纽约州纽约市，905-913。内政部：https://doi.org/10.1145/3219819.3219824谷歌学者数字图书馆
L.Yang、X.Yu、J.Cao、W.Li、Y.Wang和M.Szczecinski。2019.自治按需服务的新型需求调度模型。IEEE服务计算汇刊。内政部：https://doi.org/10.1109/TSC.2019.2941680谷歌学者
张玲玉、胡涛、岳敏、吴国斌、张俊英、冯鹏程、龚平华和叶洁平，2017年。基于组合优化的出租车订单调度模型。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM，纽约州纽约市，2151–2159。内政部：https://doi.org/10.1145/3097983.3098138谷歌学者数字图书馆
L.Zheng和L.Chen。2017年，最大限度地接受拒绝感知的空间众包。IEEE知识与数据工程学报29,9（2017年9月），1943-1956。内政部：https://doi.org/10.109/TKDE.2017.2676771谷歌学者交叉引用
郑立斌、陈雷、叶洁平，2018年。价格软件共享中的订单发送。VLDB捐赠会议记录11，8（2018年4月），853–865。内政部：https://doi.org/10.14778/3204028.3204030谷歌学者数字图书馆

索引术语

自主式按需服务中任务调度的深度强化学习探索
1. 计算方法
  1. 机器学习
    1. 学习范式
      1. 强化学习
        多智能体强化学习
2. 信息系统
  1. 信息系统应用
    1. 移动信息处理系统

建议

用深度强化学习解决火箭回收任务
ICIT’18：第六届信息技术国际会议记录：物联网与智能城市

强化学习是解决复杂顺序决策问题的一种很有前景的范式，已引起各个领域的日益关注。在本文中，我们研究了使用强化学习的合理性。。。
阅读更多信息
深度强化学习：从Q学习到深度Q学习
神经信息处理
摘要
深度学习和强化学习作为机器学习最热门的两个分支，在人工智能领域都发挥着至关重要的作用。深度强化学习是将深度学习与强化学习相结合的一种方法。。。
阅读更多信息
多智能体交互的深度强化学习
英国的多代理系统研究

开发能够与其他代理交互以完成给定任务的自治代理是人工智能和机器学习研究的核心领域。为此，自治代理研究小组开发了新的。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

发布于

ACM数据知识发现事务第15卷第3期
2021年6月
533页
国际标准编号：1556-4681年
EISSN公司：1556-472倍
内政部：10.1145/3454120
期刊目录

版权所有©2021计算机协会。
允许制作本作品的全部或部分数字或硬拷贝供个人或课堂使用，但不收取任何费用，前提是复制品的制作或分发不是为了盈利或商业利益，并且复制品在首页注明本通知和完整引文。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或收取费用。从请求权限[电子邮件保护]。
发起人
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2021年4月21日
- 认可的：2020年12月1日
- 修订过的：2020年11月1日
- 收到：2020年3月1日
发布于tkdd公司第15卷第3期

权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
需求调度
按需服务
深度强化学习
限定符
- 研究论文
- 参考
会议
资金来源
其他指标
查看文章指标

文章指标
- 0
  引文总数
  查看引文
- 268
  总下载次数
- 下载次数（过去12个月）21
- 下载次数（最近6周）4
其他指标
查看作者指标
引用人
本出版物尚未被引用

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

HTML格式

以HTML格式查看本文。

查看HTML格式

自主式按需服务中任务调度的深度强化学习探索

ACM数据知识发现事务

摘要

工具书类

引用人

索引术语

建议

用深度强化学习解决火箭回收任务

深度强化学习：从Q学习到深度Q学习

多智能体交互的深度强化学习

评论

登录选项

完全访问权限

发布于

发起人

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

HTML格式

解说词

自主式按需服务中任务调度的深度强化学习探索

ACM数据知识发现事务

摘要

工具书类

引用人

索引术语

建议

用深度强化学习解决火箭回收任务

深度强化学习：从Q学习到深度Q学习

多智能体交互的深度强化学习

评论

登录选项

完全访问权限

发布于

发起人

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

HTML格式

共享此出版物链接

在社交媒体上分享