研究论文

在协作环境中优化机器学习工作负载

作者:

贝赫鲁兹德拉赫尚,

阿里雷扎雷扎伊·马赫迪拉吉,

齐亚瓦什阿贝让,

蒂尔曼拉布尔、和

沃尔克马克作者信息和声明

SIGMOD’20：2020年ACM SIGMOD国际数据管理会议记录

2020年6月

页1701-1716

https://doi.org/10.1145/3318464.3389715

出版:2020年5月31日出版历史

获取访问权限

摘要

数据科学家之间的有效协作产生了高质量和高效的机器学习（ML）工作负载。在协作环境中，如Kaggle或Google Colabratory，用户通常会重新执行或修改已发布的脚本以重新创建或改进结果。这引入了许多冗余数据处理和模型训练操作。重用冗余操作生成的数据可以更有效地执行未来的工作负载。然而，现有的协作环境缺少用于存储和重用先前执行的操作结果的数据管理组件。在本文中，我们提出了一个系统，通过重用以前执行的操作及其结果来优化ML工作负载在协作环境中的执行。我们使用所谓的实验图（EG）来存储工件，即原始和中间数据或ML模型，作为ML工作负载的顶点和操作作为边。理论上，EG的大小可能会变得不必要地大，而存储预算可能会有限。同时，对于某些工件，总体存储和检索成本可能会超过重新计算成本。为了解决这个问题，我们根据工件未来重用的可能性提出了两种实现工件的算法。考虑到EG中的物化工件，我们设计了一个线性时间重用算法，以找到传入ML工作负载的最佳执行计划。我们的重用算法只会产生微不足道的开销，并且可以在协作环境中扩展大量传入的ML工作负载。我们的实验表明，对于重复执行工作负载，我们将运行时间提高了一个数量级，对于在协作环境中执行修改后的工作负载，则提高了50%。

补充材料

MP4文件（3318464.3389715.mp4）

演示视频

下载
118.27 MB

工具书类

[1]

Mart’in Abadi、Paul Barham、Jianmin Chen、Zhifeng Chen、Andy Davis、Jeffrey Dean、Matthieu Devin、Sanjay Ghemawat、Geoffrey Irving、Michael Isard、Manjunath Kudlur、Josh Levenberg、Rajat Monga、Sherry Moore、Derek G.Murray、Benoit Steiner、Pall Tucker、Vijay Vasudevan、Pete Warden、Martin Wicke、Yu和Xiaoqiang Zheng。2016年，TensorFlow：大型机器学习系统。在第12届USENIX操作系统设计与实现会议（OSDI’16）的会议记录中。USENIX协会，美国，265-283。

数字图书馆

[2]

Denis Baylor、Eric Breck、Heng Tze Cheng、Noah Fiedel、Chuan Yu Foo、Zakaria Haque、Salem Haykal、Mustafa Ispir、Vihan Jain、Levent Koc等，2017年。Tfx：基于张量流的生产规模机器学习平台。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集。1387--1395.

数字图书馆

[3]

阿南特·巴德瓦吉（Anant Bhardwaj）、索维克·巴塔切吉（Souvik Bhattacherjee）、阿米特·查万（Amit Chavan）、阿莫尔·德斯普（Amol Deshp）、亚伦·埃莫尔（Aaron J.Elmore）、塞缪尔·马登（Samuel Madden）。2015.数据中心：大规模协作数据科学和数据集版本管理。《创新数据系统研究会议论文集》。

[4]

Souvik Bhattacherjee、Amit Chavan、Silu Huang、Amol Deshpande和Aditya Parameswaran。2015。数据集版本控制原则：探索娱乐/存储权衡。VLDB捐赠会议录，第8卷，第12卷（2015年），1346-1357。

数字图书馆

[5]

Lars Buitink、Gilles Louppe、Mathieu Blondel、Fabian Pedregosa、Andreas Mueller、Olivier Grisel等人，2013年。机器学习软件的API设计：来自scikit-learn项目的经验。ECML PKDD研讨会：数据挖掘和机器学习语言。108--122.

[6]

Carlos A Coello Coello、Gary B Lamont、David A Van Veldhuizen等人，2007年。解决多目标问题的进化算法。第5卷。斯普林格。

[7]

杰克·埃德蒙兹和理查德·卡普。1972年，网络流问题算法效率的理论改进。J.ACM，第19卷，第2卷（1972年4月），248-264。https://doi.org/10.1145/321694.321699

数字图书馆

[8]

伊曼·埃尔干杜尔（Iman Elghandour）和阿什拉夫·阿博勒纳加（Ashraf Aboulnaga）。2012.ReStore：重用MapReduce作业的结果。VLDB捐赠会议录，第5卷，第6卷（2012年），586-597。

数字图书馆

[9]

Michael TM Emmerich和AndréH Deutz。2018年，多目标优化教程：基本原理和进化方法。自然计算，第17卷，第3卷（2018年），585--609。

[10]

劳尔·卡斯特罗·费尔南德斯（Raul Castro Fernandez）、齐亚瓦希·阿贝让（Ziawasch Abedjan）、法米安·科科（Famien Koko）、吉娜·袁（Gina Yuan）、塞缪尔·麦登（Samuel Madden）。2018年。Aurum：数据发现系统。2018年IEEE第34届国际数据工程会议（ICDE）。IEEE，1001--1012。

[11]

Yuan Yu Michael Isard Dennis Fetterly、Mihai Budiu、ul lfar Erlingsson和Pradeep Kumar Gunda Jon Currey。2009。DryadLINQ：一个使用高级语言进行通用分布式数据并行计算的系统。程序。LSDS-IR，第8卷（2009年）。

[12]

马蒂亚斯·费勒（Matthias Feurer）、亚伦·克莱恩（Aaron Klein）、凯萨琳娜·艾根斯佩格（Katharina Eggensperger）、约斯特·托比亚斯·斯普林伯格（Jost Tobias Springenberg）、曼努埃尔·布鲁姆（Manuel Blum）和弗兰克·赫特（Frank Hutter）。2015.高效稳健的自动机器学习。第28届神经信息处理系统国际会议论文集第2卷。麻省理工学院出版社，马萨诸塞州剑桥，美国，2755-2763。

[13]

罗兰多·加西亚（Rolando Garcia）、维克拉姆·斯里坎蒂（Vikram Sreekanti）、内拉贾·亚德瓦德卡尔（Neeraja Yadwadkar）、丹尼尔·克兰肖（Daniel Crankshaw）、约瑟夫·冈萨雷斯（Joseph E Gonzalez）和约瑟夫·海勒斯坦（Joseph-M Hellerstein）。2018.背景：机器学习生命周期中缺失的部分。KDD CMI研讨会，第114卷。

[14]

谷歌。2018年a。谷歌人工智能平台。https://cloud.google.com/ai-platform网站/

[15]

谷歌。2018年b月。谷歌实验室。https://colab.research.google.com网站

[16]

普拉迪普·库马尔·冈达（Pradeep Kumar Gunda）、列宁·拉文德拉纳特（Lenin Ravindranath）、钱德拉莫汉·泰卡斯（Chandramohan A.Thekkath）、袁瑜（Yuan Yu）和李庄（Li。2010.Nectar:数据中心数据和计算的自动管理。在第九届USENIX操作系统设计与实现会议（OSDI’10）的会议记录中。USENIX协会，美国，75-88。

[17]

Aric Hagberg、Pieter Swart和Daniel S Chult。2008年。使用NetworkX探索网络结构、动态和功能。技术报告。洛斯阿拉莫斯国家实验室（LANL），新墨西哥州洛斯阿拉莫斯（美国）。

[18]

Joseph M Hellerstein、Vikram Sreekanti、Joseph E Gonzalez、James Dalton等人，2017年。地面：数据上下文服务。《创新数据系统研究会议论文集》。

[19]

扎克·艾夫斯（Zack Ives）、张毅（Yi Zhang）、韩顺波（Soonbo Han）和郑楠（Nan Zheng）。2019.数据集关系管理。《创新数据系统研究会议论文集》。

[20]

卡格尔。2010年，Kaggle数据科学平台。https://www.kaggle.com

[21]

詹姆斯·马克斯·坎特（James Max Kanter）和卡尔扬·维拉马查尼（Kalyan Veeramachaneni）。2015.深度特征合成：走向自动化数据科学工作。2015年IEEE数据科学和高级分析国际会议（DSAA）。IEEE，1-10。

[22]

Jon Kleinberg和Eva Tardos。2005年，算法设计。Addison-Wesley Longman Publishing Co.，Inc.，美国。

数字图书馆

[23]

Thomas Kluyver、Benjamin Ragan Kelley、Fernando Pérez、Brian Granger、Matthias Bussonnier等人，2016年。Jupyter笔记本——可复制计算工作流的发布格式。《学术出版的定位和权力：参与者、代理人和议程》，F.Loizides和B.Schmidt（编辑）。IOS出版社，87-90。

[24]

威尔·科尔森（Will Koehrsen）。2019年a.Kaggle笔记本，手动特征工程简介。https://www.kaggle.com/willkoehrsen/introduction-to-manual-feature-engineering网站2019年10月11日检索自

[25]

威尔·科尔森（Will Koehrsen）。2019年b.Kaggle笔记本，手动特征工程简介第2部分。https://www.kaggle.com/willkoehrsen/introduction-to-manual-feature-engineering-p22019年10月11日检索自

[26]

威尔·科尔森（Will Koehrsen）。2019 c.卡格尔笔记本，从这里开始：一个温和的介绍。https://www.kaggle.com/willkoehrsen/start-here-a-mediate-introduction（https://www.kaggle.com/willkoehrsen/start-here-a-mediate-introduction）2019年10月11日检索自

[27]

伊梅内·马米和佐拉·贝拉赫塞纳。2012.视图选择方法调查。SIGMOD记录，第41卷，第1卷（2012年4月），20-29。https://doi.org/10.1145/2206869.2206874

数字图书馆

[28]

韦斯·麦金尼（Wes McKinney）。2010年，《Python中统计计算的数据结构》。在第九届科学会议Python会议记录中，Stéfan van der Walt和Jarrod Millman（编辑）。51 -- 56.

[29]

德克·默克尔。2014.Docker：用于一致开发和部署的轻量级linux容器。Linux Journal，卷2014，239（2014），2。

数字图书馆

[30]

苗慧和阿莫尔·德什潘德。2018.ProvDB：支持Provenance的协作数据分析工作流生命周期管理。IEEE数据工程公告。，第41卷（2018年），26-38。

[31]

OpenML。2019.信贷-g监管分类（任务31）。https://www.openml.org/t/312019年10月11日检索自

[32]

卡洛斯·罗伯托。2019.卡格尔笔记本，从这里开始：温和介绍312251。https://www.kaggle.com/crldata/start-here-a-gentle-introduction-312251检索日期：2019年10月11日

[33]

塞巴斯蒂安·谢尔特（Sebastian Schelter）、乔斯·亨德里克·博伊斯（Joos-Hendrik Boese）、约翰内斯·基什尼克（Johannes Kirschnick）、托拉夫·克莱因（Thoralf Klein）和斯蒂芬·塞弗特（Stephan Seufert）。2017.自动跟踪元数据和机器学习实验的来源。NIPS机器学习系统研讨会。

[34]

尚泽元（Zeyuan Shang）、伊曼纽尔·兹格拉根（Emanuel Zgraggen）、贝内德托·布拉蒂（Benedetto Buratti）、费迪南德·科斯曼（Ferdinand Kossmann）、菲利普·艾希曼（Philipp Eichman）、杨诺·钟（Yeounoh Chung）、卡斯滕·宾尼（Carsten Binnig）、。2019.通过ML管道的交互式管理实现数据科学民主化。2019年国际数据管理会议记录（SIGMOD’19）。计算机械协会，美国纽约州纽约市，1171-1188。https://doi.org/10.1145/3299869.3319863

数字图书馆

[35]

Evan R Sparks、Shivaram Venkataraman、Tomer Kaftan、Michael J Franklin和Benjamin Recht。2017年，Keystoneml：为大规模高级分析优化管道。2017年IEEE第33届数据工程国际会议（ICDE）。IEEE，535--546。

[36]

钟小涛。2019.Kaggle笔记本，从LightGBM开始。https://www.kaggle.com/taozhongxiao/begining-with-lightgbm-in-detail网站2019年10月11日检索自

[37]

AzureML团队。2016年，AzureML：机器学习服务剖析。在预测API和应用程序会议上。1--13.

[38]

Chris Thornton、Frank Hutter、Holger H Hoos和Kevin Leyton-Brown。2013年，Auto-WEKA：分类算法的组合选择和超参数优化。第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集。美国医学会，847--855。

数字图书馆

[39]

Michelle Ufford、M Pacer、Matthew Seal和Kyle Kelley。2018.超越互动：Netflix笔记本创新。https://medium.com/netflix-techblog/notebook-innovation-591ee32212332019年10月4日检索自

[40]

华金·范肖伦（Joaquin Vanschoren）、亨德里克·布洛克（Hendrik Blockeel）、伯恩哈德·普法林格（Bernhard Pfahringer）和杰弗里·霍姆斯（Geoffrey Holmes）。2012.实验数据库。机器学习，第87卷，第2期（2012年5月1日），127-158。https://doi.org/10.1007/s10994-011-5277-0

[41]

华金·范肖伦（Joaquin Vanschoren）、扬·N·范·里恩（Jan N Van Rijn）、伯恩德·比施尔（Bernd Bischl）和路易斯·托戈（Luis Torgo）。2014.OpenML：机器学习中的网络科学。ACM SIGKDD探索通讯，第15卷，第2期（2014），49-60。

数字图书馆

[42]

Manasi Vartak、Joana M.F.da Trindade、Samuel Madden和Matei Zaharia，2018年。MISTIQUE：用于存储和查询模型中介以进行模型诊断的系统。在2018年国际数据管理会议记录（SIGMOD’18）中。美国纽约州纽约市计算机协会，1285-1300。https://doi.org/10.1145/3183713.3196934

数字图书馆

[43]

Manasi Vartak、Harihar Subramanyam、Wei-En Lee、Srinidhi Viswanathan、Saadiyah Husnoo、Samuel Madden和Matei Zaharia，2016年。ModelDB：机器学习模型管理系统。《人在回路数据分析研讨会论文集》（HILDA’16）。美国纽约州纽约市计算机协会，第14条，共3页。https://doi.org/10.1145/2939502.2939516

数字图书馆

[44]

多丽丝·辛（Doris Xin）、马立天（Litian Ma）、刘佳琳（Jialin Liu）、斯蒂芬·麦可（Stephen Macke）、宋舒晨（Shuchen Song）和阿迪蒂娅·帕拉梅斯瓦兰。2018年a。螺旋：加速人机学习。《VLDB捐赠会议录》，第11卷，第12卷（2018年），1958年至1961年。

数字图书馆

[45]

Doris Xin、Stephen Macke、Litian Ma、Jialin Liu、Shuchen Song和Aditya Parameswaran。2018年b月。螺旋：用于加速迭代机器学习的整体优化。VLDB捐赠会议记录，第12卷，第4卷（2018年），446-460。

数字图书馆

[46]

Matei Zaharia、Andrew Chen、Aaron Davidson、Ali Ghodsi等人，2018年。使用MLflow加速机器学习生命周期。IEEE数据工程公告。，第41卷，第4卷（2018年），第39-45页。

[47]

马泰·扎哈里亚、莫沙拉夫·乔杜里、迈克尔·富兰克林、斯科特·申克和伊恩·斯托伊卡。2010.Spark：带工作集的集群计算。第二届USENIX云计算热点会议（HotCloud’10）论文集。USENIX协会，美国，10。

数字图书馆

[48]

张策。2015.DeepDive：用于自动知识库构建的数据管理系统。威斯康星大学麦迪逊分校，威斯康星州麦迪逊（2015）。

[49]

张策、阿伦·库马尔和克里斯托弗·雷。2014.功能选择工作负载的物化优化。2014年ACM SIGMOD国际数据管理会议记录（SIGMOD'14）。美国纽约州纽约市计算机协会，265--276。https://doi.org/10.1145/2588555.2593678

数字图书馆

引用人

赵M陈雷杨克（Yang K）杜Y高Y(2023)为模型重用寻找物化模型IEEE知识与数据工程汇刊10.1109/TKDE.2023.327092335:12(12663-12678)在线发布日期：2023年12月1日
https://doi.org/10.1109/TKDE.2023.3270923
西班牙R赫普索五世伦特伊格M(2023)一种新的风险异常检测预警识别框架智能与机器人系统杂志2007年10月10日/10846-023-01887-2108:2在线发布日期：2023年6月1日
https://doi.org/10.1007/s10846-023-01887-2网址
德拉赫尚BRezaei Mahdiraji A公司考迪Z拉布尔T标记V艾夫斯Z博尼法蒂A埃尔阿巴迪A(2022)生产数据科学管线的物化和重用优化2022年国际数据管理会议记录10.1145/3514221.3526186(1962-1976)在线发布日期：2022年6月10日
https://dl.acm.org/doi/10.1145/3514221.3526186
显示更多引用者

索引术语

在协作环境中优化机器学习工作负载
1. 计算方法
  1. 机器学习
2. 信息系统
  1. 数据管理系统
    1. 数据库管理系统引擎
  2. 信息系统应用程序
    1. 协作和社会计算系统和工具

建议

多用户虚拟环境中的协作学习

多用户虚拟环境（MUVE）由于其沉浸、交互和通信能力，作为远程协作学习环境，已经引起了教育工作者的关注和兴趣。然而，富有成效的学习互动。。。
阅读更多信息
机器学习：最新技术

机器学习中的两个基本问题是统计分析和算法设计。前者告诉我们从观测数据建立数学模型的原理。后者定义了……的条件。。。
阅读更多信息
在MapReduce上优化多个机器学习作业
云计算11：2011年IEEE第三届云计算技术与科学国际会议论文集

最近，MapReduce被用于并行化机器学习算法。为了获得这些算法的最佳性能，需要调整算法的参数。然而，这很耗时，因为它需要执行。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

SIGMOD’20：2020年ACM SIGMOD国际数据管理会议记录

2020年6月

2925页

国际标准图书编号：9781450367356

内政部：10.1145/3318464

总主席：
大卫·迈尔
美国波特兰州立大学
,
雷切尔·波廷格
加拿大不列颠哥伦比亚大学
,
课程主席：
安海岛
美国威斯康星大学
,
王雪潭
美国梅根实验室
,
出版物主席：
阿卜杜萨拉姆·阿拉维尼
美国伊利诺伊大学香槟分校
,
洪庆恩（Hung Q.Ngo）
RelationalAI，美国

版权所有©2020 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

赞助商

SIGMOD:ACM数据管理特别利益小组

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2020年5月31日

权限

请求对此文章的权限。

检查更新

作者标记

限定符

研究文章

资金来源

德国教育和研究部（BIFOLD）-柏林学习和数据基础研究所
德国联邦经济事务和能源部，项目？ExDra？

会议

SIGMOD/PODS’20

主办单位：

SIGMOD公司

SIGMOD/PODS'20：国际数据管理会议

2020年6月14日至19日

俄勒冈州，波特兰，美国

接受率

4003份提交文件的总体接受率为785，20%

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

10
引文总数
查看引文
609
总下载次数

下载次数（过去12个月）78
下载次数（最近6周）11

其他指标

查看作者指标

引文

引用人

赵M陈雷杨克（Yang K）杜Y高Y(2023)为模型重用寻找物化模型IEEE知识与数据工程汇刊10.1109/TKDE.2023.327092335:12(12663-12678)在线发布日期：2023年12月1日
https://doi.org/10.1109/TKDE.2023.3270923
西班牙R赫普瑟夫伦特伊格M(2023)一种新的风险异常检测预警识别框架智能与机器人系统杂志2007年10月10日/10846-023-01887-2108:2在线发布日期：2023年6月1日
https://doi.org/10.1007/s10846-023-01887-2网址
德拉赫尚BRezaei Mahdiraji A公司考迪Z拉布尔·T标记V艾夫斯Z博尼法蒂A埃尔阿巴迪A(2022)生产数据科学管线的物化和重用优化2022年国际数据管理会议记录10.1145/3514221.3526186(1962-1976)在线发布日期：2022年6月10日
https://dl.acm.org/doi/10.1145/3514221.3526186
张Y麦奎兰F贾亚拉姆NKak N公司Khanna E公司基斯拉尔O巴尔达诺D库马尔A(2021)数据系统的分布式深度学习VLDB捐赠会议记录10.14778/3467861.346786714:10(1769-1782)在线发布日期：2021年10月26日
https://dl.acm.org/doi/10.14778/3467861.3467867
罗Z杨S张M郑K朱莉（Zhu L）陈G风扇F林Q恩吉亚姆·KChin Ooi B公司(2021)MLCask：协作数据分析管道中组件演化的高效管理2021年IEEE第37届国际数据工程会议（ICDE）10.1109/ICDE51399.2021.00146(1655-1666)网上发布日期：2021年4月
https://doi.org/10.109/ICDE51399.2021.00146
施奈特D阿拉姆盖勒姆A巴德J威尔·J威特科普T塔姆森L(2021)公共云中批处理工作负载优化的执行跟踪潜力2021年IEEE国际大数据会议（大数据）10.1109/大数据52589.2021.9671275(3113-3118)在线发布日期：2021年12月15日
https://doi.org/10.109/BigData52589.2021.9671275
陈B阿贝让Z格兰迪J(2021)使用自动编码器的交互式跨语言代码检索第36届IEEE/ACM自动化软件工程国际会议论文集10.1109页/页51524.2021.9678929(167-178)在线发布日期：2021年11月15日
https://dl.acm.org/doi/10.1109/ASE51524.2021.9678929
Murugan M公司巴塔查里亚S沃伊格特D巴德·M汤姆A(2021)ProSPECT：使用起源的主动存储实现高效计算和分层印度国家工程学院学报2007年10月14日/41403-021-00261-87:1(219-234)在线发布日期：2021年9月5日
https://doi.org/10.1007/s41403-021-00261-8
崔杰卢·W赵X杜氏X(2021)OLML数据库系统中的高效模型存储和重用计算机科学与技术杂志2007年10月17日/11390-021-1353-536:4(792-805)在线发布日期：2021年7月30日
https://dl.acm.org/doi/10.1007/s11390-021-1353-5
崔S王H谢毅顾H(2021)基于任务相似性的机器学习模型智能存储系统数据科学10.1007/978-981-16-5940-9_9(119-124)在线发布日期：2021年9月10日
https://doi.org/10.1007/978-981-16-5940-9_9

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

查看选项

PDF格式

以PDF文件的形式查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子