跳到主要内容
10.1145/3318464.3389715acm会议文章/章节视图摘要出版物页面国防部会议记录会议集合
研究论文

在协作环境中优化机器学习工作负载

出版:2020年5月31日 出版历史
  • 获取引文提醒
  • 摘要

    数据科学家之间的有效协作产生了高质量和高效的机器学习(ML)工作负载。在协作环境中,如Kaggle或Google Colabratory,用户通常会重新执行或修改已发布的脚本以重新创建或改进结果。这引入了许多冗余数据处理和模型训练操作。重用冗余操作生成的数据可以更有效地执行未来的工作负载。然而,现有的协作环境缺少用于存储和重用先前执行的操作结果的数据管理组件。在本文中,我们提出了一个系统,通过重用以前执行的操作及其结果来优化ML工作负载在协作环境中的执行。我们使用所谓的实验图(EG)来存储工件,即原始和中间数据或ML模型,作为ML工作负载的顶点和操作作为边。理论上,EG的大小可能会变得不必要地大,而存储预算可能会有限。同时,对于某些工件,总体存储和检索成本可能会超过重新计算成本。为了解决这个问题,我们根据工件未来重用的可能性提出了两种实现工件的算法。考虑到EG中的物化工件,我们设计了一个线性时间重用算法,以找到传入ML工作负载的最佳执行计划。我们的重用算法只会产生微不足道的开销,并且可以在协作环境中扩展大量传入的ML工作负载。我们的实验表明,对于重复执行工作负载,我们将运行时间提高了一个数量级,对于在协作环境中执行修改后的工作负载,则提高了50%。

    补充材料

    MP4文件 (3318464.3389715.mp4)
    演示视频

    工具书类

    [1]
    Mart’in Abadi、Paul Barham、Jianmin Chen、Zhifeng Chen、Andy Davis、Jeffrey Dean、Matthieu Devin、Sanjay Ghemawat、Geoffrey Irving、Michael Isard、Manjunath Kudlur、Josh Levenberg、Rajat Monga、Sherry Moore、Derek G.Murray、Benoit Steiner、Pall Tucker、Vijay Vasudevan、Pete Warden、Martin Wicke、Yu和Xiaoqiang Zheng。2016年,TensorFlow:大型机器学习系统。在第12届USENIX操作系统设计与实现会议(OSDI’16)的会议记录中。USENIX协会,美国,265-283。
    [2]
    Denis Baylor、Eric Breck、Heng Tze Cheng、Noah Fiedel、Chuan Yu Foo、Zakaria Haque、Salem Haykal、Mustafa Ispir、Vihan Jain、Levent Koc等,2017年。Tfx:基于张量流的生产规模机器学习平台。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集。1387--1395.
    [3]
    阿南特·巴德瓦吉(Anant Bhardwaj)、索维克·巴塔切吉(Souvik Bhattacherjee)、阿米特·查万(Amit Chavan)、阿莫尔·德斯普(Amol Deshp)、亚伦·埃莫尔(Aaron J.Elmore)、塞缪尔·马登(Samuel Madden)。2015.数据中心:大规模协作数据科学和数据集版本管理。《创新数据系统研究会议论文集》。
    [4]
    Souvik Bhattacherjee、Amit Chavan、Silu Huang、Amol Deshpande和Aditya Parameswaran。2015。数据集版本控制原则:探索娱乐/存储权衡。VLDB捐赠会议录,第8卷,第12卷(2015年),1346-1357。
    [5]
    Lars Buitink、Gilles Louppe、Mathieu Blondel、Fabian Pedregosa、Andreas Mueller、Olivier Grisel等人,2013年。机器学习软件的API设计:来自scikit-learn项目的经验。ECML PKDD研讨会:数据挖掘和机器学习语言。108--122.
    [6]
    Carlos A Coello Coello、Gary B Lamont、David A Van Veldhuizen等人,2007年。解决多目标问题的进化算法。第5卷。斯普林格。
    [7]
    杰克·埃德蒙兹和理查德·卡普。1972年,网络流问题算法效率的理论改进。J.ACM,第19卷,第2卷(1972年4月),248-264。https://doi.org/10.1145/321694.321699
    [8]
    伊曼·埃尔干杜尔(Iman Elghandour)和阿什拉夫·阿博勒纳加(Ashraf Aboulnaga)。2012.ReStore:重用MapReduce作业的结果。VLDB捐赠会议录,第5卷,第6卷(2012年),586-597。
    [9]
    Michael TM Emmerich和AndréH Deutz。2018年,多目标优化教程:基本原理和进化方法。自然计算,第17卷,第3卷(2018年),585--609。
    [10]
    劳尔·卡斯特罗·费尔南德斯(Raul Castro Fernandez)、齐亚瓦希·阿贝让(Ziawasch Abedjan)、法米安·科科(Famien Koko)、吉娜·袁(Gina Yuan)、塞缪尔·麦登(Samuel Madden)。2018年。Aurum:数据发现系统。2018年IEEE第34届国际数据工程会议(ICDE)。IEEE,1001--1012。
    [11]
    Yuan Yu Michael Isard Dennis Fetterly、Mihai Budiu、ul lfar Erlingsson和Pradeep Kumar Gunda Jon Currey。2009。DryadLINQ:一个使用高级语言进行通用分布式数据并行计算的系统。程序。LSDS-IR,第8卷(2009年)。
    [12]
    马蒂亚斯·费勒(Matthias Feurer)、亚伦·克莱恩(Aaron Klein)、凯萨琳娜·艾根斯佩格(Katharina Eggensperger)、约斯特·托比亚斯·斯普林伯格(Jost Tobias Springenberg)、曼努埃尔·布鲁姆(Manuel Blum)和弗兰克·赫特(Frank Hutter)。2015.高效稳健的自动机器学习。第28届神经信息处理系统国际会议论文集第2卷。麻省理工学院出版社,马萨诸塞州剑桥,美国,2755-2763。
    [13]
    罗兰多·加西亚(Rolando Garcia)、维克拉姆·斯里坎蒂(Vikram Sreekanti)、内拉贾·亚德瓦德卡尔(Neeraja Yadwadkar)、丹尼尔·克兰肖(Daniel Crankshaw)、约瑟夫·冈萨雷斯(Joseph E Gonzalez)和约瑟夫·海勒斯坦(Joseph-M Hellerstein)。2018.背景:机器学习生命周期中缺失的部分。KDD CMI研讨会,第114卷。
    [14]
    谷歌。2018年a。谷歌人工智能平台。https://cloud.google.com/ai-platform网站/
    [15]
    谷歌。2018年b月。谷歌实验室。https://colab.research.google.com网站
    [16]
    普拉迪普·库马尔·冈达(Pradeep Kumar Gunda)、列宁·拉文德拉纳特(Lenin Ravindranath)、钱德拉莫汉·泰卡斯(Chandramohan A.Thekkath)、袁瑜(Yuan Yu)和李庄(Li。2010.Nectar:数据中心数据和计算的自动管理。在第九届USENIX操作系统设计与实现会议(OSDI’10)的会议记录中。USENIX协会,美国,75-88。
    [17]
    Aric Hagberg、Pieter Swart和Daniel S Chult。2008年。使用NetworkX探索网络结构、动态和功能。技术报告。洛斯阿拉莫斯国家实验室(LANL),新墨西哥州洛斯阿拉莫斯(美国)。
    [18]
    Joseph M Hellerstein、Vikram Sreekanti、Joseph E Gonzalez、James Dalton等人,2017年。地面:数据上下文服务。《创新数据系统研究会议论文集》。
    [19]
    扎克·艾夫斯(Zack Ives)、张毅(Yi Zhang)、韩顺波(Soonbo Han)和郑楠(Nan Zheng)。2019.数据集关系管理。《创新数据系统研究会议论文集》。
    [20]
    卡格尔。2010年,Kaggle数据科学平台。https://www.kaggle.com
    [21]
    詹姆斯·马克斯·坎特(James Max Kanter)和卡尔扬·维拉马查尼(Kalyan Veeramachaneni)。2015.深度特征合成:走向自动化数据科学工作。2015年IEEE数据科学和高级分析国际会议(DSAA)。IEEE,1-10。
    [22]
    Jon Kleinberg和Eva Tardos。2005年,算法设计。Addison-Wesley Longman Publishing Co.,Inc.,美国。
    [23]
    Thomas Kluyver、Benjamin Ragan Kelley、Fernando Pérez、Brian Granger、Matthias Bussonnier等人,2016年。Jupyter笔记本——可复制计算工作流的发布格式。《学术出版的定位和权力:参与者、代理人和议程》,F.Loizides和B.Schmidt(编辑)。IOS出版社,87-90。
    [24]
    威尔·科尔森(Will Koehrsen)。2019年a.Kaggle笔记本,手动特征工程简介。https://www.kaggle.com/willkoehrsen/introduction-to-manual-feature-engineering网站2019年10月11日检索自
    [25]
    威尔·科尔森(Will Koehrsen)。2019年b.Kaggle笔记本,手动特征工程简介第2部分。https://www.kaggle.com/willkoehrsen/introduction-to-manual-feature-engineering-p22019年10月11日检索自
    [26]
    威尔·科尔森(Will Koehrsen)。2019 c.卡格尔笔记本,从这里开始:一个温和的介绍。https://www.kaggle.com/willkoehrsen/start-here-a-mediate-introduction(https://www.kaggle.com/willkoehrsen/start-here-a-mediate-introduction)2019年10月11日检索自
    [27]
    伊梅内·马米和佐拉·贝拉赫塞纳。2012.视图选择方法调查。SIGMOD记录,第41卷,第1卷(2012年4月),20-29。https://doi.org/10.1145/2206869.2206874
    [28]
    韦斯·麦金尼(Wes McKinney)。2010年,《Python中统计计算的数据结构》。在第九届科学会议Python会议记录中,Stéfan van der Walt和Jarrod Millman(编辑)。51 -- 56.
    [29]
    德克·默克尔。2014.Docker:用于一致开发和部署的轻量级linux容器。Linux Journal,卷2014,239(2014),2。
    [30]
    苗慧和阿莫尔·德什潘德。2018.ProvDB:支持Provenance的协作数据分析工作流生命周期管理。IEEE数据工程公告。,第41卷(2018年),26-38。
    [31]
    OpenML。2019.信贷-g监管分类(任务31)。https://www.openml.org/t/312019年10月11日检索自
    [32]
    卡洛斯·罗伯托。2019.卡格尔笔记本,从这里开始:温和介绍312251。https://www.kaggle.com/crldata/start-here-a-gentle-introduction-312251检索日期:2019年10月11日
    [33]
    塞巴斯蒂安·谢尔特(Sebastian Schelter)、乔斯·亨德里克·博伊斯(Joos-Hendrik Boese)、约翰内斯·基什尼克(Johannes Kirschnick)、托拉夫·克莱因(Thoralf Klein)和斯蒂芬·塞弗特(Stephan Seufert)。2017.自动跟踪元数据和机器学习实验的来源。NIPS机器学习系统研讨会。
    [34]
    尚泽元(Zeyuan Shang)、伊曼纽尔·兹格拉根(Emanuel Zgraggen)、贝内德托·布拉蒂(Benedetto Buratti)、费迪南德·科斯曼(Ferdinand Kossmann)、菲利普·艾希曼(Philipp Eichman)、杨诺·钟(Yeounoh Chung)、卡斯滕·宾尼(Carsten Binnig)、。2019.通过ML管道的交互式管理实现数据科学民主化。2019年国际数据管理会议记录(SIGMOD’19)。计算机械协会,美国纽约州纽约市,1171-1188。https://doi.org/10.1145/3299869.3319863
    [35]
    Evan R Sparks、Shivaram Venkataraman、Tomer Kaftan、Michael J Franklin和Benjamin Recht。2017年,Keystoneml:为大规模高级分析优化管道。2017年IEEE第33届数据工程国际会议(ICDE)。IEEE,535--546。
    [36]
    钟小涛。2019.Kaggle笔记本,从LightGBM开始。https://www.kaggle.com/taozhongxiao/begining-with-lightgbm-in-detail网站2019年10月11日检索自
    [37]
    AzureML团队。2016年,AzureML:机器学习服务剖析。在预测API和应用程序会议上。1--13.
    [38]
    Chris Thornton、Frank Hutter、Holger H Hoos和Kevin Leyton-Brown。2013年,Auto-WEKA:分类算法的组合选择和超参数优化。第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集。美国医学会,847--855。
    [39]
    Michelle Ufford、M Pacer、Matthew Seal和Kyle Kelley。2018.超越互动:Netflix笔记本创新。https://medium.com/netflix-techblog/notebook-innovation-591ee32212332019年10月4日检索自
    [40]
    华金·范肖伦(Joaquin Vanschoren)、亨德里克·布洛克(Hendrik Blockeel)、伯恩哈德·普法林格(Bernhard Pfahringer)和杰弗里·霍姆斯(Geoffrey Holmes)。2012.实验数据库。机器学习,第87卷,第2期(2012年5月1日),127-158。https://doi.org/10.1007/s10994-011-5277-0
    [41]
    华金·范肖伦(Joaquin Vanschoren)、扬·N·范·里恩(Jan N Van Rijn)、伯恩德·比施尔(Bernd Bischl)和路易斯·托戈(Luis Torgo)。2014.OpenML:机器学习中的网络科学。ACM SIGKDD探索通讯,第15卷,第2期(2014),49-60。
    [42]
    Manasi Vartak、Joana M.F.da Trindade、Samuel Madden和Matei Zaharia,2018年。MISTIQUE:用于存储和查询模型中介以进行模型诊断的系统。在2018年国际数据管理会议记录(SIGMOD’18)中。美国纽约州纽约市计算机协会,1285-1300。https://doi.org/10.1145/3183713.3196934
    [43]
    Manasi Vartak、Harihar Subramanyam、Wei-En Lee、Srinidhi Viswanathan、Saadiyah Husnoo、Samuel Madden和Matei Zaharia,2016年。ModelDB:机器学习模型管理系统。《人在回路数据分析研讨会论文集》(HILDA’16)。美国纽约州纽约市计算机协会,第14条,共3页。https://doi.org/10.1145/2939502.2939516
    [44]
    多丽丝·辛(Doris Xin)、马立天(Litian Ma)、刘佳琳(Jialin Liu)、斯蒂芬·麦可(Stephen Macke)、宋舒晨(Shuchen Song)和阿迪蒂娅·帕拉梅斯瓦兰。2018年a。螺旋:加速人机学习。《VLDB捐赠会议录》,第11卷,第12卷(2018年),1958年至1961年。
    [45]
    Doris Xin、Stephen Macke、Litian Ma、Jialin Liu、Shuchen Song和Aditya Parameswaran。2018年b月。螺旋:用于加速迭代机器学习的整体优化。VLDB捐赠会议记录,第12卷,第4卷(2018年),446-460。
    [46]
    Matei Zaharia、Andrew Chen、Aaron Davidson、Ali Ghodsi等人,2018年。使用MLflow加速机器学习生命周期。IEEE数据工程公告。,第41卷,第4卷(2018年),第39-45页。
    [47]
    马泰·扎哈里亚、莫沙拉夫·乔杜里、迈克尔·富兰克林、斯科特·申克和伊恩·斯托伊卡。2010.Spark:带工作集的集群计算。第二届USENIX云计算热点会议(HotCloud’10)论文集。USENIX协会,美国,10。
    [48]
    张策。2015.DeepDive:用于自动知识库构建的数据管理系统。威斯康星大学麦迪逊分校,威斯康星州麦迪逊(2015)。
    [49]
    张策、阿伦·库马尔和克里斯托弗·雷。2014.功能选择工作负载的物化优化。2014年ACM SIGMOD国际数据管理会议记录(SIGMOD'14)。美国纽约州纽约市计算机协会,265--276。https://doi.org/10.1145/2588555.2593678

    引用人

    查看全部
    • (2023)为模型重用寻找物化模型IEEE知识与数据工程汇刊10.1109/TKDE.2023.327092335:12(12663-12678)在线发布日期:2023年12月1日
    • (2023)一种新的风险异常检测预警识别框架智能与机器人系统杂志2007年10月10日/10846-023-01887-2108:2在线发布日期:2023年6月1日
    • (2022)生产数据科学管线的物化和重用优化2022年国际数据管理会议记录10.1145/3514221.3526186(1962-1976)在线发布日期:2022年6月10日
    • 显示更多引用者

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM会议
    SIGMOD’20:2020年ACM SIGMOD国际数据管理会议记录
    2020年6月
    2925页
    国际标准图书编号:9781450367356
    内政部:10.1145/3318464
    如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

    赞助商

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2020年5月31日

    权限

    请求对此文章的权限。

    检查更新

    作者标记

    1. 协作ML
    2. 机器学习
    3. 物化和重用

    限定符

    • 研究文章

    资金来源

    • 德国教育和研究部(BIFOLD)-柏林学习和数据基础研究所
    • 德国联邦经济事务和能源部,项目?ExDra?

    会议

    SIGMOD/PODS’20
    主办单位:
    SIGMOD/PODS'20:国际数据管理会议
    2020年6月14日至19日
    俄勒冈州,波特兰,美国

    接受率

    4003份提交文件的总体接受率为785,20%

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)78
    • 下载次数(最近6周)11

    其他指标

    引文

    引用人

    查看全部
    • (2023)为模型重用寻找物化模型IEEE知识与数据工程汇刊10.1109/TKDE.2023.327092335:12(12663-12678)在线发布日期:2023年12月1日
    • (2023)一种新的风险异常检测预警识别框架智能与机器人系统杂志2007年10月10日/10846-023-01887-2108:2在线发布日期:2023年6月1日
    • (2022)生产数据科学管线的物化和重用优化2022年国际数据管理会议记录10.1145/3514221.3526186(1962-1976)在线发布日期:2022年6月10日
    • (2021)数据系统的分布式深度学习VLDB捐赠会议记录10.14778/3467861.346786714:10(1769-1782)在线发布日期:2021年10月26日
    • (2021)MLCask:协作数据分析管道中组件演化的高效管理2021年IEEE第37届国际数据工程会议(ICDE)10.1109/ICDE51399.2021.00146(1655-1666)网上发布日期:2021年4月
    • (2021)公共云中批处理工作负载优化的执行跟踪潜力2021年IEEE国际大数据会议(大数据)10.1109/大数据52589.2021.9671275(3113-3118)在线发布日期:2021年12月15日
    • (2021)使用自动编码器的交互式跨语言代码检索第36届IEEE/ACM自动化软件工程国际会议论文集10.1109页/页51524.2021.9678929(167-178)在线发布日期:2021年11月15日
    • (2021)ProSPECT:使用起源的主动存储实现高效计算和分层印度国家工程学院学报2007年10月14日/41403-021-00261-87:1(219-234)在线发布日期:2021年9月5日
    • (2021)OLML数据库系统中的高效模型存储和重用计算机科学与技术杂志2007年10月17日/11390-021-1353-536:4(792-805)在线发布日期:2021年7月30日
    • (2021)基于任务相似性的机器学习模型智能存储系统数据科学10.1007/978-981-16-5940-9_9(119-124)在线发布日期:2021年9月10日

    视图选项

    获取访问权限

    登录选项

    完全访问权限

    查看选项

    PDF格式

    以PDF文件的形式查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享