研究论文

SpeedyLoader：数据预处理和机器学习训练的高效流水线

作者：
拉赫玛·努瓦吉

加拿大魁北克省蒙特利尔市麦吉尔大学

麦吉尔大学，加拿大魁北克省蒙特利尔

0009-0008-6965-2871
查看个人资料

,
斯特拉·比切贝

加拿大魁北克省蒙特利尔市麦吉尔大学

加拿大魁北克省蒙特利尔市麦吉尔大学

0000-0002-3723-6581
查看个人资料

,
奥纳·巴尔莫

加拿大魁北克省蒙特利尔市麦吉尔大学

加拿大魁北克省蒙特利尔市麦吉尔大学

0000-0002-6822-8891
查看个人资料

作者信息和声明

EuroMLSys’24：第四届机器学习和系统研讨会论文集2024年4月第65-72页https://doi.org/10.1145/3642970.3655824

出版：2024年4月22日出版历史

EuroMLSys’24：第四届机器学习和系统研讨会论文集

第65-72页

摘要

数据预处理包括样本大小调整、裁剪和过滤等任务，是机器学习（ML）工作流中的关键步骤。尽管预处理步骤在很大程度上被专注于优化训练算法的工作所忽略，但在实践中，许多工作负载的预处理和训练都是流水线的。像PyTorch这样流行的ML框架使用数据加载器将数据输入到模型训练中。如果预处理和训练之间的流水线没有仔细完成，可能会在GPU端造成大量等待时间。为了解决这个局限性，我们引入了SpeedyLoader，这是一个通过利用异步数据预处理和避免头线阻塞来重叠预处理和训练的系统。SpeedyLoader集成了专用的数据加载线程，这些线程根据预测的处理时间将预处理样本组织到队列中。同时，GPU从这些队列中获取样本，确保训练不受预处理完成的阻碍。与默认的PyTorch DataLoader相比，SpeedyLoader将训练时间减少了30%，GPU使用量增加了4.3倍，同时保持了91%的一致评估准确率。

工具书类

【未注明日期】。KiTS19挑战数据集。https://kits19.grand-challenge.org/data/。谷歌学者
【未注明日期】。内存保护器。PyPI公司。https://pypi.org/project/memory-profiler网站/谷歌学者
【未注明日期】。MLPerf培训基准套件V3.1结果。https://mlcommons.org/bequicks/training/。谷歌学者
[未注明日期]。NumPy—使用Python进行科学计算的基本包。https://numpy.org/。谷歌学者
[未注明日期]。Pandas：强大的Python数据分析工具包。https://pypi.org/project/pandas/。谷歌学者
[未注明日期]。与苹果、特斯拉和Nutanix的合作者进行个人交流。谷歌学者
[未注明日期]。Python文档-队列。https://docs.python.org/3/library/queue.html。谷歌学者
【未注明日期】。PyTorch 2.0。https://pytorch.org/。谷歌学者
[未注明日期]。PyTorch教程。https://pytorch.org/tutorials/begineer/basics/data_tutorial.html。谷歌学者
【未注明日期】。Scikit学习-Python中的机器学习。https://scikit learn.org/stable/。谷歌学者
奥兹根切克、艾哈迈德·阿卜杜勒卡迪尔、索伦·萨连坎普、托马斯·布洛克斯和奥拉夫·隆伯格。2016.3D U-Net：从稀疏注释学习密集的体积分割。医学图像计算和计算机辅助干预-MICCAI 2016：第19届国际会议，希腊雅典，2016年10月17日至21日，会议记录，第二部分19。谷歌学者
塞莱斯汀·杜纳（Celestine Dünner）、托马斯·帕内尔（Thomas Parnell。2018年。Snap ML：机器学习的分层框架。神经信息处理系统进展（2018年）。谷歌学者
丹·格雷尔（Dan Graur）、达米安·艾蒙（Damien Aymon）、丹·克鲁斯（Dan Kluser）、丹古·阿尔布里奇（Tanguy Albrici）、钱德拉莫汉·A·塞克斯（Chandramohan A Thekkath）和安娜·克里莫维奇。2022.Cachew：机器学习输入数据处理服务。USENIX ATC 22会议记录。谷歌学者
乌迪·古普塔（Udit Gupta）、金英根（Young Geun Kim）、西尔维娅·李（Sylvia Lee）、谢霆锋（Jordan Tse）、辛·S·李（Xian-Hsin S.Lee），顾延伟（Gu-Yeon Wei）、大卫·布鲁克斯（David Brooks）和卡罗尔·吴珍（Carole-Jean Wu）。2022.追逐碳：计算的神秘环境足迹。IEEE Micro 4（2022）。谷歌学者
尼古拉斯·海勒（Nicholas Heller）、尼兰扬·萨提亚纳森（Niranjan Sathianathen）、阿文·卡拉帕（Arveen Kalapara）、爱德华·沃尔恰克（Edward Walczak）、基南·摩尔（Keenan Moore）、希瑟·卡鲁兹尼亚克（Heather Kaluzniak）、乔尔·罗森博格（Joel Rosenberg）、保罗·布莱克。kits19挑战性数据：300例肾脏肿瘤患者的临床背景、ct语义分割和手术结果。arXiv预印arXiv:1904.00445（2019）。谷歌学者
Sotiris Kotsiantis、Dimitris Kanellopoulos和P.Pintelas。2006.监督学习的数据预处理。《国际计算机科学杂志》（2006）。谷歌学者
S.Maetschke、R.Tennakoon、C.Vecchiola和R.Garnavi。2018.nuts-flow/ml：深度学习的数据预处理。谷歌学者
Peter Mattson、Christine Cheng、Gregory Diamos、Cody Coleman、Paulius Micikevicius、David Patterson、Hanlin Tang、Gu-Yeon Wei、Peter Bailis、Victor Bittorf等人，2020年。MlPerf培训基准。机器学习与系统学报（2020年）。谷歌学者
Mark Mazumder、Colby Banbury、Xiaozhe Yao、Bojan Karlaš、William Gaviria Rojas、Sudnya Diamos、Greg Diamos，Lynn He、Alicia Parrish、Hannah Rose Kirk等人，2022年。Dataperf：以数据为中心的人工智能开发基准。arXiv预打印arXiv:2207.10062（2022）。谷歌学者
MLCommons。[未注明日期]。MLPerf Benchmarking Suite-图像分割的PyTorch实现。https://github.com/mlcommons/training/tree/master/image_segmentation/pytorch。谷歌学者
贾亚什雷·莫汉（Jayashree Mohan）、阿马尔·法尼什耶伊（Amar Phanishayee）、贾纳德汉·库尔卡尼（Janardhan Kulkarni）和维杰伊·奇丹巴拉姆（Vijay Chidambaram）。2022.展望多租户集群上DNN调度的GPU之外。USENIX OSDI’22会议记录。谷歌学者
德里克·戈登·穆雷（Derek Gordon Murray）、杰里·西姆萨（JiríSimsa）、安娜·克里莫维奇（Ana Klimovic）和伊霍尔·因迪克（Ihor Indyk）。2021.tf.data:机器学习数据处理框架。VLDB捐赠（2021）。谷歌学者
G.Thippa Reddy、M.Praveen Kumar Reddy、Kuruva Lakshmanna、Rajesh Kaluri、Dharmendra Singh Rajput、Gautam Srivastava和Thar Baker。2020年，大数据降维技术分析。IEEE接入（2020）。谷歌学者
Purandare Sanket、Wasay Abdul、Idreos Stratos和Jain Animesh。2023.亩-二：3倍更快的多模型训练，具有编配和记忆优化功能。MLSys’23会议记录。谷歌学者
Foteini Strati、Xianzhe Ma和Ana Klimovic。2024.Orion：用于ML应用程序的干扰软件、细粒度GPU共享。《欧洲系统24年会议记录》。谷歌学者数字图书馆
吴春凤（Chun-Feng Wu）、卡罗尔·让·吴（Carole-Jean Wu），魏谷妍（Gu-Yeon Wei）和大卫·布鲁克斯（David Brooks）。2022.一种联合管理中间件，用于提高带有SSD的深度推荐系统的培训性能。第59届ACM/IEEE设计自动化会议论文集。谷歌学者数字图书馆
Mark Zhao、Niket Agarwal、Aarti Basant、Buéra Gedik、Satadru Pan、Mustafa Ozdal、Rakesh Komuravelli、Jerry Pan、Tinshu Bao、Haowei Lu、Sundaram Narayanan、Jack Langman、Kevin Wilfong、Harsha Rastogi、Carole-Jean Wu、Christos Kozyrakis和Parik Pol。2022.了解大规模深度推荐模型培训的数据存储和摄入：工业产品。第49届计算机体系结构国际研讨会论文集。谷歌学者数字图书馆
Mark Zhao、Druv Choudhary、Devashish Tyagi、Ajay Somani、Max Kaplan、Sung-Han Lin、Sarunya Pumma、Jongsoo Park、Aarti Basant、Niket Agarwal、Carole-Jean Wu和Christos Kozyrakis。2023.RecD：端到端深度学习推荐模型培训基础架构的重复数据消除。谷歌学者

索引术语

SpeedyLoader：数据预处理和机器学习训练的高效流水线
1. 计算机系统组织
  1. 体系结构
    1. 其他架构
      1. 数据流架构
2. 计算方法
  1. 机器学习
  2. 并行计算方法
    1. 并行算法

建议

一种提高分类算法性能的机器学习数据预处理新方法
EANN’15：第16届神经网络工程应用国际会议论文集

数据预处理描述了对原始数据执行的任何类型的处理方法，以便为另一个处理过程做好准备。通常用作初步数据挖掘实践，数据预处理方法将数据转换为一种格式，该格式将。。。
阅读更多信息
智能数据：数据预处理，实现R中的智能数据
摘要
随着可用数据量呈指数级增长，数据科学家意识到，发现数据中的价值是成功利用数据的关键。然而，数据很少以有序、干净的方式呈现。相反。。。
阅读更多信息
供应链管理分析中的数据预处理——方法、操作及其完成的任务综述：供应链管理分析中的数据预处理。
ICCMB’23：2023年第6届管理和商业计算机国际会议记录

数据预处理被认为是数据分析中最重要的步骤之一。对于供应链管理（SCM）领域来说尤其如此，在该领域，处理大量数据集是一种规范。数据预处理包括多个。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于

EuroMLSys’24：第四届机器学习和系统研讨会论文集
2024年4月
218页
国际标准图书编号：9798400705410
内政部：10.1145/3642970

版权所有©2024 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2024年4月22日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
数据预处理
数据加载器
GPU-CPU重叠
机器学习
管道铺设
培训
限定符
- 研究论文
- 研究
- 推荐有限公司
会议

接受率
总体验收率18属于26提交文件，69%
即将召开的会议
25年欧洲系统

主办单位：

小丑

第二十届欧洲计算机系统会议

2025年3月30日-4月3日

鹿特丹，荷兰
资金来源
其他指标
查看文章指标

文章指标
- 0
  引文总数
  查看引文
- 103
  总下载次数
- 下载次数（过去12个月）103
- 下载次数（最近6周）92
其他指标
查看作者指标
引用人
本出版物尚未被引用

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

SpeedyLoader：数据预处理和机器学习训练的高效流水线

EuroMLSys’24：第四届机器学习和系统研讨会论文集

摘要

工具书类

引用人

索引术语

建议

一种提高分类算法性能的机器学习数据预处理新方法

智能数据：数据预处理，实现R中的智能数据

供应链管理分析中的数据预处理——方法、操作及其完成的任务综述：供应链管理分析中的数据预处理。

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

接受率

即将召开的会议

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

解说词

SpeedyLoader：数据预处理和机器学习训练的高效流水线

EuroMLSys’24：第四届机器学习和系统研讨会论文集

摘要

工具书类

引用人

索引术语

建议

一种提高分类算法性能的机器学习数据预处理新方法

智能数据：数据预处理，实现R中的智能数据

供应链管理分析中的数据预处理——方法、操作及其完成的任务综述：供应链管理分析中的数据预处理。

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

接受率

即将召开的会议

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

共享此出版物链接

在社交媒体上分享