研究论文

活动指针：GPU上的软件地址转换案例

作者:

萨希撒赫尔,

Shai公司伯格曼，以及

作记号西尔伯斯坦作者信息和声明

ACM SIGOPS操作系统审查,体积52,问题1

页84-95

https://doi.org/10.1145/3273982.3273990

出版:2018年8月28日出版历史

获取访问权限

摘要

现代离散GPU一直是加速计算密集型应用程序的首选处理器，但在大规模数据处理中使用它们是极具挑战性的。不幸的是，它们没有提供在CPU上下文中长期建立的重要I/O抽象，例如内存映射文件，这些文件使程序员避免了缓冲区和I/O设备管理的复杂性。然而，在GPU上实现这些抽象会带来一个问题：有限的GPU虚拟内存系统没有向GPU开发人员提供地址空间管理和页面错误处理机制，并且不允许修改用于运行GPU程序的内存映射。我们实现了ActivePointers，这是一个软件地址转换层和分页系统，它为GPU程序引入了对页面错误和虚拟地址空间管理的本地支持，并支持在商品GPU上实现完全功能的内存映射文件。映射到GPU内存中的文件使用活动指针进行访问，活动指针的行为类似于常规指针，但可以在后台访问GPU页面缓存，并触发在GPU上处理的页面错误。我们设计并评估了许多新的机制，包括硬件寄存器中的翻译缓存和翻译聚合，用于单个warp中线程的无死锁页面错误处理。我们使用微基准对商品NVIDIA GPU上的ActivePointer进行了广泛的评估，还实现了一个复杂的图像处理应用程序，该应用程序从存储在40GB文件中的1000万个图像的子集中构造照片拼贴。GPU实现将整个文件映射到GPU内存中，并通过活动指针访问它。使用活动指针只会使应用程序的运行时间增加1%，同时在CPU+GPU组合实现上实现高达3.9倍的加速，在使用AVX矢量指令的仅12核CPU实现上实现高达2.6倍的加速。

工具书类

[1]

2016.Intel Software Guard Extensions编程参考。https://软件。intel.com/sites/default/files/managed/48/88/329298-002.pdf。访问时间：2018-5。

[2]

内哈·阿加瓦尔（Neha Agarwal）、大卫·内兰斯（David Nellans）、迈克·奥康纳（Mike O'Connor）、斯蒂芬·沃克勒（StephenWKeckler）和托马斯·维尼什（Thomas F Wenisch）。2015.解锁CC-NUMA系统中GPU的带宽。在HPCA’15中。IEEE，354-365。

[3]

内哈·阿加瓦尔（Neha Agarwal）、大卫·内伦斯（David Nellans）、马克·斯蒂芬森（Mark Stephenson）、迈克·奥康纳（Mike O'Connor）和斯蒂芬·凯克勒（StephenW Keckler）。2015.异构内存系统中GPU的页面放置策略。在ASPLOS’15。美国医学会，607-618。

数字图书馆

[4]

谢·伯格曼（Shai Bergman）、坦亚·布罗克曼（Tanya Brokhman）、扎奇·科恩（Tzachi Cohen）和马克·西尔伯斯坦（Mark Silberstein）。2017.SPIN：SSD和GPU之间对等DMA的无缝操作系统集成。第十七届USENIX年度技术会议记录，USENIXATC，第17卷。

数字图书馆

[5]

Pramod Bhatotia、Rodrigo Rodrigues和Akshat Verma。2012.切碎机：GPUA加速增量存储和计算。在FAST’14中。USENIX，第14页。

数字图书馆

[6]

丹·布维尔和本·桑德。2014.将AMD的Kaveri APU应用于异构计算。在热芯片'14。

[7]

Silas Boyd-Wickizer、Austin T Clements、Yandong Mao、Aleksey Pesterev、FransM Kaashoek、Robert Morris和Nickolai Zeldovich。2010年，Linux可扩展到多核心的分析。OSDI’10，第10卷。USENIX，86-93。

数字图书馆

[8]

Sung-Hyuk Cha和Sargur N Srihari，2002年。关于直方图之间距离的测量。模式识别35，6（2002），1355-1370。

[9]

Feras Daoud、Amir Watad和Mark Silberstein。2016.GPUrdma:GPU端库，用于从GPU内核进行高性能联网。第六届超级计算机运行时和操作系统国际研讨会论文集。美国医学会，6。

数字图书馆

[10]

Mayur Datar、Nicole Immorlica、Piotr Indyk和Vahab SMirrokni。2004.基于P-稳定分布的位置敏感哈希方案。在年度交响乐中。公司。几何学。ACM，253-262。

数字图书馆

[11]

Joe Devietti、Colin Blundell、Milo MK Martin和Steve Zdancewic。2008.精装本：C编程语言的空间安全架构支持。ACM SIGOPS操作系统评论42，2（2008），103-114。

数字图书馆

[12]

Isaac Gelado、John E Stone、Javier Cabezas、Sanjay Patel、Nacho Navarro和Wen mei W Hwu。2010年。异构并行系统的非对称分布式共享内存模型。ACM SIGARCH计算机架构新闻，第38卷。美国医学会，347-358。

数字图书馆

[13]

GPU直接。2015年GPU直接RDMA。http://docs.nvidia.com/cuda/gpudirect-rdma/index.html。

[14]

HMM.2014年。异构内存管理（设备MMU上的镜像进程地址空间）。https://lwn.net/Articles/597289/。

[15]

埃里克·霍克（Eric Holk）、瑞恩·牛顿（Ryan Newton）、杰里米·西克（Jeremy Siek）和安德鲁·卢姆斯代恩（Andrew Lumsdaine）。2014.GPU编程语言的基于区域的内存管理：在斯巴达主机上启用丰富的数据结构。2014年OOPSLA。美国医学会，141-155。

数字图书馆

[16]

布鲁斯·雅各布和特雷弗·穆奇。1997.软件管理的地址转换。1997年HPCA。IEEE，156-167。

数字图书馆

[17]

冯吉，林和山，马晓松。2013。RSVM：用于GPU的基于区域的软件虚拟内存。在第13条中。IEEE，269-278。

数字图书馆

[18]

Sangman Kim、Seonggu Huh、Xina Zhang Yige Hu、Amir Wated、Emmett Witchel和Mark Silberstein。2014.GPUnet：GPU项目的网络摘要。在OSDI’14中。USENIX，第6-8页。

数字图书馆

[19]

Janghaeng Lee、Mehrzad Samadi和Scott Mahlke。2014.VAST：GPU大内存空间的幻觉。在14年。美国医学会，443-454。

数字图书馆

[20]

杜安·梅里尔和安德鲁·格里姆肖。2011.高性能和可扩展基数排序：GPU计算实现动态并行的案例研究。并行处理信件21，02（2011），245-272。

[21]

亚历山大·斯图帕兰、塞巴斯蒂安·米歇尔和拉尔夫·申克尔。2010.RankReduce-在MapReduce上处理K-最近邻查询。在信息检索大规模分布式系统研讨会上。13-18.

[22]

Santosh Nagarakatte、Milo MK Martin和Steve Zdancewic。2014.WatchdogLite：硬件加速的基于编译器的指针检查。2014年HPCA。IEEE，175。

数字图书馆

[23]

Santosh Nagarakatte、Jianzhou Zhao、Milo MK Martin和Steve Zdancewic。2009.SoftBound:C的高度兼容和完整空间内存安全。在ACM Sigplan通告中，第44卷。美国医学会，245-258。

数字图书馆

[24]

George C Necula、Jeremy Condit、Matthew Harren、Scott McPeak和Westley Weimer。2005年。CCured:传统软件的类型安全改装。TOPLAS’05 27，3（2005），477-526。

数字图书馆

[25]

梅尼·奥伦巴赫（Meni Orenbach）、帕维尔·利夫希茨（Pavel Lifshits）、玛丽娜·明金（Marina Minkin）和马克·西尔伯斯坦（Mark Silberstein）。2017.Eleos：针对SGX飞地的ExitLess OS服务。第十二届欧洲计算机系统会议记录。美国医学会，238-253。

数字图书馆

[26]

贾潘和迪内什·马诺查。2011.用于K最近邻计算的快速基于GPU的位置敏感哈希。在SIGSPATIAL’11中。美国医学会，211-220。

数字图书馆

[27]

萨萨·彼得罗维奇、迈尔斯·奥斯本和维克托·拉夫伦科。2010年，推特应用程序流式传输第一个故事检测。在计算语言学协会年会上。181-189.

数字图书馆

[28]

巴拉斯·皮查（Bharath Pichai）、丽莎·徐（Lisa Hsu）和阿比谢克·巴塔查吉（Abhishek Bhattacharjee）。2014.GPU上地址转换的架构支持。在2014年的ASPLOS。ACM公司。

数字图书馆

[29]

乔纳森·鲍尔（Jonathan Power）、马克·D·希尔（Mark D Hill）和大卫·A·伍德（David A Wood）。2014.支持100个GPU通道的x86-64地址转换。2014年HPCA。IEEE，568-578。

[30]

菲尔·罗杰斯。2013.异构系统体系结构概述。在Hot Chips’13第25卷中。

[31]

Christopher J Rossbach、Jon Currey、Mark Silberstein、Baishaki Ray和Emmett Witchel。2011年，PTask：将GPU作为计算设备管理的操作系统抽象。在SOSP'11中。ACM，233-248。

数字图书馆

[32]

Shane Ryoo、Christopher I Rodrigues、Sara S Baghsorki、Sam S Stone、David B Kirk和Wen mei W Hwu。2008.使用CUDA的多线程GPU的优化原则和应用程序性能评估。2008年PPoPP中。美国医学会，73-82。

数字图书馆

[33]

萨吉·沙哈尔（Sagi Shahar）和马克·西尔伯斯坦（Mark Silberstein）。2016.使用GPUfs支持GPU上的数据驱动I/O。在SYSTOR’16中。ACM公司。

数字图书馆

[34]

Mark Silberstein、Bryan Ford、Idit Keidar和Emmett Witchel。2013.GPUfs：将文件系统与GPU集成。在ASPLOS’13。ACM，13

数字图书馆

[35]

Mark Silberstein、Bryan Ford、Idit Keidar和Emmett Witchel。2014.GPUfs：将文件系统与GPU集成。TOCS 32，1（2014），1。

数字图书馆

[36]

安东尼奥·托拉尔巴（Antonio Torralba）、罗伯特·弗格斯（Robert Fergus）和威廉·T·弗里曼（William T Freeman）。2008年，8000万张微小图像：用于非参数对象和场景识别的大型数据集。IEEE传输。模式分析。机器。智力。30, 11 (2008), 1958-1970.

数字图书馆

[37]

Erez Zadok、Ion Badulescu和Alex Shender。1998年。CryptFS：可堆叠的Vnode级加密文件系统。技术报告。

[38]

Lior Zeno、Avi Mendelson和Mark Silberstein。2016.GPUpIO：GPU上的I/Odriven抢占案例。在通用GPU（GPGPU’16）研讨会上。顶点，8

数字图书馆

引用人

林毅（Lin Y）(2024)深度学习与自然语言处理相结合的英语翻译软件自动评估与优化算法2024年电气传动、电力电子与工程国际会议（EDPEE）10.1109/EDPEE61724.2024.00050(226-231)在线发布日期：2024年2月27日
https://doi.org/10.1109/EDPEE61724.2024.00050
吉德王伟(2023)基于改进GLR算法的英语翻译软件设计2023年网络、信息学和计算国际会议（ICNETIC）10.1109/ICNETIC59568.2023.00140(655-659)在线发布日期：2023年5月
https://doi.org/10.109/ICNETIC59568.2023.00140
刘N(2023)基于数据分析算法的英语智能翻译软件框架2023年国际综合情报和通信系统会议10.1109/ICICS59993.2023.10421120(1-5)在线发布日期：2023年11月24日
https://doi.org/10.1109/ICICS5993.2023.10421120
显示更多引用者

索引术语

ActivePointers：GPU上的软件地址转换案例

索引项已通过自动分类分配给内容。

建议

ActivePointers：GPU上的软件地址转换案例
ISCA’16

现代离散GPU一直是加速计算密集型应用程序的首选处理器，但在大规模数据处理中使用它们是极具挑战性的。不幸的是，它们长期不提供重要的I/O抽象。。。
阅读更多信息
ActivePointers：GPU上的软件地址转换案例
ISCA’16：第43届计算机体系结构国际研讨会论文集

现代离散GPU一直是加速计算密集型应用程序的首选处理器，但在大规模数据处理中使用它们是极具挑战性的。不幸的是，它们长期不提供重要的I/O抽象。。。
阅读更多信息
Intel Xeon Phi上Rodinia码的评估
ISMS’13：2013年第四届智能系统、建模和仿真国际会议记录

高性能计算（HPC）是一个利基领域，各种并行基准不断被用于探索和评估异构计算系统的性能。Rodinia基准套件，一系列并行。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM SIGOPS操作系统评论

ACM SIGOPS操作系统审查第52卷第1期

专题

2018年7月

133页

ISSN公司：0163-5980

内政部：10.1145/3273982

编辑：
马克·西尔伯斯坦
Technion、Hafia、以色列
,
克里斯托弗·罗斯巴赫
德克萨斯州奥斯汀D9500站

版权所有©2018作者。

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2018年8月28日

在SIGOPS中发布体积52,问题1

检查更新

限定符

研究文章

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

4
引文总数
查看引文
103
总下载次数

下载次数（过去12个月）12
下载次数（最近6周）1

其他指标

查看作者指标

引文

引用人

林毅（Lin Y）(2024)深度学习与自然语言处理相结合的英语翻译软件自动评估与优化算法2024年电气传动、电力电子与工程国际会议（EDPEE）10.1109/EDPEE61724.2024.00050(226-231)在线发布日期：2024年2月27日
https://doi.org/10.109/EDPEE61724.2024.00050
吉德王伟(2023)基于改进GLR算法的英语翻译软件设计2023年网络、信息学和计算国际会议（ICNETIC）10.1109/ICNETIC59568.2023.00140(655-659)在线发布日期：2023年5月
https://doi.org/10.109/ICNETIC59568.2023.00140
刘恩(2023)基于数据分析算法的英语智能翻译软件框架2023年国际综合情报和通信系统会议10.1109/ICICS59993.2023.10421120(1-5)在线发布日期：2023年11月24日
https://doi.org/10.1109/ICICS5993.2023.10421120
李Z彭B翁C(2020)XeFlow：为离散CPU-GPU平台优化处理器间管道执行电气电子工程师学会计算机期刊10.1109/TC2020.2968302号69:6(819-831)在线发布日期：2020年6月1日
https://doi.org/10.109/TC.2020.2968302

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子

查看问题目录