跳到主要内容
研究论文

活动指针:GPU上的软件地址转换案例

出版:2018年8月28日 出版历史
  • 获取引文提醒
  • 摘要

    现代离散GPU一直是加速计算密集型应用程序的首选处理器,但在大规模数据处理中使用它们是极具挑战性的。不幸的是,它们没有提供在CPU上下文中长期建立的重要I/O抽象,例如内存映射文件,这些文件使程序员避免了缓冲区和I/O设备管理的复杂性。然而,在GPU上实现这些抽象会带来一个问题:有限的GPU虚拟内存系统没有向GPU开发人员提供地址空间管理和页面错误处理机制,并且不允许修改用于运行GPU程序的内存映射。我们实现了ActivePointers,这是一个软件地址转换层和分页系统,它为GPU程序引入了对页面错误和虚拟地址空间管理的本地支持,并支持在商品GPU上实现完全功能的内存映射文件。映射到GPU内存中的文件使用活动指针进行访问,活动指针的行为类似于常规指针,但可以在后台访问GPU页面缓存,并触发在GPU上处理的页面错误。我们设计并评估了许多新的机制,包括硬件寄存器中的翻译缓存和翻译聚合,用于单个warp中线程的无死锁页面错误处理。我们使用微基准对商品NVIDIA GPU上的ActivePointer进行了广泛的评估,还实现了一个复杂的图像处理应用程序,该应用程序从存储在40GB文件中的1000万个图像的子集中构造照片拼贴。GPU实现将整个文件映射到GPU内存中,并通过活动指针访问它。使用活动指针只会使应用程序的运行时间增加1%,同时在CPU+GPU组合实现上实现高达3.9倍的加速,在使用AVX矢量指令的仅12核CPU实现上实现高达2.6倍的加速。

    工具书类

    [1]
    2016.Intel Software Guard Extensions编程参考。https://软件。intel.com/sites/default/files/managed/48/88/329298-002.pdf。访问时间:2018-5。
    [2]
    内哈·阿加瓦尔(Neha Agarwal)、大卫·内兰斯(David Nellans)、迈克·奥康纳(Mike O'Connor)、斯蒂芬·沃克勒(StephenWKeckler)和托马斯·维尼什(Thomas F Wenisch)。2015.解锁CC-NUMA系统中GPU的带宽。在HPCA’15中。IEEE,354-365。
    [3]
    内哈·阿加瓦尔(Neha Agarwal)、大卫·内伦斯(David Nellans)、马克·斯蒂芬森(Mark Stephenson)、迈克·奥康纳(Mike O'Connor)和斯蒂芬·凯克勒(StephenW Keckler)。2015.异构内存系统中GPU的页面放置策略。在ASPLOS’15。美国医学会,607-618。
    [4]
    谢·伯格曼(Shai Bergman)、坦亚·布罗克曼(Tanya Brokhman)、扎奇·科恩(Tzachi Cohen)和马克·西尔伯斯坦(Mark Silberstein)。2017.SPIN:SSD和GPU之间对等DMA的无缝操作系统集成。第十七届USENIX年度技术会议记录,USENIXATC,第17卷。
    [5]
    Pramod Bhatotia、Rodrigo Rodrigues和Akshat Verma。2012.切碎机:GPUA加速增量存储和计算。在FAST’14中。USENIX,第14页。
    [6]
    丹·布维尔和本·桑德。2014.将AMD的Kaveri APU应用于异构计算。在热芯片'14。
    [7]
    Silas Boyd-Wickizer、Austin T Clements、Yandong Mao、Aleksey Pesterev、FransM Kaashoek、Robert Morris和Nickolai Zeldovich。2010年,Linux可扩展到多核心的分析。OSDI’10,第10卷。USENIX,86-93。
    [8]
    Sung-Hyuk Cha和Sargur N Srihari,2002年。关于直方图之间距离的测量。模式识别35,6(2002),1355-1370。
    [9]
    Feras Daoud、Amir Watad和Mark Silberstein。2016.GPUrdma:GPU端库,用于从GPU内核进行高性能联网。第六届超级计算机运行时和操作系统国际研讨会论文集。美国医学会,6。
    [10]
    Mayur Datar、Nicole Immorlica、Piotr Indyk和Vahab SMirrokni。2004.基于P-稳定分布的位置敏感哈希方案。在年度交响乐中。公司。几何学。ACM,253-262。
    [11]
    Joe Devietti、Colin Blundell、Milo MK Martin和Steve Zdancewic。2008.精装本:C编程语言的空间安全架构支持。ACM SIGOPS操作系统评论42,2(2008),103-114。
    [12]
    Isaac Gelado、John E Stone、Javier Cabezas、Sanjay Patel、Nacho Navarro和Wen mei W Hwu。2010年。异构并行系统的非对称分布式共享内存模型。ACM SIGARCH计算机架构新闻,第38卷。美国医学会,347-358。
    [13]
    GPU直接。2015年GPU直接RDMA。http://docs.nvidia.com/cuda/gpudirect-rdma/index.html。
    [14]
    HMM.2014年。异构内存管理(设备MMU上的镜像进程地址空间)。https://lwn.net/Articles/597289/。
    [15]
    埃里克·霍克(Eric Holk)、瑞恩·牛顿(Ryan Newton)、杰里米·西克(Jeremy Siek)和安德鲁·卢姆斯代恩(Andrew Lumsdaine)。2014.GPU编程语言的基于区域的内存管理:在斯巴达主机上启用丰富的数据结构。2014年OOPSLA。美国医学会,141-155。
    [16]
    布鲁斯·雅各布和特雷弗·穆奇。1997.软件管理的地址转换。1997年HPCA。IEEE,156-167。
    [17]
    冯吉,林和山,马晓松。2013。RSVM:用于GPU的基于区域的软件虚拟内存。在第13条中。IEEE,269-278。
    [18]
    Sangman Kim、Seonggu Huh、Xina Zhang Yige Hu、Amir Wated、Emmett Witchel和Mark Silberstein。2014.GPUnet:GPU项目的网络摘要。在OSDI’14中。USENIX,第6-8页。
    [19]
    Janghaeng Lee、Mehrzad Samadi和Scott Mahlke。2014.VAST:GPU大内存空间的幻觉。在14年。美国医学会,443-454。
    [20]
    杜安·梅里尔和安德鲁·格里姆肖。2011.高性能和可扩展基数排序:GPU计算实现动态并行的案例研究。并行处理信件21,02(2011),245-272。
    [21]
    亚历山大·斯图帕兰、塞巴斯蒂安·米歇尔和拉尔夫·申克尔。2010.RankReduce-在MapReduce上处理K-最近邻查询。在信息检索大规模分布式系统研讨会上。13-18.
    [22]
    Santosh Nagarakatte、Milo MK Martin和Steve Zdancewic。2014.WatchdogLite:硬件加速的基于编译器的指针检查。2014年HPCA。IEEE,175。
    [23]
    Santosh Nagarakatte、Jianzhou Zhao、Milo MK Martin和Steve Zdancewic。2009.SoftBound:C的高度兼容和完整空间内存安全。在ACM Sigplan通告中,第44卷。美国医学会,245-258。
    [24]
    George C Necula、Jeremy Condit、Matthew Harren、Scott McPeak和Westley Weimer。2005年。CCured:传统软件的类型安全改装。TOPLAS’05 27,3(2005),477-526。
    [25]
    梅尼·奥伦巴赫(Meni Orenbach)、帕维尔·利夫希茨(Pavel Lifshits)、玛丽娜·明金(Marina Minkin)和马克·西尔伯斯坦(Mark Silberstein)。2017.Eleos:针对SGX飞地的ExitLess OS服务。第十二届欧洲计算机系统会议记录。美国医学会,238-253。
    [26]
    贾潘和迪内什·马诺查。2011.用于K最近邻计算的快速基于GPU的位置敏感哈希。在SIGSPATIAL’11中。美国医学会,211-220。
    [27]
    萨萨·彼得罗维奇、迈尔斯·奥斯本和维克托·拉夫伦科。2010年,推特应用程序流式传输第一个故事检测。在计算语言学协会年会上。181-189.
    [28]
    巴拉斯·皮查(Bharath Pichai)、丽莎·徐(Lisa Hsu)和阿比谢克·巴塔查吉(Abhishek Bhattacharjee)。2014.GPU上地址转换的架构支持。在2014年的ASPLOS。ACM公司。
    [29]
    乔纳森·鲍尔(Jonathan Power)、马克·D·希尔(Mark D Hill)和大卫·A·伍德(David A Wood)。2014.支持100个GPU通道的x86-64地址转换。2014年HPCA。IEEE,568-578。
    [30]
    菲尔·罗杰斯。2013.异构系统体系结构概述。在Hot Chips’13第25卷中。
    [31]
    Christopher J Rossbach、Jon Currey、Mark Silberstein、Baishaki Ray和Emmett Witchel。2011年,PTask:将GPU作为计算设备管理的操作系统抽象。在SOSP'11中。ACM,233-248。
    [32]
    Shane Ryoo、Christopher I Rodrigues、Sara S Baghsorki、Sam S Stone、David B Kirk和Wen mei W Hwu。2008.使用CUDA的多线程GPU的优化原则和应用程序性能评估。2008年PPoPP中。美国医学会,73-82。
    [33]
    萨吉·沙哈尔(Sagi Shahar)和马克·西尔伯斯坦(Mark Silberstein)。2016.使用GPUfs支持GPU上的数据驱动I/O。在SYSTOR’16中。ACM公司。
    [34]
    Mark Silberstein、Bryan Ford、Idit Keidar和Emmett Witchel。2013.GPUfs:将文件系统与GPU集成。在ASPLOS’13。ACM,13
    [35]
    Mark Silberstein、Bryan Ford、Idit Keidar和Emmett Witchel。2014.GPUfs:将文件系统与GPU集成。TOCS 32,1(2014),1。
    [36]
    安东尼奥·托拉尔巴(Antonio Torralba)、罗伯特·弗格斯(Robert Fergus)和威廉·T·弗里曼(William T Freeman)。2008年,8000万张微小图像:用于非参数对象和场景识别的大型数据集。IEEE传输。模式分析。机器。智力。30, 11 (2008), 1958-1970.
    [37]
    Erez Zadok、Ion Badulescu和Alex Shender。1998年。CryptFS:可堆叠的Vnode级加密文件系统。技术报告。
    [38]
    Lior Zeno、Avi Mendelson和Mark Silberstein。2016.GPUpIO:GPU上的I/Odriven抢占案例。在通用GPU(GPGPU’16)研讨会上。顶点,8

    引用人

    查看全部
    • (2024)深度学习与自然语言处理相结合的英语翻译软件自动评估与优化算法2024年电气传动、电力电子与工程国际会议(EDPEE)10.1109/EDPEE61724.2024.00050(226-231)在线发布日期:2024年2月27日
    • (2023)基于改进GLR算法的英语翻译软件设计2023年网络、信息学和计算国际会议(ICNETIC)10.1109/ICNETIC59568.2023.00140(655-659)在线发布日期:2023年5月
    • (2023)基于数据分析算法的英语智能翻译软件框架2023年国际综合情报和通信系统会议10.1109/ICICS59993.2023.10421120(1-5)在线发布日期:2023年11月24日
    • 显示更多引用者

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM SIGOPS操作系统评论
    ACM SIGOPS操作系统审查 第52卷第1期
    专题
    2018年7月
    133页
    ISSN公司:0163-5980
    内政部:10.1145/3273982
    期刊目录

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2018年8月28日
    在SIGOPS中发布体积52,问题1

    检查更新

    限定符

    • 研究文章

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)12
    • 下载次数(最近6周)1

    其他指标

    引文

    引用人

    查看全部
    • (2024)深度学习与自然语言处理相结合的英语翻译软件自动评估与优化算法2024年电气传动、电力电子与工程国际会议(EDPEE)10.1109/EDPEE61724.2024.00050(226-231)在线发布日期:2024年2月27日
    • (2023)基于改进GLR算法的英语翻译软件设计2023年网络、信息学和计算国际会议(ICNETIC)10.1109/ICNETIC59568.2023.00140(655-659)在线发布日期:2023年5月
    • (2023)基于数据分析算法的英语智能翻译软件框架2023年国际综合情报和通信系统会议10.1109/ICICS59993.2023.10421120(1-5)在线发布日期:2023年11月24日
    • (2020)XeFlow:为离散CPU-GPU平台优化处理器间管道执行电气电子工程师学会计算机期刊10.1109/TC2020.2968302号69:6(819-831)在线发布日期:2020年6月1日

    视图选项

    获取访问权限

    登录选项

    完全访问权限

    查看选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享