跳到主要内容
10.1145/3410463.3414633acm会议文章/章节视图摘要出版物页面协定会议记录会议集合
研究论文
公共访问

通过压缩增强吞吐量处理器中的地址转换

出版:2020年9月30日 出版历史
  • 获取引文提醒
  • 摘要

    在CPU-GPU异构平台上,多个计算引擎之间的高效内存共享在塑造整体应用程序性能方面发挥着重要作用。统一虚拟内存(UVM)是一项很有前途的功能,它允许全局可见的数据结构和指针,以便GPU可以访问CPU侧的物理内存空间,并利用主机操作系统分页机制,而无需显式编程。然而,保证性能的一个关键要求是地址转换的有效硬件支持。特别地,我们观察到GPU执行在UVM环境中遭受高TLB未命中率,特别是对于不规则和/或内存密集型应用。在本文中,我们提出了简单而有效的地址转换压缩机制,以提高GPU TLB命中率。具体来说,我们探索并利用GPU应用程序执行期间的TLB可压缩性,以最小的运行时开销设计高效的地址转换压缩。22个应用程序的实验结果表明,我们提出的方法显著提高了GPU TLB命中率,这意味着平均性能提高了12%。特别是,对于16个不规则和/或内存密集型应用程序,性能改进达到69.2%,平均16.3%。

    工具书类

    [1]
    N.Agarwal、D.Nellans、M.O'Connor、S.W.Keckler和T.F.Wenisch。2015.解锁CC-NUMA系统中GPU的带宽。2015年IEEE第21届高性能计算机体系结构(HPCA)国际研讨会。354--365. https://doi.org/10.1109/HPCA。2015.7056046
    [2]
    Hanna Alam、Tianhao Zhang、Mattan Erez和Yoav Etsion。2017.Do-It-Yourself虚拟记忆翻译。第44届计算机体系结构国际研讨会论文集(加拿大安大略省多伦多)(ISCA’17)。ACM,美国纽约州纽约市,457-468。https://doi.org/10.1145/3079856.3080209
    [3]
    AMD Corp.2016年。I/O虚拟化技术(IOMMU)规范。https://www.amd.com/system/files/TechDocs/4882_IOMMU.pdf
    [4]
    AMD Corp.2017年。Radeons下一代织女星架构。https://radeon.com/_downloads/vega-whitepaper-11.6.17.pdf
    [5]
    R.Ausavarungnirun、J.Landgraf、V.Miller、S.Ghose、J.Gandhi、C.J.Rossbach和O.Mutlu。2017.Mosaic:GPU内存管理器,支持多页面大小的应用程序透明化。2017年第50届IEEE/ACM国际微体系结构研讨会(MICRO)。136--150.
    [6]
    拉查塔·奥萨瓦隆尼伦(Rachata Ausavarungnirun)、万斯·米勒(Vance Miller)、约书亚·兰德格拉夫(Joshua Landgraf)、索加塔·戈泽(Saugata Ghose)、杰内尔·甘地(Jayneel Gandhi)、阿德韦特·乔格(Adwait Jog)、克里斯。2018年。MASK:重新设计GPU内存层次结构以支持多应用程序并发。《第二十届编程语言和操作系统体系结构支持国际会议论文集》(美国弗吉尼亚州威廉斯堡)(ASPLOS’18)。ACM,美国纽约州纽约市,503--518。https://doi.org/10.1145/3173162.3173169
    [7]
    托马斯·W·巴尔(Thomas W.Barr)、艾伦·L·考克斯(Alan L.Cox)和斯科特·里克斯纳(Scott Rixner)。2010.翻译缓存:跳过,不要行走(页面表)。第37届计算机体系结构国际研讨会论文集(法国圣马洛)(ISCA’10)。ACM,美国纽约州纽约市,48-59。https://doi.org/10.1145/1815961.1815970
    [8]
    T.W.Barr、A.L.Cox和S.Rixner。2011.SpecTLB:推测地址转换机制。2011年,第38届计算机体系结构国际年会(ISCA)。307--317.
    [9]
    阿尔卡普拉瓦·巴苏、杰内尔·甘地、张继川、马克·希尔和迈克尔·斯威夫特。2013.大内存服务器的高效虚拟内存。第40届国际计算机体系结构年会(以色列Tel-Avi)会议记录(ISCA’13)。ACM,美国纽约州纽约市,237--248。https://doi.org/10.1145/2485922.2485943
    [10]
    S.Bharadwaj、G.Cox、T.Krishna和A.Bhattacharjee。2018.使用低延迟互连的可扩展分布式最后一级TLB。2018年第51届IEEE/ACM国际微体系结构研讨会(MICRO)。271--284. https://doi.org/10.109/MICRO.2018.00030
    [11]
    阿比谢克·巴塔查吉(Abhishek Bhattacharjee)。2013.大容量内存管理单元缓存。在第46届IEEE/ACM国际微体系结构年会论文集(加利福尼亚州戴维斯)(MICRO-46)。ACM,美国纽约州纽约市,383--394。https://doi.org/10.1145/2540708.2540741
    [12]
    阿比谢克·巴塔查吉(Abhishek Bhattacharjee)。2017.翻译触发预取。第二十二届编程语言和操作系统体系结构支持国际会议论文集(中国西安)(ASPLOS’17)。美国纽约州纽约市ACM,63-76。https://doi.org/10.1145/3037697.3037705
    [13]
    卢卡·考奇(Luca Caucci)和拉尔斯·弗伦里德(Lars R.Furenlid)。2015.生物医学成像GPU编程。《辐射探测器V的医学应用》,H.Bradford Barber、Lars R.Furenlid和Hans N.Roehrig(编辑),第9594卷。国际光学和光子学学会,SPIE,79-93。https://doi.org/10.1117/12.2195217
    [14]
    S.Che、B.M.Beckmann、S.K.Reinhardt和K.Skadron。2013.Pannotia:了解不规则GPGPU图形应用程序。2013年IEEE工作负荷特性国际研讨会(IISWC)。185--195. https://doi.org/10.109/IISWC.2013.6704684
    [15]
    S.Che、M.Boyer、J.Meng、D.Tarjan、J.W.Sheffer、S.Lee和K.Skadron。2009年,Rodinia:异构计算的基准套件。2009年IEEE工作负荷特性国际研讨会(IISWC)。44--54. https://doi.org/10.109/IISWC.2009.5306797
    [16]
    Guilherme Cox和Abhishek Bhattacharjee。2017.多页面大小架构的高效地址翻译。第二十二届程序设计语言和操作系统体系结构支持国际会议论文集(中国西安)(ASPLOS’17)。美国纽约州纽约市ACM,435-448。https://doi.org/10.1145/3037697.3037704
    [17]
    丁伟、汤旭龙、坎德米尔、张元瑞和艾姆雷文化。2015.优化多核中的非chip访问。第36届ACM SIGPLAN编程语言设计与实现(PLDI)会议论文集。
    [18]
    Z.Du、R.Fasthuber、T.Chen、P.Ienne、L.Li、T.Luo、X.Feng、Y.Chen和O.Temam。2015年,施电脑:将视觉处理更靠近传感器。2015年,ACM/IEEE第42届计算机体系结构国际年会(ISCA)。92--104. https://doi.org/10.1145/2749460779.2750389
    [19]
    Debashis Ganguly、Ziyu Zhang、Jun Yang和Rami Melhem。2019.CPU-GPU统一虚拟内存中硬件预取器和页面移出策略之间的相互作用。第46届国际计算机体系结构研讨会论文集(亚利桑那州凤凰城)(ISCA'19)。ACM,美国纽约州纽约市,224-235。https://doi.org/10.1145/3307650.3322224
    [20]
    S.Grauer-Gray、L.Xu、R.Searles、S.Ayalasomayajula和J.Cavazos。2012.针对GPU代码自动调整高级语言。2012年,创新并行计算(InPar)。1--10. https://doi.org/10.109/InPar.2012.6339595
    [21]
    Y.Hao、Z.Fang、G.Reinman和J.Cong.,2017年。支持加速器中心架构的地址转换。2017年IEEE高性能计算机体系结构(HPCA)国际研讨会。37--48. https://doi.org/10.109/HPCA.2017.19
    [22]
    Swapnil Haria、Mark D.Hill和Michael M.Swift。2018.异构系统中的偏差内存。《第二十届编程语言和操作系统体系结构支持国际会议论文集》(美国弗吉尼亚州威廉斯堡)(ASPLOS’18)。美国纽约州纽约市ACM,637--650。https://doi.org/10.1145/3173162.3173194
    [23]
    Timothy D.R.Hartley、Umit Catalysturek、Antonio Ruiz、Francisco Igual、Rafael Mayo和Manuel Ujaldon。2014年,基于GPU和多核协同集群的生物医学图像分析。在ACM超级计算25周年国际会议卷(德国慕尼黑)上。美国纽约州纽约市ACM,413-423。https://doi.org/10.1145/2591635.2667189
    [24]
    Mahmut Kandimer、Hui Zhao、Xulong Tang和Mustafa Karakoy。2015.内存行重用距离及其在优化应用程序性能中的作用。2015年ACM SIGMETRICS国际计算机系统测量与建模会议(SIGMETRICS)论文集。
    [25]
    瓦西利奥斯·卡拉科斯塔斯、杰内尔·甘地、福坎·艾亚尔、阿德里安·克里斯塔尔、马克·希尔、凯瑟琳·麦金利、马里奥·内米洛夫斯基、迈克尔·斯威夫特和奥斯曼·尤萨尔。2015.用于快速访问大型内存的冗余内存映射。第42届计算机体系结构国际年会(俄勒冈州波特兰)会议记录(ISCA’15)。ACM,美国纽约州纽约市,66-78。https://doi.org/10.1145/2749469.2749471
    [26]
    Jens Kehne、Jonathan Metter和Frank Bellosa。2015.GPUswap:通过透明交换实现GPU内存的超额订阅。第十一届ACM SIGPLAN/SIGOPS虚拟执行环境国际会议(土耳其伊斯坦布尔)(VEE’15)会议记录。ACM,美国纽约州纽约市,65-77。https://doi.org/10.1145/2731186.2731192
    [27]
    Orhan Kislal、Jagadish Kotra、Xulong Tang、Mahmut Taylan Kandimir和Myoungsoo Jung。2018年,利用物理位置信息加强计算到核心的分配。在第39届ACM SIGPLAN编程语言设计与实现会议(PLDI)的会议记录中。
    [28]
    M.Kulkarni、M.Burtscher、C.Cascaval和K.Pingali。2009年,Lonestar:一套并行的不规则程序。2009年IEEE系统和软件性能分析国际研讨会。65--76. https://doi.org/10.109/ISPASS.2009.4919639
    [29]
    莫汉·库马尔·库马尔(Mohan Kumar Kumar)、斯特芬·马斯(Steffen Maass)、萨尼迪亚·卡西亚普(Sanidhya Kashyap)、贾恩·维塞尔(Ján Veselí)、子燕(Zi Yan)、泰索·金(Taesoo Kim)、阿比舍克·巴塔查吉(Abhishek。2018年,LATR:懒惰翻译连贯性。《第二十届编程语言和操作系统体系结构支持国际会议论文集》(美国弗吉尼亚州威廉斯堡)(ASPLOS’18)。美国纽约州纽约市ACM,651-664。https://doi.org/10.1145/3173162.3173198
    [30]
    权永进、于杭晨、西蒙·彼得、克里斯托弗·罗斯巴赫和埃米特·维切尔。2016.与Ingens协调高效的大型页面管理。第十二届USENIX操作系统设计与实现会议记录(美国佐治亚州萨凡纳)(OSDI’16)。USENIX协会,美国加利福尼亚州伯克利,705--721。http://dl.acm.org/citation.cfm?id=3026877.3026931
    [31]
    Jieun Lim、Nagesh B.Lakshminarayana、Hyeson Kim、William Song、Sudhakar Yalamanchili和Wonyong Sung。2014.使用McPAT的GPU架构的功率建模。ACM事务处理。设计。自动。电子。系统。,第19卷,第3卷,第26条(2014年6月),24页。https://doi.org/10.1145/2611758
    [32]
    阿尔特米·马加里托夫(Artemiy Margaritov)、德米特里·乌斯提乌戈夫(Dmitrii Ustiugov)、爱德华·布格宁(Edouard Bugnion)和鲍里斯·格罗(Boris Grot)。2019.预取地址翻译。第52届IEEE/ACM国际微体系结构研讨会论文集(美国俄亥俄州哥伦布)(MICRO’52)。ACM,美国纽约州纽约市,1023-1036。https://doi.org/10.1145/3352460.3358294
    [33]
    Sparsh Mittal和Jeffrey S.Vetter。2015年CPU-GPU异构计算技术调查。ACM计算。调查。,第47卷,第4卷,第69条(2015年7月),35页。https://doi.org/10.1145/2788396
    [34]
    NVIDIA Corp.2016年。NVIDIA特斯拉P100。https://images.nvidia.com/content/pdf/tesla/whitepaper/pascal-architecture-whitepaper网站
    [35]
    NVIDIA Corp.2018年。NVIDIA Pascal架构。https://www.nvidia.com/en-us/data-center/pascal-gpu架构/
    [36]
    M.Parasar、A.Bhattacharjee和T.Krishna。2018.SEESAW:使用超级页面改进VIPT缓存。2018年ACM/IEEE第45届计算机体系结构国际年会(ISCA)。193--206.
    [37]
    C.H.Park、T.Heo、J.Jeong和J.Huh。2017年。混合TLB合并:在不同碎片内存分配下提高TLB翻译覆盖率。2017年ACM/IEEE第44届计算机体系结构国际年会(ISCA)。444--456. https://doi.org/10.1145/3079856.3080217
    [38]
    E.Park、J.Ahn、S.Hong、S.Yoo和S.Lee。2015.内存快进:一种低成本的特殊功能单元,用于提高大数据处理GPU的能效。2015年欧洲会议展览设计、自动化测试(DATE)。1341--1346.
    [39]
    Ashutosh Pattnaik、Xulong Tang、Adwait Jog、Onur Kayiran、Asit K.Mishra、Mahmut T.Kandemir、Onur-Mutlu和Chita R.Das。2016.具有内存处理功能的GPU架构的调度技术。在2016年并行架构和编译国际会议(PACT)的会议记录中。
    [40]
    Ashutosh Pattnaik、Xulong Tang、Onur Kayiran、Adwait Jog、Asit Mishra、Mahmut T.Kandimir、Anand Sivasubramaniam和Chita R.Das。2019.GPU架构中的机会主义计算。第46届计算机体系结构国际研讨会论文集。
    [41]
    Gennady Pekhimenko、Vivek Seshadri、Onur Mutlu、Michael A Kozuch、Phillip B Gibbons和Todd C Mowry。2012.基增量即时压缩:用于片上缓存的实用数据压缩。2012年,第21届并行体系结构和编译技术国际会议(PACT)。IEEE,377--388。
    [42]
    B.Pham、A.Bhattacharjee、Y.Eckert和G.H.Loh。2014.通过在页面翻译中利用集群来增加TLB覆盖范围。2014年IEEE第20届高性能计算机体系结构(HPCA)国际研讨会。558--567. https://doi.org/10.109/HPCA.2014.6835964
    [43]
    Binh Pham、Derek Hower、Abhishek Bhattacharjee和Trey Cain。2018.L1虚拟缓存低功耗多核服务器TLB故障缓解。IEEE计算。阿基特。莱特。,第17卷,第1期(2018年1月),17-20。https://doi.org/10.109/LCA.2017.2712140
    [44]
    平范(Binh Pham)、维斯瓦纳桑·维迪亚纳坦(Viswanathan Vaidyanathan)、阿梅尔·贾列尔(Aamer Jaleel)和阿比谢克·巴塔查吉(Abhishek Bhattacharjee)。2012年,CoLT:合并的大型区域TLB。2012年第45届IEEE/ACM国际微体系结构研讨会论文集(加拿大不列颠哥伦比亚省温哥华)(MICRO-45)。美国IEEE计算机学会,258-269。https://doi.org/10.109/MICRO.2012.32
    [45]
    B.Pham、J.Veselý、G.H.Loh和A.Bhattacharjee。2015.虚拟化环境中的大页面和轻量级内存管理:您能同时使用这两种方式吗?。2015年第48届IEEE/ACM国际微体系结构研讨会(MICRO)。1--12. https://doi.org/10.1145/2830772.28300773
    [46]
    巴拉斯·皮查(Bharath Pichai)、丽莎·徐(Lisa Hsu)和阿比谢克·巴塔查吉(Abhishek Bhattacharjee)。2014.GPU上地址转换的体系结构支持:使用统一地址空间为CPU/GPU设计内存管理单元。第19届编程语言和操作系统架构支持国际会议论文集(美国犹他州盐湖城)(ASPLOS’14)。美国纽约州纽约市ACM,743--758。https://doi.org/10.1145/2541940.2541942
    [47]
    B.Pichai、L.Hsu和A.Bhattacharjee。2015.面向吞吐量的加速器的地址转换。IEEE Micro,第35卷,第3期(2015年5月),第102-113页。https://doi.org/10.109/MM.2015.44
    [48]
    J.Picorel、D.Jevdjic和B.Falsafi。2017.近记忆地址转换。2017年第26届并行体系结构和编译技术国际会议(PACT)。303--317. https://doi.org/10.109/PACT.2017.56
    [49]
    J.Power、J.Hestness、M.S.Orr、M.D.Hill和D.A.Wood。gem5-gpu:异构CPU-gpu模拟器。IEEE计算机架构快报,第14卷,第1期(2015年1月),34-36。https://doi.org/10.109/LCA.2014.2299539
    [50]
    J.Power、M.D.Hill和D.A.Wood。2014.支持100个GPU通道的x86--64地址转换。2014年IEEE第20届高性能计算机体系结构(HPCA)国际研讨会。568--578. https://doi.org/10.109/HPCA.2014.6835965
    [51]
    蒂莫西·罗杰斯(Timothy G.Rogers)、迈克·奥康纳(Mike O'Connor)和托尔·阿莫特(Tor M.Aamodt)。2012.缓存意识的波前调度。在MICRO中。
    [52]
    Jihyun Ryoo、Mengran Fan、Xulong Tang、Huaipan Jiang、Meena Arunachalam、Sharada Naveen和Mahmut T Kandimir。2019.深度神经网络应用的架构中心瓶颈分析。2019年IEEE第26届高性能计算、数据和分析国际会议(HiPC)。IEEE,205-214。
    [53]
    R.Samanta、J.Surprise和R.Mahapatr。2008.使用TCAM单元动态聚合TLB中的虚拟地址。在第21届国际超大规模集成电路设计会议(VLSID 2008)上。243--248. https://doi.org/10.109/VLSI.2008.57
    [54]
    彼得·桑德斯和克里斯蒂安·舒尔茨。2012年,第十届Dimacs实施挑战——图形分区和图形聚类。(2012年)。
    [55]
    S.Shahar、S.Bergman和M.Silberstein。2016.ActivePointers:GPU上的软件地址转换案例。2016年ACM/IEEE第43届计算机体系结构国际年会(ISCA)。596--608. https://doi.org/10.109/ISCA.2016.58
    [56]
    S.Shin、G.Cox、M.Oskin、G.H.Loh、Y.Solihin、A.Bhattacharjee和A.Basu。2018.安排不定期GPU应用程序的页面表巡视。2018年ACM/IEEE第45届计算机体系结构国际年会(ISCA)。180--192. https://doi.org/10.109/ISCA.2018.00025
    [57]
    John A Stratton、Christopher Rodrigues、I-Jui Sung、Nady Obeid、Li-Wen Chang、Nasser Anssari、Geng Daniel Liu和Wen-mei W Hwu。2012.Parboul:科学和商业吞吐量计算的修订基准套件。可靠和高性能计算中心,第127卷(2012年)。
    [58]
    唐旭龙、马哈茂特·坎德米尔、普拉文·叶德拉帕利和贾加迪什·科特拉。2016年,针对非常规应用提高银行级并行性。第49届IEEE/ACM国际微体系结构研讨会论文集。
    [59]
    唐旭龙(Xulong Tang)、马赫穆特·泰兰·坎德米尔(Mahmut Taylan Kandimer)、赵慧(Hui Zhao)、郑明洙(Myoungsoo Jung)和穆斯塔法·卡拉科伊(Mustafa Karakoy)。2019年a.使用近数据进行计算。2019年ACM SIGMETRICS国际计算机系统测量和建模会议(SIGMETRACS)会议记录。
    [60]
    唐旭龙、奥尔汉·基斯拉尔、马赫穆特·坎德米尔和穆斯塔法·卡拉科伊。2017年a。数据移动感知计算分区。第50届IEEE/ACM国际微体系结构研讨会论文集。
    [61]
    唐旭龙(Xulong Tang)、阿舒托什·帕特奈克(Ashutosh Pattnaik)、江怀潘(Huaipan Jiang)、奥努尔·凯伊兰(Onur Kayiran)、阿德瓦伊·乔格(Adwait Jog)、帕伊(Sreepathi Pai)、穆罕默德·易卜拉欣(Mohamed Ibrahim)、。2017年b月。GPU中动态并行性的受控内核启动。第23届高性能计算机体系结构(HPCA)国际研讨会论文集。
    [62]
    唐旭龙(Xulong Tang)、阿舒托什·帕特奈克(Ashutosh Pattnaik)、奥努尔·卡伊兰(Onur Kayiran)、阿德瓦伊·乔格(Adwait Jog)、马赫穆特·泰兰·坎德米尔(Mahmut Taylan Kandimir)和契塔·。2019年b.量化GPU中动态并行的数据位置。2019年ACM SIGMETRICS国际计算机系统测量和建模会议(SIGMETRACS)会议记录。
    [63]
    唐旭龙、Mahmut Taylan Kandemir、Mustafa Karakoy和Meena Arunachalam。2019 c.共同优化内存级并行性和缓存级并行性。第40届ACM SIGPLAN编程语言设计与实现年会论文集。
    [64]
    S.Thoziyoor、J.H.Ahn、M.Monchiero、J.B.Brockman和N.P.Jouppi。2008.一个全面的内存建模工具及其在未来内存层次结构设计和分析中的应用。2008年计算机体系结构国际研讨会。51--62. https://doi.org/10.109/ISCA.2008.16
    [65]
    J.Vesely、A.Basu、M.Oskin、G.H.Loh和A.Bhattacharjee。2016.为异构系统构建共享虚拟内存的观察结果和机会。2016年IEEE系统和软件性能分析国际研讨会(ISPASS)。161--171. https://doi.org/10.109/ISPASS.2016.7482091
    [66]
    J.Veselí、A.Basu、A.Bhattacharjee、G.H.Loh、M.Oskin和S.K.Reinhardt。2018.GPU的通用系统调用。2018年ACM/IEEE第45届计算机体系结构国际年会(ISCA)。843--856. https://doi.org/10.109/ISCA.2018.00075
    [67]
    P.Vogel、A.Marongiu和L.Benini。2015.为异构嵌入式SoC中的多核加速器提供轻量级虚拟内存支持。2015年国际软硬件协同设计与系统综合会议(CODESISSS)。45--54. https://doi.org/10.109/CODESISSS.2015.7331367
    [68]
    王林南、叶金棉、赵益阳、吴伟、李昂、宋帅文、徐增林和蒂姆·克拉斯卡。2018年。超级神经元:用于训练深层神经网络的动态GPU内存管理。第23届ACM SIGPLAN并行编程原理与实践研讨会会议记录(奥地利维也纳)(PPoPP'18)。ACM,美国纽约州纽约市,41-53。https://doi.org/10.1145/3178487.3178491
    [69]
    Zi Yan、Daniel Lustig、David Nellans和Abhishek Bhattacharjee。2019.Translation Ranger:操作系统支持连续感知TLB。第46届计算机体系结构国际研讨会论文集(亚利桑那州凤凰城)(ISCA’19)。ACM,美国纽约州纽约市,698-710。https://doi.org/10.1145/3307650.332223
    [70]
    S.Zhang、Y.Yang、L.Shen和Z.Wang。2018.通过透明的部分页面迁移在CPU和GPU之间实现高效的数据通信。2018年IEEE第20届高性能计算与通信国际会议;IEEE第十六届智能城市国际会议;IEEE第四届数据科学与系统国际会议(HPCC/SmartCity/DSS)。618--625. https://doi.org/10.109/HPCC/SmartCity/DSS.2018.00112
    [71]
    T.Zheng、D.Nellans、A.Zulfiqar、M.Stephenson和S.W.Keckler。2016.面向GPU的高性能分页内存。在2016年IEEE高性能计算机体系结构国际研讨会(HPCA)上。345--357. https://doi.org/10.109/HPCA.2016.7446077

    引用人

    查看全部
    • (2023)IDYLL:通过轻量级PTE失效增强多GPU中的页面翻译第56届IEEE/ACM微体系结构国际研讨会论文集10.1145/3613424.3614269(1163-1177)在线发布日期:2023年10月28日
    • (2023)通过组内共享TLB加速GPU性能第52届并行处理国际会议记录10.1145/3605573.3605593(705-714)在线发布日期:2023年8月7日
    • (2023)马赛克页面:大TLB覆盖小页面第28届ACM编程语言和操作系统体系结构支持国际会议记录,第3卷10.1145/3582016.3582021(433-448)在线发布日期:23年3月25日
    • 显示更多引用者

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM会议
    第20届ACM并行体系结构和编译技术国际会议论文集
    2020年9月
    505页
    国际标准图书编号:9781450380751
    内政部:10.1145/3410463
    允许制作本作品的全部或部分数字或硬拷贝供个人或课堂使用,但不收取任何费用,前提是复制品的制作或分发不是为了盈利或商业利益,并且复制品在首页注明本通知和完整引文。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

    赞助商

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2020年9月30日

    权限

    请求对此文章的权限。

    检查更新

    作者标记

    1. cpu-gpu异构系统
    2. 性能
    3. tlb公司
    4. 统一虚拟存储器

    限定符

    • 研究文章

    资金来源

    • 国家科学基金会
    • 匹兹堡大学

    会议

    20年10月
    赞助商:
    PACT’20:并行体系结构和编译技术国际会议
    2020年10月3日至7日
    GA,虚拟活动,美国

    接受率

    471份提交文件中的总体接受率121份,26%

    即将召开的会议

    24年10月
    并行体系结构和编译技术国际会议
    2024年10月14日至16日
    南加州,加利福尼亚州,美国

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)238
    • 下载次数(最近6周)25

    其他指标

    引文

    引用人

    查看全部
    • (2023)IDYLL:通过轻量级PTE失效增强多GPU中的页面翻译第56届IEEE/ACM微体系结构国际研讨会论文集10.1145/3613424.3614269(1163-1177)在线发布日期:2023年10月28日
    • (2023)通过组内共享TLB加速GPU性能第52届并行处理国际会议记录10.1145/3605573.3605593(705-714)在线发布日期:2023年8月7日
    • (2023)马赛克页面:大TLB覆盖小页面第28届ACM程序设计语言和操作系统体系结构支持国际会议论文集,第3卷10.1145/3582016.3582021(433-448)在线发布日期:2023年3月25日
    • (2023)Trans-FW:通过远程转发实现多GPU系统中的短路页表漫游2023年IEEE高性能计算机体系结构(HPCA)国际研讨会10.1109/HPCA56546.2023.10071054(456-470)在线发布日期:2023年2月
    • (2023)用于改进GPU中地址转换的协调调度和分区2023年第60届ACM/IEEE设计自动化会议(DAC)10.1109/DAC56929.2023.10247943(1-6)在线发布日期:2023年7月9日
    • (2022)MCM GPU的虚拟内存系统设计第55届IEEE/ACM微体系结构国际研讨会论文集10.1109/微缩56248.2022.00036(404-422)在线发布日期:2022年10月1日
    • (2022)通过基于相邻目录表的TLB间共享提高GPU性能2022年IEEE第40届国际计算机设计会议(ICCD)10.1109/ICCD56317.2022.00031(146-153)在线发布日期:2022年10月
    • (2022)Demand MemCpy:异构计算中计算和数据传输的重叠IEEE接入10.1109/访问2022.319527110(79925-79938)在线发布日期:2022年
    • (2021)利用未充分利用的片上资源增加GPU翻译范围MICRO-54:54届IEEE/ACM微体系结构国际研讨会10.1145/3466752.3480105(1169-1181)在线发布日期:2021年10月18日
    • (2021)通过共享和溢出感知TLB设计改进多GPU中的地址转换MICRO-54:54届IEEE/ACM微体系结构国际研讨会10.1145/3466752.3480083(1154-1168)在线发布日期:2021年10月18日

    视图选项

    视图选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    获取访问权限

    登录选项

    完全访问权限

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享