跳到主要内容
10.1145/2155620.2155655acm会议文章/章节视图摘要出版物页面微型的会议记录会议集合
研究论文

GPU体系结构的硬件事务内存

出版:2011年12月3日 出版历史
  • 获取引文提醒
  • 摘要

    图形处理器单元(GPU)旨在有效利用线程级并行(TLP),在相对较小的单指令多线程(SIMT)内核集上多路执行1000个并发线程,以隐藏各种长延迟操作。虽然CUDA块/OpenCL工作组中的线程可以通过内核内草稿行内存进行有效通信,但不同块中的线程只能通过全局内存访问进行通信。希望利用这种通信的程序员必须考虑当多个线程修改同一内存位置时可能发生的数据竞争。最近的GPU通过原子操作为单个32位/64位字提供了一种块间通信形式。虽然可以从这些原子操作构造细粒度锁,但使用锁进行同步很容易发生死锁。在本文中,我们建议通过扩展GPU来支持事务性内存(TM)来解决这些问题。主要挑战包括支持1000个并发事务和并行提交非冲突事务。我们提出了KILO TM,这是一种用于GPU的新型硬件TM设计,可扩展到1000个并发事务。在没有缓存一致性硬件可依赖的情况下,它使用字级、基于值的冲突检测来避免广播通信并减少片上存储开销。它使用一种新的bloom过滤器组织来进行推测性验证,以提高事务提交并行性。对于一组增强了TM的GPU应用程序,KILO TM捕获了59%的细粒度锁定性能,平均比串行执行所有事务快128倍,估计硬件面积开销为商业GPU的0.5%。

    工具书类

    [1]
    NVIDIA论坛-atomicCAS似乎不起作用。http://forums.nvidia.com/index.php?showtopic=98444。
    [2]
    R.Agrawal等人,《知识发现和数据挖掘进展》。第二章关联规则的快速发现。美国人工智能协会,1996年。
    [3]
    AMD公司。R700系列指令集体系结构2009年3月。
    [4]
    D.Arnold等人,《大规模调试的堆栈跟踪分析》。IPDPS公司, 2007.
    [5]
    Ars Technica公司。IBM的新事务内存:2011年多线程革命的成败时刻。
    [6]
    A.Bakhoda等人。使用详细的GPU模拟器分析CUDA工作负载。ISPASS公司, 2009.
    [7]
    G.Blake、R.G.Dreslinski和T.Mudge。Bloom Filter引导的事务调度。HPCA公司, 2011.
    [8]
    C.Blundell等人,《在无边界事务记忆中使快速案例变得常见,而使不常见案例变得简单》(Making the Fast Case Common and the Uncommon Case Simple in Unbounded Transactional Memory)。国际标准协会, 2007.
    [9]
    J.Bobba等人,《硬件事务记忆中的性能病理学》。国际标准协会, 2007.
    [10]
    J.Bobba等人,《TokenTM:使用硬件事务内存高效执行大型事务》。国际标准协会, 2008.
    [11]
    A.布朗剑。OpenCL中的Cloth,2009年。
    [12]
    M.Burtscher和K.Pingali。一种基于树的Barnes-Hut n体算法的高效CUDA实现。GPU计算宝石翡翠版第6章, 2011.
    [13]
    J.Casper等人,《商品系统上事务记忆的硬件加速》。ASPLOS公司, 2011.
    [14]
    D.Cederman等人。面向图形处理器的软件事务存储器。EGPGV公司, 2010.
    [15]
    L.Ceze、J.Tuck、J.Torrellas和C.Cascaval。多处理器中推测线程的批量消歧。国际标准协会, 2006.
    [16]
    H.Chafi等人,《事务记忆的可扩展、非阻塞方法》。HPCA公司, 2007.
    [17]
    J.Chung等人。ASF:无锁数据结构和事务存储器的AMD64扩展。微型的, 2010.
    [18]
    B.W.Coon等人,《美国专利号7353369:在SIMD体系结构中管理发散线程的系统和方法》(Assignee NVIDIA Corp.),2008年4月。
    [19]
    L.Dalesandro、M.F.Spear和M.L.Scott。NOrec:通过废除所有权记录简化STM。PPoPP公司, 2010.
    [20]
    W.J.Dally和B.Towles。互连网路摩根·考夫曼(Morgan Kaufmann),2004年。
    [21]
    D.Dice等人。商业硬件事务性内存实现的早期经验。ASPLOS公司, 2009.
    [22]
    M.Ferdman等人,《布谷鸟目录:多核系统的可扩展目录》。HPCA公司, 2011.
    [23]
    W.Fung等人。高效GPU控制流的动态翘曲形成和调度。微型的, 2007.
    [24]
    W.Fung等人,《动态翘曲形成:SIMD图形硬件上的高效MIMD控制流》。ACM塔科, 6(2), 2009.
    [25]
    J.E.Gottschlich等人。使用提交时间失效的高效软件事务存储器。CGO公司, 2010.
    [26]
    R.Guerraoui和M.Kapalka。论事务记忆的正确性。PPoPP(PPoPP), 2008.
    [27]
    T.Harris、J.Larus和R.Rajwar。事务型内存. 2010.
    [28]
    M.Herlihy和J.E.B.Moss。事务性内存:无锁数据结构的体系结构支持。国际标准协会, 1993.
    [29]
    J.H.Kelm等人,《WAYPOINT:将一致性扩展到千核架构》。PACT公司, 2010.
    [30]
    G.Kestor等人,《RMS-TM:事务存储系统的综合基准套件》。2011年国际比较项目, 2011.
    [31]
    Khronos集团。OpenCL。http://www.khronos.org/opencl/。
    [32]
    S.Kong等人《超时Bloom过滤器:记录更多流量的新采样方法》。图标, 2006.
    [33]
    E.A.Lee。线程问题。电脑类2006年5月39日。
    [34]
    A.Levinthal和T.Porter。Chap-SIMD图形处理器。信号记录仪, 1984.
    [35]
    E.Lindholm等人,《NVIDIA Tesla:统一图形和计算体系结构》。微型,IEEE, 2008.
    [36]
    C.C.Minh等人。具有强隔离保证的有效混合事务存储系统。国际标准协会, 2007.
    [37]
    S.Molnar、J.Eyles和J.Poulton。PixelFlow:使用图像合成的高速渲染。SIGGRAPH公司, 1992.
    [38]
    K.Moore等人,LogTM:基于日志的事务存储器。HPCA公司, 2006.
    [39]
    J.Nickolls等人,《使用CUDA的可扩展并行编程》。ACM队列2008年3月-4月,6(2):40-53。
    [40]
    英伟达。NVIDIA的下一代CUDA计算架构:费米2009年10月。
    [41]
    NVIDIA公司。NVIDIA CUDA编程指南v3.1, 2010.
    [42]
    M.Olszewski等人,JudoSTM:软件事务记忆的动态二进制重写方法。PACT公司, 2007.
    [43]
    A.拉马默西。SIMT体系结构中的标量同步。不列颠哥伦比亚大学硕士论文,2011年。
    [44]
    B.Saha等人,《软件事务内存的体系结构支持》。微型的, 2006.
    [45]
    D.Sanchez等人,《为事务性内存实现签名》。微型的, 2007.
    [46]
    L.Seiler等人,《Larrabee:可视化计算的多核x86体系结构》。SIGGRAPH公司, 2008.
    [47]
    P.Shivakumar和N.Jouppi。CACTI 5.0。技术报告HPL-2007-167HP实验室,2007年。
    [48]
    A.Shrraman等人,《灵活的解耦事务内存支持》。国际标准协会, 2008.
    [49]
    M.F.Spear等人。RingSTM:使用单个原子指令的可伸缩事务。SPAA公司, 2008.
    [50]
    F.Tabba等人,《交易冲突解耦与价值预测》。ICS 2011年11月。
    [51]
    D.Tarjan和K.Skadron。共享跟踪器:利用缓存一致性硬件的思想减少非一致缓存的片外内存流量。2010年10月10日。
    [52]
    S.Tomić等人。EazyHTM:紧急-模糊硬件事务内存。微型的, 2009.
    [53]
    V.Vineet和P.Narayanan。CudaCuts:GPU上的快速图形剪切。2008年CVPRW, 2008.
    [54]
    B.A.华莱士。卡通动画中光栅图像的合并和转换。SIGGRAPH公司, 1981.
    [55]
    H.Wong等人。通过微基准测试揭开GPU微体系结构的神秘面纱。ISPASS公司, 2010.
    [56]
    L.Yen等人。LogTM-SE:从缓存中解耦硬件事务内存。HPCA公司, 2007.
    [57]
    R.M.Yoo和H.H.S.Lee。事务存储系统的自适应事务调度。SPAA公司, 2008.
    [58]
    H.Zhao等人。SPACE:基于共享模式的多核可扩展目录一致性。PACT公司, 2010.
    [59]
    F.Zyulkyarov等人。发现并理解事务应用程序中的性能瓶颈。PACT公司, 2010.

    引用人

    查看全部

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM会议
    MICRO-44:第44届IEEE/ACM国际微体系结构研讨会论文集
    2011年12月
    519页
    国际标准图书编号:9781450310536
    内政部:10.1145/2155620
    如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

    赞助商

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2011年12月3日

    权限

    请求对此文章的权限。

    检查更新

    限定符

    • 研究文章

    会议

    微型-44
    赞助商:
    MICRO-44:第44届IEEE/ACM微体系结构国际研讨会
    2011年12月3日至7日
    巴西阿雷格里港

    接受率

    2242份提交文件中的总体接受率为484份,占22%

    即将召开的会议

    24年微型
    第57届IEEE/ACM国际微体系结构年会
    2024年11月2日至6日
    奥斯汀,德克萨斯州,美国

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)27
    • 下载次数(最近6周)4

    其他指标

    引文

    引用人

    查看全部
    • (2024)使用硬件-事务-内存支持实现推测性任务执行并行与分布式计算杂志2016年10月10日/j.jpdc.2024.104939(104939)网上发布日期:2024年6月
    • (2023)控制流分布式事务存储器中的有序调度分布式计算与智能技术10.1007/978-3-031-24848-1_5(67-83)在线发布日期:2023年1月8日
    • (2022)商品GPU上细粒度同步的自适应竞争管理ACM架构和代码优化事务10.1145/354730119:4(1-21)在线发布日期:2022年9月16日
    • (2022)通过日志保护并行大数据内核的同步机制电气电子工程师学会计算机期刊10.1109吨/约2021.312299371:9(2156-2162)在线发布日期:2022年9月1日
    • (2022)CSMV:一种用于GPU的高度可扩展的多版本软件事务存储器2022 IEEE国际并行和分布式处理研讨会(IPDPS)10.1109/IPDPS53621.2022.00057(526-536)在线发布日期:2022年5月
    • (2021)iGUARD(iGUARD)ACM SIGOPS第28届操作系统原理研讨会会议记录10.1145/3477132.3483545(49-65)在线发布日期:2021年10月26日
    • (2021)研究事务存储系统中未来的语义第26届ACM SIGPLAN并行编程原理与实践研讨会论文集10.1145/3437801.3441594(16-30)在线发布日期:2021年2月17日
    • (2021)分布式事务存储器中的动态调度分布式计算10.1007/s00446-021-00410-w在线发布日期:2021年11月20日
    • (2021)sRSP:远程范围提升的高效可扩展实现并行与计算:实践与经验10.1002/cpe.648334:9在线发布日期:2021年7月11日
    • (2020)GPU中NVRAM持久性的体系结构支持IEEE并行和分布式系统汇刊10.1109/TPDS.2019.296023331:5(1107-1120)在线发布日期:2020年5月1日
    • 显示更多引用人

    视图选项

    获取访问权限

    登录选项

    完全访问权限

    视图选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享