菲帕克

PHiPAC(便携式高性能ANSI C)页面,用于BLAS3兼容的快速矩阵矩阵乘法。BLAS3矩阵运算通常在渐进优化中有很大的潜力。不幸的是,它们通常需要针对特定的机器和/或编译器进行手动编码,以获得接近峰值的性能。我们已经开发了一种方法,可以自动达到此类程序的接近峰值的性能。首先,我们不是手工编写代码,而是生成参数化的代码生成器,其参数与生成的机器性能密切相关。第二,生成的代码遵循PHiPAC(可移植的高性能ansic)编码建议,包括手动展开循环、显式删除代码块中不必要的依赖项(如果不删除,C语义将禁止许多优化),以及使用与机器相关的C构造。第三,我们开发搜索脚本,对于给定的代码生成器,可以为给定的体系结构/编译器找到最佳的参数集。我们开发了一个BLAS-GEMM兼容的多级缓存分块矩阵乘法代码生成器,在Sparcstation-20/61、IBM RS/6000-590、HP 712/80i、SGI Power Challenge R8k、SGI辛烷R10k和SGI Indigo R4k上的性能达到峰值的90%左右。在IBM、HP、SGI R4k和Sun Ultra-170上,生成的DGEMM实际上比供应商优化的BLAS GEMM中的GEMM快。其他生成器、搜索脚本和性能结果正在开发中。


zbMATH中的参考文献(参考文献53条)

显示第1到第20个结果,共53个。
按年份排序(引用)
  1. 黄建宇,罗伯特A。van de Geijn:BLISlab:优化GEMM的沙盒(2016)阿尔十四
  2. 低,慈梦;伊戈尔,弗朗西斯科D。;史密斯,泰勒M。;Quintana Orti,Enrique S:分析建模对高性能BLIS来说足够了(2016)
  3. 凯尔福拉斯,瓦西里奥斯;克里蒂卡库,安吉利基;Goutis,Costas:利用软件信息和内存架构加速循环内核的方法论(2015)
  4. 尼尔森,托马斯;贝尔特,杰弗里;谢克,杰里米·G。;杰西普,伊丽莎白;Norris,Boyana:高性能矩阵代数的可靠生成(2015)
  5. 范泽,G场。;van de Geijn,Robert A.:BLIS:快速实例化BLAS功能的框架(2015)
  6. 奥黛特,查尔斯;当,健聪;Orban,Dominique:使用OPAL优化算法(2014)
  7. 杜鹏;韦伯,瑞克;卢斯泽克,皮奥特;托莫夫,斯塔尼米尔;彼得森,格雷戈里;Jack Dongarra:从CUDA到opencl:面向多平台GPU编程的性能便携解决方案(2012)ioport公司
  8. 卡林尼克,纳塔莉亚;科尔奇,马提亚斯;Rauber,Thomas:Runge-Kutta型预估-校正方法的有效时间步长自适应算法(2011)
  9. D'Alberto,保罗;Nicolau,Alexandru:自适应Winograd矩阵乘法(2009)
  10. 尤瑟夫,拉米娅;西摩,基思;你,海航;扎戈罗德诺夫,德米特里;唐加拉,杰克;沃尔斯基,里奇:单线程和多线程内存密集型线性代数软件的准虚拟化效应(2009)ioport公司
  11. 尼什塔拉,拉杰什;武杜克,理查德W。;德梅尔,詹姆斯W。;Yelick,Katherine A.:稀疏矩阵向量乘法的缓存块何时起作用以及原因(2007)
  12. Hitchzenko,Paweł;约翰逊,杰里米·R。;Huang,Hung-Jen:由Walsh-Hadamard变换计算引起的一类分治递归分布(2006)
  13. 科尔奇,马提亚斯;Rauber,Thomas:使用基于块的流水线优化嵌入式Runge-Kutta解算器的局部性和可伸缩性(2006)
  14. 内奥诺,肯;Imamura,Toshiyuki:对自动调谐特征解算器的评价(2006)
  15. Qasem,阿潘;肯尼迪,肯;Mellor Crummey,John:使用直接搜索和基于性能的转换系统自动调整整个应用程序(2006)ioport公司
  16. 本德,迈克尔A。;法拉赫·科尔顿,马丁;彭马萨尼,基里达尔;斯基纳,史蒂文;Sumazin,Pavel:树和有向无环图中的最低共同祖先(2005)
  17. 李,尹菊;迪尼兹,佩德罗C。;霍尔,玛丽W。;Lucas,Robert:稀疏线性解算器的经验优化:案例研究(2005)ioport公司
  18. 艾尔姆罗斯,埃里克;古斯塔夫森,弗雷德;乔森,伊萨克;Kågström,Bo:密集矩阵库软件的递归分块算法和混合数据结构(2004)
  19. 亨诺德,S。;劳伯,T。;Rünger,G.:基于多处理器任务的层次矩阵矩阵乘法(2004)
  20. 讽刺,卓尔;托莱多,西万;Tiskin,Alexander:分布式存储矩阵乘法的通信下限(2004)