摘要
K.Asanovic、R.Bodik、B.C.Catanzaro、J.J.Gebis、P.Husbands、K.Keutzer、D.A.Patterson、W.L.Plishker、J.Shalf、S.W.Williams等。并行计算研究的前景:伯克利的观点。 技术报告,UCB/EECS-2006-183,EECS,加州大学伯克利分校,2006年。 谷歌学者 C.巴斯托尔。 多面体模型中的代码生成比您想象的要容易。 《第13届并行体系结构和编译技术国际会议论文集》,第7-16页,2004年。 谷歌学者 数字图书馆 J.Bilmes、K.Asanovic、C.-W.Chin和J.Demmel。 使用PHiPAC优化矩阵乘法:一种便携式、高性能、ANSI C编码方法。 第11届超级计算国际会议记录,第340-347页。 ACM,1997年。 谷歌学者 数字图书馆 G.E.Blelloch。 作为基本并行操作进行扫描。 计算机,IEEE汇刊,38(11):1526--15381989。 谷歌学者 数字图书馆 B.Catanzaro、M.Garland和K.Keutzer。 铜斑蛇:编译嵌入式数据并行语言。 在ACM SIGPLAN通知中,第46卷,第47-56页。 ACM,2011年。 谷歌学者 数字图书馆 Continuum Analytics,Inc.Numba Pro,2014年。 谷歌学者 H.Cui、L.Wang、J.Xue、Y.Yang和X.Feng。 GPU上BLAS3的自动库生成。 第25届IEEE国际并行与分布式处理研讨会论文集,安克雷奇,阿拉斯加州,2011年。 谷歌学者 数字图书馆 J.Ellson、E.Gansner、L.Koutsofios、S.C.North和G.Woodhull。 Graphviz——开源图形绘制工具。 在图形绘制中,第483-484页。 斯普林格,2002年。 谷歌学者 P.Feautrier先生。 多面体模型中的自动并行化。 在数据并行编程模型中,第79-103页。 施普林格,1996年。 谷歌学者 数字图书馆 R.Garg和L.Hendren。 针对CPU/GPU混合系统的基于阵列的语言的编译器工具包。 2012年11月,加拿大魁北克省蒙特利尔市麦吉尔大学计算机科学系Sable研究小组2012年3月的技术报告。 谷歌学者 M.Hall、J.Chame、C.Chen、J.Shin、G.Rudy和M.Khan。 用于代码生成和自动调整的循环转换方法。 并行计算语言和编译器,第50-64页,2010年。 谷歌学者 数字图书馆 T.D.Han和T.S.Abdelrahman。 hiCUDA:高级GPGPU编程。 《IEEE并行与分布式系统汇刊》,22:78-902011。。 谷歌学者 数字图书馆 A.Klöckner、N.Pinto、Y.Lee、B.Catanzaro、P.Ivanov和A.Fasih。 PyCUDA和PyOpenCL:一种基于脚本的GPU运行时代码生成方法。 并行计算,38(3):157--174,2012。。 谷歌学者 数字图书馆 A.科克纳。 爱尔兰手册,2014年。 统一资源定位地址 http://documen.tician.de/islpy/。 谷歌学者 A.Klöckner和T.Warburton。 Loopy:基于转换的GPU和CPU代码生成的应用程序和性能。 2014年(准备中)。 谷歌学者 S.Lee和R.Eigenmann。 OpenMPC:针对GPU的扩展OpenMP编程和调整。 《2010年ACM/IEEE高性能计算、网络、存储和分析国际会议论文集》,第1-11页。 IEEE计算机学会,2010年。 谷歌学者 数字图书馆 K.Matsumoto、N.Nakasato、S.G.Sedukhin、I.M.Tsuruga和A.W.City。 在GPU上的OpenCL中实现用于快速矩阵乘法的代码生成器。 2012 谷歌学者 A.Rubinsteyn、E.Hielscher、N.Weinman和D.Shasha。 鹦鹉:Python的实时并行加速器。 在第四届USENIX并行性热点会议的会议记录中,第14-14页。 USENIX协会,2012年。 谷歌学者 数字图书馆 G.Rudy、M.Khan、M.Hall、C.Chen和J.Chame。 描述转换和代码生成的编程语言接口。 《并行计算的语言和编译器》,第136-1502011页。 谷歌学者 数字图书馆 J.Svensson、K.Claessen和M.Sheeran。 使用Obsidian实现和优化GPGPU内核。 Procedia Computer Science,1(1):2065--20742010。 谷歌学者 交叉引用 S.van der Walt、S.C.Colbert和G.Varoqueux。 numpy数组:一种高效数值计算的结构。 科学与工程计算,13(2):22-302011。 谷歌学者 数字图书馆 S.Verdoolaege公司。 isl:多面体模型的整数集库。 K.Fukuda、J.Hoeven、M.Joswig和N.Takayama,《数学软件——ICMS 2010》编辑,《计算机科学讲义》第6327卷,第299-302页。 施普林格柏林/海德堡,2010年。 谷歌学者 数字图书馆 S.Verdoolaege、J.Carlos Juega、A.Cohen、J.Ignacio Gómez、C.Tenllado和F.Catthoor。 CUDA的多面体并行代码生成。 ACM变速器。 阿基特。 代码优化。, 9(4):54:1--54:232013年1月。 谷歌学者 数字图书馆 杨勇、项鹏飞、孔杰和周海波。 用于内存优化和并行管理的GPGPU编译器。 在ACM SIGPLAN通知中,第45卷,第86页至第97页,2010年。 谷歌学者 数字图书馆
建议
Loo.py数组程序转换示例:高阶有限元 ARRAY 2016:第三届ACM SIGPLAN数组编程库、语言和编译器国际研讨会会议记录 为了简明有效地演示我们的程序转换系统Loo.py的功能,我们研究了从天气模型中的两个真实世界的Fortran子程序到单个高性能计算程序的转换路径。。。 Halide:一种语言和编译器,用于优化图像处理管道中的并行性、局部性和重新计算 2013年PLDI 图像处理管道结合了模板计算和流程序的挑战。 它们由不同模具阶段的大图形、复杂简化以及具有全局或数据相关访问模式的阶段组成。。。 Loo.py:通过转换和替换规则从fortran到性能 ARRAY 2015:第二届ACM SIGPLAN数组编程库、语言和编译器国际研讨会会议记录 大量面向数字的代码是用传统语言编写的。 原则上,这些代码中的大部分可以通过面向计算机的体系结构很好地利用数据并行。 Loo.py,一个基于转换的。。。