摘要
K.Asanovic、R.Bodik、B.Catanzaro 等人。 ,“并行计算研究的前景:伯克利的观点”,EECS,加州大学伯克利分校,理工学院,众议员UCB/EECS-2006-1832006。 谷歌学者 M.Berger和J.Oliger,“双曲型偏微分方程的自适应网格细化” 计算物理杂志 第53卷,第484-512页,1984年。 谷歌学者 S.Sellappa和S.Chatterjee,“高效缓存多重网格算法” 国际高性能计算应用杂志 ,第18卷,第1期,第115-133页,2004年。 谷歌学者 数字图书馆 G.Rivera和C.Tseng,“3D科学计算的平铺优化”,in SC'00会议记录 德克萨斯州达拉斯:超级计算2000,2000年11月。 谷歌学者 数字图书馆 A.Lim、S.Liao和M.Lam,“使用仿射分区跨任意嵌套循环进行阻塞和数组收缩”,in ACM SIGPLAN并行编程原理与实践研讨会论文集 2001年6月。 谷歌学者 数字图书馆 S.Kamil、K.Datta、S.Williams、L.Oliker、J.Shalf和K.Yelick,《模具计算的隐式和显式优化》 ACM SIGPLAN车间内存系统性能和正确性 加利福尼亚州圣何塞,2006年。 谷歌学者 数字图书馆 S.Williams、J.Carter、L.Oliker、J.Shalf和K.Yelick,《领先多核平台上的Lattice Boltzmann模拟优化》 并行和分布式计算系统国际会议(IPDPS) 2008年,佛罗里达州迈阿密。 谷歌学者 S.Williams、J.Shalf、L.Oliker、S.Kamil、P.Husbands和K.Yelick,《细胞处理器在科学计算方面的潜力》 第三届计算机前沿会议记录 ,美国纽约州纽约市,2006年。 谷歌学者 数字图书馆 M.Gschwind,“芯片多处理和蜂窝宽带引擎”,in CF'06:第三届计算机前沿会议记录 ,纽约州纽约市,2006年,第1-8页。 谷歌学者 数字图书馆 NVIDIA CUDA编程指南1.1 2007年11月。 {在线}。 可用: http://www.nvidia.com/object/cuda_develop.html(网址:http://www.nvidia.com/object/cuda_develop.html) 谷歌学者 R.C.Whaley、A.Petitet和J.Dongarra,“软件和ATLAS项目的自动经验优化” 并行计算 ,第27卷(1-2),第3-35页,2001年。 谷歌学者 R.Vuduc、J.Demmel和K.Yelick,“OSKI:自动调谐稀疏矩阵内核库”,in 程序。 2005年SciDAC,物理学杂志:会议系列 《物理研究所出版》,2005年6月。 谷歌学者 S.Kamil、P.Husbands、L.Oliker、J.Shalf和K.Yelick,“现代内存子系统对模板计算缓存优化的影响”,in 第三届ACM SIGPLAN内存系统性能年度研讨会 伊利诺伊州芝加哥,2005年。 谷歌学者 数字图书馆 J.D.McCalpin,“STREAM:高性能计算机中的可持续内存带宽” http://www.cs.virginia.edu/stream/。 谷歌学者 S.Williams、L.Oliker、R.Vuduc、J.Shalf、K.Yelick和J.Demmel,“新兴多核平台上稀疏矩阵向量乘法的优化” 程序。 SC2007:高性能计算、网络和存储会议 , 2007. 谷歌学者 数字图书馆
索引术语
最新多核结构上的模板计算优化和自动调整
建议
最新多核平台上格子Boltzmann计算的优化 我们提出了一种自动调整方法来优化新兴多核体系结构上的应用程序性能。 该方法将线性代数和FFT库中流行的基于搜索的性能优化思想扩展到特定于应用程序的。。。