摘要
. 1995 . 并行矩阵乘法的三维方法 . IBM研究与开发杂志 39 , 5 ( 1995 ), 575 – 582 。检索自 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.120.4575&rep=rep1&type=pdf . 谷歌学者 数字图书馆 . 1994 . 基于重叠通信的分布式内存并行计算机上的高性能矩阵乘法算法 . IBM研究与开发杂志 38 , 6 ( 1994 ), 673 – 681 . 内政部: 内政部: 谷歌学者 数字图书馆 . 2017年a . 使用基于任务的顺序编程模型在超级计算机上实现高性能 . IEEE并行和分布式系统汇刊 ( 2017 ). 内政部: 内政部: 谷歌学者 交叉引用 . 2017年b . 利用参数化任务图模型并行化稀疏直接多前沿解算器 .英寸 2016年欧洲-巴黎会议记录:平行处理研讨会:2016年欧洲/巴黎国际研讨会。 , , , , , , , , , , , 、和 (编辑), 施普林格国际出版公司 , 查姆 , 175 – 186 . 内政部: 内政部: 谷歌学者 交叉引用 . 2016 . 用顺序任务流运行时系统实现多核体系结构的多前沿稀疏解算器 . ACM数学软件汇刊 43 , 2 ( 2016 ), 22 页。 内政部: 内政部: 谷歌学者 数字图书馆 . 2009 . 新兴建筑上的数字线性代数:PLASMA和MAGMA项目 . 物理学杂志:会议系列 180 , 1 ( 2009 ), 012037 。检索自 http://stacks.iop.org/1742-6596/180/i=1/a=012037 . 谷歌学者 交叉引用 . 2001 . 基于分布式动态调度的全异步多前沿求解器 . SIAM矩阵分析与应用杂志 23 , 1 ( 2001 ), 15 – 41 . 谷歌学者 数字图书馆 . 1993 . 基于列的fan-both系列分布式cholesky分解算法 .英寸 图论和稀疏矩阵计算论文集。 , 、和 (编辑), 纽约施普林格 , 纽约 , 159 – 190 . 谷歌学者 交叉引用 . 2011 . StarPU:异构多核架构上任务调度的统一平台 . 并发与计算:实践与经验,特刊:2009年欧洲政策 23 , 2 ( 2011 ), 187 – 198 . 内政部: 内政部: 谷歌学者 数字图书馆 . 2011 . 数字线性代数中的通信最小化 . SIAM矩阵分析与应用杂志 32 , 三 ( 2011 ), 866 – 901 . 内政部: 谷歌学者 交叉引用 . 1997 . ScaLAPACK:用于消息传递计算机的线性代数库 .英寸 第八届科学计算并行处理SIAM会议记录 . 暹罗 . 谷歌学者 . 2013 . PaRSEC:利用异构性增强可伸缩性 . 科学与工程计算 15 , 6 ( 2013 ), 36 – 45 . 内政部: 谷歌学者 数字图书馆 . 2009 . 一类多核结构的并行分片线性代数算法 . 并行计算。 35 , 2 ( 2009 ), 38 – 53 . 内政部: 内政部: 谷歌学者 数字图书馆 . 1969 . 实现卡尔曼滤波算法的蜂窝计算机 . 博士论文 . 蒙大拿州立大学 . AAI7010025。 谷歌学者 数字图书馆 . 2012 . 通信最优并行和序列QR和LU分解 . SIAM科学计算杂志 34 , 1 ( 2012 ), 206 – 239 . 内政部: 谷歌学者 数字图书馆 . 2020 . 使用动态广播提高基于任务的运行时性能 .英寸 《2020年欧洲-欧盟法案汇编:并行处理》。 和 (编辑), 施普林格国际出版公司 , 查姆 , 443 – 457 . 谷歌学者 数字图书馆 . 2012 . 数值线性代数的通信避免和重叠 .英寸 SC'12:高性能计算、网络、存储和分析国际会议记录 . 1 – 11 . 内政部: 内政部: 谷歌学者 数字图书馆 . 2019 . 基于PaRSEC的多GPU加速分布式存储平台的通用矩阵乘法 .英寸 2019年ScalA会议记录-IEEE/ACM第十届大型系统可扩展算法最新进展研讨会 . 电气与电子工程师协会 , 丹佛 , 33 – 41 . 内政部: 谷歌学者 交叉引用 . 2022 . Taskflow:一个轻量级并行异构任务图计算系统 . IEEE传输。 平行配送系统。 33 , 6 (2022年6月),1303-1320。 谷歌学者 数字图书馆 . 2013 . 小集群上按块调度算法 . 并发与计算:实践与经验。 25 , 三 ( 2013 ), 367 – 384 . 谷歌学者 交叉引用 . 2004 . 分布式内存矩阵乘法的通信下限 . 并行与分布式计算杂志 64 , 9 ( 2004 ), 1017 – 1026 . 内政部: 内政部: 谷歌学者 数字图书馆 . 2021 . IRIS:一个利用多个异构编程系统的可移植运行时系统 .英寸 HPEC会议记录 . 1 – 8 . 谷歌学者 交叉引用 . 2017 . 改进OpenMP中任务嵌套和依赖项的集成 .英寸 IPDPS的进展17 . 809 – 818 . 谷歌学者 . 2009 . 线程级并行的逐块编程矩阵算法 . ACM事务处理。 数学。 柔和。 36 , 三 ,第14条(2009年7月),26页。 谷歌学者 数字图书馆 . 2019 . 异构系统稀疏LU分解的一种避免通信的3D算法 . 并行与分布式计算杂志 131 ( 2019 ), 218 – 234 . 内政部: 谷歌学者 数字图书馆 . 2016 . 并行矩阵乘法:系统之旅 . SIAM科学计算杂志 38 , 6 ( 2016 ), 748 – 781 。检索自 http://www.cs.utexas.edu/users/flame/pubs/2D3DFinal.pdf . 谷歌学者 数字图书馆 . 2011 . 通信最优并行2.5D矩阵乘法和LU分解算法 .英寸 第17届并行处理国际会议论文集-第二卷(2011年欧洲标准) . Springer-Verlag公司 , 柏林 , 90 – 109 。检索自 http://dl.acm.org/citation.cfm?id=2033408.2033420 . 谷歌学者 数字图书馆 . 1997 . SUMMA:可扩展通用矩阵乘法算法 . 并行:实践与经验 9 , 4 ( 1997 ), 255 – 274 。检索自 http://www.netlib.org/lapack/lawnspdf/lawn96.pdf . 谷歌学者 交叉引用 . 1997 . 使用PLAPACK-并行线性代数包 . 麻省理工学院出版社 . 谷歌学者 . 2012 . 共享和分布式内存体系结构上的动态任务执行 . 博士论文 . 谷歌学者
建议
OpenMP、UPC和CAF三种并行语言的执行模型 并行与分布式计算国际研讨会暨异构网络并行计算算法、模型和工具国际研讨会 本文的目的是对三种最先进的并行语言:OpenMP、Unified parallel C(UPC)和Co-Array Fortran(CAF)进行定性评估。 OpenMP和UPC是基于ANSI的显式并行编程语言。。。 StarS自顶向下的编程方法和工具——支持可伸缩的编程范例:扩展抽象 ScalA’11:大型系统可伸缩算法第二次研讨会会议记录 当前的超级计算机正在演变为具有大量节点的集群,而且节点每次都变得更加复杂,由多个多核芯片和GPU组成。 有了这样的架构,应用程序开发人员。。。 一种高效的基于任务的集群编程模型 为大规模、基于多核的体系结构编程需要足够的工具,这些工具提供了编程的便利性,并且不会影响应用程序的性能。 StarSs是一系列基于自动函数级并行的并行编程模型。。。