主机名:page-component-8448b6f56d-xtgtn总加载时间:0渲染日期:2024-04-18T01:18:52.992Z有数据问题:falsehasContentIssue为false

基于GPU体系结构的并行计算及其在数据并行问题中的应用综述

剑桥大学出版社在线出版:2015年6月3日

克里斯托巴尔·纳瓦罗*
附属:
智利圣地亚哥智利大学计算机科学系 智利瓦尔迪维亚科学研究中心(CECS)
南希·希施费尔德·卡勒*
附属:
智利圣地亚哥智利大学计算机科学系
路易斯·马图*
附属:
智利圣地亚哥智利大学计算机科学系
*
通讯作者。电子邮件:crinavar@dcc.uchile.cl
电子邮件:nancy@dcc.uchile.cl
电子邮件:lmateu@dcc.uchile.cl

摘要

核心共享和HTML视图不适用于此内容。但是,由于您有权访问此内容,可以通过“保存PDF”操作按钮获得完整的PDF。

并行计算已经成为计算机科学领域的一个重要课题,并且在研究高性能解决方案时被证明是至关重要的。计算机体系结构的演变(多核心多芯)朝向更高数量的内核只能证实并行是加速算法的选择方法。在过去的十年中,图形处理单元(GPU)以其低成本和大规模并行处理能力在高性能计算(HPC)领域占据了重要地位。超级计算机首次以台式计算机的价格提供给任何人。在本文中,我们概述了并行计算的概念,特别是GPU计算。为GPU实现高效的并行算法不是一项简单的任务,为了达到预期的性能,必须满足几个技术限制。其中一些限制是GPU的底层架构及其背后的理论模型的结果。我们的目标是提出一组理论和技术概念,这些概念通常是理解GPU及其大规模并行模型。特别是,我们展示了这项新技术如何帮助计算物理,特别是当问题是数据并行。我们给出了四个计算物理问题的例子;n车身,碰撞检测,Potts模型细胞自动机仿真。这些示例很好地代表了适用于GPU计算的问题类型。通过了解GPU体系结构及其大规模并行编程模型,人们可以克服沿途发现的许多技术局限性,为计算物理问题设计更好的基于GPU的算法,并且与顺序实现相比,可以实现高达两个数量级的加速。

类型
评论文章
版权
版权所有©全球科学出版社有限公司2014

工具书类

[1]副词,第5条。加拉乔鲁,K。共享内存一致性模型:教程.电脑类,29(12):66–76,12月1996.交叉参考谷歌学者
[2]阿加瓦尔,答:。,阿尔卑斯山,B。,钱德拉,答:。、和斯尼尔,M。分层存储模型。1987年STOC第十九届ACM计算理论年会论文集,页305–314,纽约,美国纽约,1987.ACM公司。谷歌学者
[3]阿尔卑斯山,B。,卡特,L。,菲格,E.公司。、和塞尔克,T。计算的统一存储层次模型.算法,12:72–109,1994.10.10007/BF01185206。谷歌学者
[4]阿尔卑斯山,B。,卡特,L。、和费兰特,J。将并行计算机建模为内存层次结构.进行中。大规模并行计算机的程序设计模型,页116–123.IEEE计算机学会 按下,1993.谷歌学者
[5]阿姆达尔,总经理。实现大规模计算能力的单处理器方法的有效性.英寸1967年4月18日至20日春季联合计算机会议记录,AFIPS’67(春季),第页 483–485,纽约,美国纽约州,1967.ACM公司。谷歌学者
[6]巴恩斯,J。小屋,第页。一种分层O(N log N)力计算算法.自然,324(6096):446–449,12月1986.交叉参考谷歌学者
[7]巴罗佐,洛杉矶。性能的价格.排队,(7):48–53,9月2005.谷歌学者
[8]海湾,C、。三角形、五边形和六边形细分中的细胞自动机.英寸迈耶斯,罗伯特A。,编辑器,计算复杂性,页434–442.施普林格 纽约,2012.谷歌学者
[9]横梁,第页。哈斯塔德,J。crcw pram上决策问题的最优界.In输入第19届ACM计算理论研讨会论文集(新增,页25–27.ACM公司。谷歌学者
[10]贝多夫,J。,加布罗夫,E.公司。、和兹瓦特,标准普尔。稀疏八叉树引力n个-完全在GPU处理器上运行的主体代码.J.计算。物理。,231(7):2825–2839,4月2012.谷歌学者
[11]伯恩哈特,答:。,马克西莫,答:。,至韦柳,L。,赫奈迪,H。、和卡尼语,M.-P.公司。基于cpu-GPU耦合计算的实时地形建模.英寸2011年第24届SIBGRAPI图形、图案和图像会议记录,SIBGRAPI’11,第页64–71,美国华盛顿特区,2011.IEEE计算机学会.谷歌学者
[12]比特纳尔,Z。,克鲁伊斯,J。,Němeček公司,J。,帕特扎克,B。、和Rypl公司,D。土木和结构工程计算:2001.结构力学的并行和分布式计算:评论,页数211–233萨克森-科堡出版社,2001.谷歌学者
[13]卡特,L。阿尔卑斯山,B。ram模型被认为对性能编程科学有害,1994.谷歌学者
[14]布雷谢尔斯,C.P.公司。并发的艺术——线程猴子编写并行应用程序指南.奥莱利,2009.谷歌学者
[15]巴克,一、。,福利,T。,喇叭,D。,苏格曼语,J。,法塔哈利安,K。,休斯顿,M。、和汉拉罕,第页。Brook for GPU:图形硬件上的流计算.ACM事务处理。图表。,23():777–786,8月2004.交叉参考谷歌学者
[16]卡潘尼尼,G.公司。,西尔维斯特里,F、。、和巴拉利亚,R。K-model:一种新的流处理器计算模型.英寸2010年IEEE第12届高性能计算与通信国际会议记录,HPCC’10,第页239–246,美国华盛顿特区,2010.IEEE计算机学会.谷歌学者
[17]张伯伦,B.L.公司。教堂(cray inc.hpcs语言).英寸并行计算百科全书,页249–256.2011.谷歌学者
[18]查普曼,B。,乔斯特,G.公司。、和帕斯,R.范德.使用OpenMP:可移植共享内存并行编程(科学与工程计算).麻省理工学院出版社,2007.谷歌学者
[19],D.-K.公司。,,高-中。、和紫杉,第-页。同步和粒度对并行系统的影响.SIGARCH计算。阿基特。新闻,18(3a年):239–248,5月1990.交叉参考谷歌学者
[20],N。,玻璃装配工,J.A.公司。,伊扎吉雷,J.A.公司。、和阿尔伯,医学硕士。细胞potts模型的并行实现,用于模拟基于细胞的形态发生。计算机物理通信,176(11-12):670–681,2007.谷歌学者
[21]科丁顿,第页。磁性自旋模型的可视化,在线:http://cs.adelaide.edu.au/paulc/physics/spinmodels.html8月2013.谷歌学者
[22]科恩,F、。,德科丹,第页。、和奈拉特,F、。基于GPU的复杂自然场景的光照和阴影.英寸Siggraph'04 Conf.DVD-ROM(海报),8月2004.洛杉矶,美国.谷歌学者
[23]科尔伯特,M。科瓦内克,J。基于图像的照明的实时动态阴影.英寸ShaderX 7-高级渲染技术。查尔斯·里弗传媒,2009.谷歌学者
[24]科尔,M。算法框架:并行计算的结构化管理.麻省理工学院出版社,马萨诸塞州剑桥,美国,1991.谷歌学者
[25]肠绞痛,答:。,卡尔瓦,H。、和Furht公司,B。探索视频编码的nvidia-cuda.英寸第一届ACM SIGMM多媒体系统年会会议记录,MMSs'10,页13–22,纽约,纽约,美国,2010.ACM公司。谷歌学者
[26]厨师,M。基本元胞自动机的普遍性。复杂系统,15(1):1–40,2004.谷歌学者
[27]科尔曼,总高度。,斯坦因,C、。,李维斯特,共和国。、和雷瑟森,C.E.公司。算法简介.麦格劳-希尔高等教育,第2版,2001.谷歌学者
[28]英特尔公司。IntelR XeonR处理器E5-2600产品系列无核心性能监测指南,2012.谷歌学者
[29]英伟达公司。开普勒GK110体系结构白皮书,2012.谷歌学者
[30]Scheihing公司,E.公司。,纳瓦罗,C.A。,希施费尔德·卡勒,N。基于GPU的基于边翻转的准弹性三角剖分生成方法.英寸第八届国际计算机图形学、理论与应用会议录,GRAPP 2013,第页27–34,2月2013.谷歌学者
[31]卡勒,D。,卡普,R。,帕特森,D。,萨海,答:。,沙乌斯,英国工程师。,桑托斯,E.公司。,亚拉门阶,R。、和艾肯,T·冯.Logp:走向并行计算的现实模型.SIGPLAN不是。,28(7):1–12,7月1993.谷歌学者
[32]院长,J。盖莫沃特,美国。Mapreduce:简化大型集群上的数据处理.Commun公司。ACM公司,51(1):107–113,1月2008.交叉参考谷歌学者
[33]迪杰斯特拉,东-西。并发编程控制中一个问题的解决.Commun公司。ACM公司,8(9):569–,9月1965.谷歌学者
[34]邓斯坦,N。公平调度监控条件的信号量.SIGOPS操作。系统。版次。,25():27–31,5月1991.交叉参考谷歌学者
[35]费伯,五、。,吕贝克,营业时间。、和白色,答:B。,高效序列算法的超线性加速是不可能的.并行计算。,():259–260,7月1986.交叉参考谷歌学者
[36]费兰多,N。,耳威兹,文学硕士。,塞尔达,J。,吉罗内斯,规则。、和佐藤,K。基于八叉树的连续细胞自动机GPU实现,用于模拟复杂的演化曲面.计算机物理通信,页628–640,2011.谷歌学者
[37]费雷罗,电气工程师。,德弗兰西斯科,J.P.公司。,沃洛维克,N。、和S.A.Cannas公司。基于优化GPU的蒙特卡罗算法的q态potts模型亚稳态研究.计算机物理通信,183(8):1578–1587,2012.谷歌学者
[38]弗林,医学博士。一些计算机组织及其有效性.IEEE传输。计算。,21(9):948–960,9月1972.谷歌学者
[39]财富,美国。威利,J。随机存取机器中的并行性.英寸第十届ACM计算理论年会论文集,STOC’78,页码114–118,美国纽约州纽约市,1978.ACM公司。谷歌学者
[40]培养,一、。设计和构建并行程序:并行软件工程的概念和工具.Addison-Wesley Longman出版公司。,股份有限公司。,马萨诸塞州波士顿,美国,1995.谷歌学者
[41]加布里埃尔,E.公司。,法格,例如。,博西尔卡,G.公司。,安格斯昆,T。,唐加拉,J·J。,斯奎尔斯,J·M·。,萨海,五、。,坎巴杜尔,第页。,巴雷特,B。,卢姆斯代恩,答:。,卡斯坦,右侧。,丹尼尔,D.J.博士。,格雷厄姆,共和国。、和伍达尔,T.S.公司。开放MPI:下一代MPI实现的目标、概念和设计.英寸第11届欧洲PVM/MPI用户小组会议记录,页97–104匈牙利布达佩斯,9月2004.谷歌学者
[42]加德纳,M。约翰·康威的新纸牌游戏“生活”的奇妙组合.科学美国人, 223:120–123,10月1970.谷歌学者
[43]戈布龙,美国。,博纳福,H。、和梅斯特,D。六边形细胞自动机的GPU加速计算与可视化.英寸第八届元胞自动机研究与工业国际会议论文集,ACRI’08,第页512–521、柏林、海德堡、,2008Springer-Verlag。谷歌学者
[44]戈布龙,美国。,乔尔特金,答:。,博纳福,H。、和塔尔曼,D。三维细胞自动机的GPGPU计算与可视化.可视化计算机,27(1):67–81,2011.交叉参考谷歌学者
[45]戈布龙,美国。,德维拉尔,F、。、和海特,B。使用细胞自动机和GPU编程进行视网膜模拟.机器。愿景应用。,18(6):331–342,11月2007.谷歌学者
[46]戈布龙,美国。,马克思,C、。,,J。、和塔尔曼,D。基于虚拟和真实摄像机的实时纹理体重建.英寸计算机制图国际2010年会议纪要,2010.谷歌学者
[47]格林洛,R。,胡佛,J.H。、和鲁佐,W.L.公司。并行计算的局限性:P-完全性理论.牛津大学出版社,美国,4月1995.谷歌学者
[48]古普塔,M。,穆霍帕迪(Mukhopadhyay),美国。、和辛哈,N。递归过程的自动并行化.国际。平行,J。程序。,28(6):537–562,十二月2000.谷歌学者
[49]古斯塔夫森,J·L·。重新评估Amdahl定律.ACM通信,31:532–533,1988.谷歌学者
[50]古斯塔夫森,J·L·。固定时间、分层内存和超线性加速。在第五届分布式内存计算会议(DMCC5,1990.谷歌学者
[51]古斯塔夫森,J·L·。固定时间绩效测量的后果。在IEEE计算机学会第25届夏威夷国际系统科学会议记录中,1992.谷歌学者
[52]滨田,T。,鸣海,T。,横田,R。,靖国神社,K。,尼塔多里,K。、和太极拳,M。42 tflops分层n个-GPU上的天体物理和湍流应用的人体模拟。在SC中,2009.谷歌学者
[53]原田,T。基于GPU的实时刚体仿真.英寸休伯特·阮,编辑器,GPU宝石3,页611–632.出版商,2008.谷歌学者
[54]霍尔,C.A.R.公司。监视器:操作系统结构概念.Commun公司。ACM公司,17(10):549–557,10月1974.谷歌学者
[55]商行,C、。,,D。,,西。,,西。、和,H。Mapcg:编写可在cpu和GPU之间移植的并行程序.英寸第19届并行体系结构和编译技术国际会议论文集,协定1'10,页217–226,美国纽约州纽约市,2010.ACM公司。谷歌学者
[56]喇叭,D.R.公司。,苏格曼语,J。,休斯顿,M。、和汉拉罕,第页。交互式k-d树GPU光线追踪.英寸2007年交互式3D图形和游戏研讨会论文集,I3D'07,第页167–174,美国纽约州纽约市,2007.ACM公司。谷歌学者
[57],M。,梅哈勒,M。,阿瓦帕利,R。、和,美国。用于IntelR XeonR处理器E5系列的节能32nm 20 MB L3缓存在中金公司,第页1–4IEEE标准,2012.谷歌学者
[58]伊万诺夫,L。这个n个-计算机科学课程中的身体问题.J.计算。科学。科尔。,22(6):43–52,六月2007.谷歌学者
[59]卢贝克,D。Tran公司,J。,乔丹,D。GPU上细胞自动机模拟的新挑战.技术报告MSU-CSE-00-2,弗吉尼亚大学,2003.谷歌学者
[60]希梅内兹,第页。,托马斯,F、。、和托拉斯,C、。三维碰撞检测:综述.计算机和图形,25:269–285,2000.谷歌学者
[61]朱迪斯,第页。,巴塞洛斯,B。,库蒂尼奥,美国。、和吉拉尔迪,总会计师。游戏中流体动画的格方法.计算。娱乐。,7(4):56:1–56:1月29日2010.谷歌学者
[62]卡西亚普,美国。,戈拉迪亚,R。,乔杜里,第页。、和钱德兰,美国。射线追踪点模型的隐式曲面八叉树.英寸第七届印度计算机视觉、图形和图像处理会议记录,ICVGIP’10,第页227–234,美国纽约州纽约市,2010.ACM公司。谷歌学者
[63]考夫曼,C、。皮什,N。基于GPU的细胞自动机种子医学图像分割.国际。电脑类,J。辅助放射外科,5():251–262,2010.谷歌学者
[64]考茨,J。,海德里希,西。、和塞德尔,高压-高压。实时凹凸贴图合成.英寸ACM SIGGRAPH/EUROGRAPHICS图形硬件研讨会会议记录,HWWS'01,第页109–114,美国纽约州纽约市,2001.ACM公司。谷歌学者
[65]Khronos OpenCL工作组。OpenCL规范,版本1.0.29,12月8日2008.谷歌学者
[66]基德纳,D.B.博士。,拉力赛,P.J.公司。、和器皿,J.A.公司。GIS中地形分析的并行处理:以可见性为例.地理信息学,1(2):183–207,8月1997.谷歌学者
[67]基尔加德,医学博士。一种实用且稳健的凹凸映射技术,适用于当今的GPU。英伟达,2000.谷歌学者
[68]基姆,南威尔士。艾根曼,R。用于显式和隐式并行的编译器结构.英寸第14届并行计算语言和编译器国际会议记录,LCPC'01,第页336–351、柏林、海德堡、,2003Springer-Verlag。谷歌学者
[69]基普费尔,第页。基于CUDA的LCP碰撞检测算法.英寸休伯特·阮,编辑器,GPU项目3,页723–739.出版商,2007.谷歌学者
[70]克努特,D.E.博士。计算机编程作为一门艺术.Commun公司。ACM公司,17(12):667–673,12月1974.谷歌学者
[71]三协光机,Y。奥卡比,Y。基于GPU的单簇ising模型仿真算法.J.计算。物理。,231(4):1209–1215,2月2012.谷歌学者
[72]三协光机,Y。奥卡比,Y。基于多GPU的swendsenVwang多集群算法在二维potts模型仿真中的应用.计算机物理通信,184(1):40–44,2013.谷歌学者
[73]科尔切克,第页。,塞卡尼纳,L。、和富奇克,O。基于元胞自动机的GPU加速交通仿真.英寸第17届国际软计算会议记录(MENDEL2011),页395–402.自动化与计算机科学研究所FME BUT,2011.谷歌学者
[74]里希纳穆尔蒂,美国。,巴斯卡兰,M。,邦杜古拉,美国。,拉马努贾姆,J。,鲁恩特夫,答:。、和萨达亚潘,第页。模板计算的有效自动并行化.SIGPLAN不是。,42(6):235–244,六月2007.交叉参考谷歌学者
[75],V.W.公司。,基姆,C、。,Chhugani公司,J。,Deisher公司,M。,基姆,D。,阮(Nguyen),公元。,萨蒂什,N。,斯梅良斯基,M。,陈努帕蒂,美国。,哈马伦德,第页。,辛哈尔,R。、和杜比,第页。揭穿100倍GPU与cpu的神话:对cpu和GPU吞吐量计算的评估.SIGARCH计算。阿基特。新闻,38():451–460,六月2010.谷歌学者
[76]莱顿,F.T.公司。并行算法和架构简介:数组、树、超剪切.摩根考夫曼出版公司。,加利福尼亚州旧金山,美国,1992.谷歌学者
[77]洛夫曼,D。高性能Fortran.IEEE并行与分布式技术:系统与应用,1(1):25–42,1993.谷歌学者
[78],第页。,奥基,H。,弗雷,C、。,查米托夫,G.公司。,,L。,芬克,E.公司。,福阿莱,C、。,马格纳斯,美国。,麦克,西。亚瑟,塔尼,D。,惠特森,第页。,威廉姆斯,J。,迈耶,西。,镰刀,R。,,B。,克里斯蒂安森,M。,斯科菲尔德,答:。、和韦茨,D。GPU加速国际空间站图像相关性的量级性能提高.实时图像处理杂志,5:179–193,2010.10.10007/s11554-009-0133-1。交叉参考谷歌学者
[79]妈妈,十、。,,J。、和萨马托娃,N.F.公司。脚本语言的自动并行化:走向透明的桌面并行计算.英寸2007年并行和分布式处理研讨会IPDPS 2007。IEEE国际,第页1–6,2007.谷歌学者
[80]马其顿,M。GPU进入计算的主流.电脑类,36(10):106–108,2003.谷歌学者
[81]麦肯齐,P.D.公司。拉马钱德兰,五、。ERCW PRAM和光通信.英寸欧洲并行处理会议记录,EUROPAR 96,第页293–302,1996.谷歌学者
[82]作记号,W.R.公司。,格兰维尔,钢筋混凝土。,阿克利,K。、和基尔加德,医学博士。Cg:用类c语言编程图形硬件的系统.ACM事务处理。图表。,22():896–907,7月2003.谷歌学者
[83]马洛奎姆,R。马克西莫,答:。使用glsl进行GPU编程简介.英寸第二十二届巴西计算机图形和图像处理研讨会2009年教程会议记录,SIBGRAPI-TUTORIALS’09,第页3–16,美国华盛顿特区,2009.IEEE计算机学会.谷歌学者
[84]马蒂亚斯,Y。维什金,美国。关于并行散列和整数排序在编辑迈克尔·帕特森(Michael Paterson)的文章中,《自动化、语言和编程》,计算机科学课堂讲稿第443卷,页729–743.施普林格 柏林/海德堡, 1990. 2007年10月10日/BFb0032070。谷歌学者
[85]麦科尔,医学博士。,,Z。、和波帕,T.S.公司。着色器元编程.英寸ACMSIGGRAPH/EUROGRAPHICS会议记录图形硬件,HWWS'02,第页57–68,Aire-la-Ville公司,瑞士,瑞士,2002欧洲制图协会。谷歌学者
[86]大都市,N。,罗森布卢特,答:。,罗森布卢特,M。,出纳员,答:。、和出纳员,E.公司。快速计算机器的状态方程计算.化学杂志。物理。,21:1087,1953.交叉参考谷歌学者
[87]米哈伊胡,A.S.公司。令人尴尬的平行。Tempor公司,2012.谷歌学者
[88]诺依曼,J.冯.自复制自动机理论.出版社,香槟,伊利诺伊州,美国,1966.谷歌学者
[89]阮(Nguyen),H。GPU宝石3。Addison-Wesley Professional,第一版,2007.谷歌学者
[90]尼科尔斯,B。,黄油,D。、和法雷尔,J.P.公司。Pthreads编程.奥莱利,莫里斯街101号,塞巴斯托波尔,加利福尼亚州95472,1998.谷歌学者
[91]尼基尔,R。阿尔文德,.隐式并行编程,pH.Morgan Kaufmann,5月2001.谷歌学者
[92]恩维迪亚。费米计算架构白皮书。谷歌学者
[93]英伟达公司。英伟达CUDA C编程指南,2012.谷歌学者
[94]奥涅波,M。Hlsl着色器模型4.0.英寸ACM SIGGRAPH 2007课程,SIGGRAPH'07,第页112–152,美国纽约州纽约市,2007.ACM公司。谷歌学者
[95]Openshaw公司,美国。特顿,一、。高性能计算与并行编程艺术:地理学家、社会科学家和工程师导论.劳特利奇,纽约州纽约市, 10001,1999.谷歌学者
[96]巴布斯特,美国。,科赫,答:。、和斯特拉,西。针对刚性和可变形曲面的快速可扩展CPU/GPU碰撞检测.计算机图形论坛,29(5):1605–1612,2010.谷歌学者
[97]帕多瓦,D.A.博士。,编辑。《并行计算百科全书》,第4卷。施普林格,2011.谷歌学者
[98]帕加尼,M。特兰奎利,第页。并行减少资源lambda-calculus。在APLAS中,第页226–242,2009.谷歌学者
[99]帕金森,D。并联效率可以大于1.并行计算,():261 – 262,1986.谷歌学者
[100]皮埃尔,H.A.公司。讲授牛顿的平方根算法.SIGAPL APL四元报价,5(4):48–50,12月1974.谷歌学者
[101]普拉吉亚科斯,副总裁。,名词,英国。、和弗拉哈蒂斯,米。用pvm并行定位和计算特殊函数的所有简单根.J.计算。申请。数学。,133(1-2):545–554,8月2001.谷歌学者
[102]普赖斯,T。,维诺,第页。,保罗,西。、和施耐德,J·J。二维和三维ising模型的GPU加速蒙特卡罗模拟.J.计算。物理。,228(12):4468–4477,7月2009.谷歌学者
[103]罗伯茨,M。,封隔器,J。,苏萨牌手表,M.C.公司。、和米切尔,J.R.公司。一种高效的GPU水平集分割算法.英寸高性能图形会议记录,HPG’10,第页123–132,Aire-la-Ville公司,瑞士,瑞士,2010欧洲制图协会。谷歌学者
[104]罗斯,体育。为什么cpu频率停滞.IEEE规范。,45(4):72–72,4月2008.谷歌学者
[105]鲁吉纳,R。里纳德,M。分治算法的自动并行化.In输入第七届ACM SIGPLAN并行编程原理与实践研讨会论文集,页72–83,1999.谷歌学者
[106]里巴基,美国。,希梅尔斯帕赫,J。、和乌尔马赫,上午。基于单核、多核和GPU的细胞自动机计算实验.英寸2009年第一届系统仿真进展国际会议论文集,SIMUL’09,第页62–67,美国华盛顿特区,2009.IEEE计算机学会.谷歌学者
[107]砂光机,私人有限公司。米切尔,J·L·。渐进缓冲区:依赖于视图的几何体和纹理lod渲染.英寸第三届欧洲制图几何处理研讨会论文集2005年新加坡元,Aire-la-Ville公司,瑞士,瑞士,2005欧洲制图协会。谷歌学者
[108]Di公司,答:。Serio和伊瓦涅兹,医学学士。mpi环境下并行分子模拟的最近邻负载平衡策略评估。在PVM/MPI中,页码226–233,2002.交叉参考谷歌学者
[109]希洛赫,Y。维什金,美国。一种o(logn)并行连通性算法.算法,J。,(1):57–67,1982.谷歌学者
[110]史密斯,J.R.公司。并行算法的设计与分析.牛津大学出版社,股份有限公司。,美国纽约州纽约市,1993.谷歌学者
[111]亚拉门阶,R。最小生成树的o(logn)时间通用CRCW PRAM算法.技术报告UCB/CSD-92-673,大学EECS系属于加州伯克利,3月1992.谷歌学者
[112]苏格曼语,J。,法塔哈利安,K。,布洛斯,美国。,阿克利,K。、和汉拉罕,第页。Gramps:图形管道的编程模型.ACM事务处理。图表。,28(1):4:1–4:2月11日2009.谷歌学者
[113]Swendsen公司,右侧。,J.S.公司。蒙特卡罗模拟中的非通用临界动力学.物理。修订版Lett。,58:86,1987.谷歌学者
[114]塔纳比,N。,霍里,N。,Nuttapon坚果,B。、和中条,H。基于FPGA的带集合函数的混合存储立方体的初步评估.IPSJ SIG注释,2012(6):1–10,2012-03-19.谷歌学者
[115]塔尼亚尔,D。,,中央空调。,拉哈尤,西。、和戈尔,美国。高性能并行数据库处理和网格数据库。Wiley并行与分布式计算系列,2008.谷歌学者
[116]塔皮亚,J·J。D'Souza公司,R。图形处理单元上细胞Potts模型大规模实时仿真的数据并行算法.2009IEEE系统人与控制论国际会议,(10):1411–1418,2009.谷歌学者
[117]塔皮亚,J·J。D'Souza公司,R。在图形处理单元上并行化细胞potts模型.计算机物理通信,182(4):857–865,2011.谷歌学者
[118]托帕,第页。姆洛克,第页。水流元胞自动机模型的GpGPU实现.英寸第九届并行处理与应用数学国际会议论文集第一卷,PPAM’11,第页630–639,柏林,海德堡,2012.Springer-Verlag公司.谷歌学者
[119]勇敢的,L.G.公司。并行计算的桥接模型.Commun公司。ACM公司,33(8):103–111,8月1990.谷歌学者
[120]维什金,美国。芯片上婴儿车愿景(特邀摘要)。在SPIRE中,第260页,2000.谷歌学者
[121]维什金,美国。,达斯卡尔,美国。,别尔科维奇,E.公司。、和努兹曼,J。指令并行的显式多线程(XMT)桥接模型(扩展抽象)。在SPAA中,页面140–151,1998.谷歌学者
[122]诺依曼,J.冯1.自动机的一般逻辑理论。在大脑行为机制中。威利,1951.谷歌学者
[123]沃金格,G·J。组合优化-尤里卡,你缩水了!NP-hard问题的精确算法:综述,页185–207.Springer-Verlag公司 美国纽约州纽约市纽约公司,2003.谷歌学者
[124]沃尔夫,美国。自旋系统的集体蒙特卡罗更新.物理审查信函,62:361–364,1989.谷歌学者
[125],F.Y.公司。波茨模型.现代物理学综述,54(1):235–268,1月1982.谷歌学者
[126]横田,R。,巴巴,L。,鸣海,T。、和靖国神社,K。将快速多极方法扩展到4000 GPU.英寸ATIP/A*CRC高性能计算加速器技术研讨会论文集:亚洲领先吗?,ATIP’12,第9页:1–9:6,新加坡,新加坡,2012.A*STAR计算资源中心.谷歌学者
[127]横田,R。巴巴,洛杉矶。快速n个-GPU上的人体模拟。CoRR,abs/1108.5815,2011.谷歌学者
[128]横田,R。巴巴,洛杉矶。作为exascale系统的卓越算法,一种可调整和可扩展的快速多极方法。CoRR,abs/1106.2176,2011.谷歌学者
[129]横田,R。巴巴,洛杉矶。层次结构n个-异构系统的自校正车身仿真.科学与工程中的计算,14():30–39,2012.谷歌学者
[130]尤基塔,美国。非欧空间中的元胞自动机.英寸第七届WSEAS电气工程数学方法和计算技术国际会议论文集,MMACTE'05,第页200–207史蒂文斯·波因特,美国威斯康星州,2005.世界科学与工程学会(WSEAS)。谷歌学者
[131],K。,,问:。,,R。、和,B。图形硬件上实时kd树的构建.ACM事务处理。图表。,27(5):126:1–126:12月11日2008.谷歌学者