DOI（操作界面）：10.2139/ssrn.4012418
语料库ID:245650722

挤压：张量核GPU的高效紧分形

@第{Quezada2022SqueezeEC条，title={挤压：张量核GPU的有效紧分形}，author={Felipe A.Quezada和Crist{\'o}bal A.Navarro和Nancy Hitschfeld-Kahler和Benjam{\'i}n Bustos}，日志={ArXiv}，年份={2022}，体积={abs/2201.00613}，网址={https://api.semanticscholar.org/CorpusID:245650722}}

菲利佩·克扎达C.纳瓦罗 B.巴斯托
出版在里面未来几代计算机… 2022年1月3日
计算机科学、数学

提出了一种针对张量核GPU的高效紧凑分形处理方案，该方案适用于任何属于非重叠边界盒类离散分形的分形，并且可以扩展到三维。

[PDF]语义阅读器

本文图表

话题

线程映射 GPU内存 Sierpinski三角形加速离散分形挤压

一种适用于m-Simplex域的可扩展且节能的GPU线程映射

C.纳瓦罗菲利佩·克扎达B.巴斯托N.Hitschfeld-KahlerR.金德兰

计算机科学、工程

arXiv.org网站

2022

这项工作的结果表明，$\mathcal{H}$是一个可扩展且节能的映射，当GPU应用程序需要处理$m$-simplex域（如元胞自动机或PDE模拟）时，它可以提高GPU应用的效率。

[PDF]（PDF格式）

自相似密度工作负载的GPU动态并行性建模

菲利佩·克扎达C.纳瓦罗M.罗梅罗克里斯蒂安·阿奎莱拉

计算机科学、工程

未来几代计算机系统

2023

针对具有自相似密度（SSD）工作负载（如分形）的问题，建立细分成本模型，以了解哪些参数提供了最快的细分方法，并引入了一种新的细分实现，称为自适应串行内核（ASK），作为CUDA的动态并行性的一种较小开销替代方案。

1

[PDF]（PDF格式）

标准m-单纯形域的可扩展且节能的GPU线程映射

C.纳瓦罗菲利佩·克扎达B.巴斯托N.希施菲尔德R.金德兰

计算机科学、工程

2022

本工作中获得的结果表明，H是一个可扩展且能效高的映射，当GPU应用程序需要处理标准m-单纯形域（如元胞自动机或PDE模拟）时，它可以提高GPU应用的效率。

使用光线跟踪核心加速范围最小查询

恩佐·梅内塞斯C.纳瓦罗赫克特·费拉达菲利佩·克扎达

计算机科学

未来几代计算机系统

2024

主要贡献是提出了RMQ的几何解决方案，其中元素成为三角形，分别根据元素在数组中的值和位置进行放置和形状调整，以便从查询参数给定的点发射的射线的最近命中与该查询的结果相对应。

[PDF]（PDF格式）

通过GPU上的张量核心单元加速模板计算

刘晓燕刘毅（音） D.钱

计算机科学、工程

超级计算国际会议

2022

本文将模板计算重新设计为一系列约简和求和操作，以利用TCU的计算能力，并提出相应的优化措施，以更好地利用GPU上的TCU和内存层次。

13

TensorCV：使用张量处理器加速推断邻接计算

东河河Won Woo Ro公司洪伟曾

计算机科学

低功耗电子技术国际研讨会…

2023

本文提出了一组创新的算法，使整个基于ML的计算机视觉管道能够利用AI/ML加速器，并将所提出的算法作为开源库TensorCV在一个带有Tensor Cores的系统平台中实现。

一种适用于m-simplex域的可扩展且节能的GPU线程映射

C.纳瓦罗菲利佩·克扎达B.巴斯托N.Hitschfeld-KahlerR.金德兰

计算机科学、工程

未来几代计算机系统

2023

PDF格式

嵌入式Sierpiánski垫片分形的块空间GPU映射

C.纳瓦罗R.织女星B.巴斯托N.Hitschfeld-Kahler

计算机科学、数学

2017年IEEE第19届国际高…

2017

提出了一种从欧氏平行空间E到嵌入分形空间F的块空间映射λ：Z2E↦Z2F，它在O（log2 log2（n）时间内映射，使用不超过O（nH）个线程，H≈1.58为Hausdorff维数，使其并行空间高效。

三

[PDF]（PDF格式）

基于嵌入2D分形的高效GPU线程映射

C.纳瓦罗菲利佩·克扎达N.Hitschfeld-KahlerR.织女星B.巴斯托

计算机科学、数学

未来几代计算机系统

2020

[PDF]（PDF格式）

GPU张量核快速约简势分析

R.卡拉斯科R.织女星C.纳瓦罗

计算机科学

智利计算机国际会议…

2018

这项工作提出了将张量核用于不同目的的想法，例如并行算术约简问题，并提出了一种新的基于GPU张量核的算法，并分析了与传统的基于GPU的算法相比其潜在的性能优势。

11

[PDF]（PDF格式）

块空间GPU方法在离散四面体域中的潜在优势

C.纳瓦罗B.巴斯托N.Hitschfeld-Kahler

计算机科学、数学

拉丁美洲计算机会议…

2016

从分析中可以看出，基于块的简洁数据重新组织比线性数据组织的性能提高了2倍，而映射的效率则高达6倍。

10

[PDF]（PDF格式）

三角域问题计算空间的GPU映射

C.纳瓦罗N.Hitschfeld-Kahler

计算机科学、数学

2014 IEEE高性能计算国际会议…

2014

使用不同Nvidia Kepler GPU的实验结果表明，计算欧氏距离矩阵g（λ）比基本包围盒（BB）策略提高了18%，比UTM和REC策略运行速度更快，几乎与RB一样快。

单纯形域的非线性块空间GPU线程映射的竞争力

C.纳瓦罗马蒂厄游标B.巴斯托N.希施菲尔德

计算机科学、数学

IEEE并行与分布式事务处理…

2018

性能结果表明，将GPU线程映射到单纯形域的效率问题具有竞争力，甚至是在特斯拉V100等最新GPU体系结构中运行时最快的映射，在2单纯形测试中，该映射的加速比高达1.25\倍。

11

基于八叉树的GPU实现的连续细胞自动机，用于模拟复杂的演化曲面

N.费兰多M.Gosálvez先生J.CerdáR.G.Gironés先生佐藤一雄

计算机科学

计算机物理通信

2011

用GPU张量核加速稀疏矩阵乘法

Orestis Zachariadis公司N.卫星胡安·戈梅斯·卢纳J.奥利瓦雷斯

计算机科学、数学

计算机与电气工程

2020

48

[PDF]（PDF格式）

使用张量核心单元加速缩小和扫描

阿卜杜勒·达克程莉艾萨克·盖拉多熊进军吴文美

计算机科学

超级计算国际会议

2019

本文首次尝试拓宽可表示为TCU操作的算法类别，并首次从程序简单性、效率和性能方面展示了这种映射的优点。

用于快速算术约简的GPU张量核

C.纳瓦罗R.卡拉斯科R.Barrientos公司J.A.里克尔梅R.维加

计算机科学、工程

IEEE并行与分布式事务处理…

2021

特斯拉V100 GPU上的实验性能结果表明，基于张量核的方法是节能的，在标准并行约简上达到<inline-formula><tex-math notation=“LaTeX”）。

26

[PDF]（PDF格式）