挤压:张量核GPU的高效紧分形

@第{Quezada2022SqueezeEC条,title={挤压:张量核GPU的有效紧分形},author={Felipe A.Quezada和Crist{\'o}bal A.Navarro和Nancy Hitschfeld-Kahler和Benjam{\'i}n Bustos},日志={ArXiv},年份={2022},体积={abs/2201.00613},网址={https://api.semanticscholar.org/CorpusID:245650722}}
提出了一种针对张量核GPU的高效紧凑分形处理方案,该方案适用于任何属于非重叠边界盒类离散分形的分形,并且可以扩展到三维。

一种适用于m-Simplex域的可扩展且节能的GPU线程映射

这项工作的结果表明,$\mathcal{H}$是一个可扩展且节能的映射,当GPU应用程序需要处理$m$-simplex域(如元胞自动机或PDE模拟)时,它可以提高GPU应用的效率。

自相似密度工作负载的GPU动态并行性建模

针对具有自相似密度(SSD)工作负载(如分形)的问题,建立细分成本模型,以了解哪些参数提供了最快的细分方法,并引入了一种新的细分实现,称为自适应串行内核(ASK),作为CUDA的动态并行性的一种较小开销替代方案。

标准m-单纯形域的可扩展且节能的GPU线程映射

本工作中获得的结果表明,H是一个可扩展且能效高的映射,当GPU应用程序需要处理标准m-单纯形域(如元胞自动机或PDE模拟)时,它可以提高GPU应用的效率。

使用光线跟踪核心加速范围最小查询

主要贡献是提出了RMQ的几何解决方案,其中元素成为三角形,分别根据元素在数组中的值和位置进行放置和形状调整,以便从查询参数给定的点发射的射线的最近命中与该查询的结果相对应。

通过GPU上的张量核心单元加速模板计算

本文将模板计算重新设计为一系列约简和求和操作,以利用TCU的计算能力,并提出相应的优化措施,以更好地利用GPU上的TCU和内存层次。

TensorCV:使用张量处理器加速推断邻接计算

本文提出了一组创新的算法,使整个基于ML的计算机视觉管道能够利用AI/ML加速器,并将所提出的算法作为开源库TensorCV在一个带有Tensor Cores的系统平台中实现。

嵌入式Sierpiánski垫片分形的块空间GPU映射

提出了一种从欧氏平行空间E到嵌入分形空间F的块空间映射λ:Z2E↦Z2F,它在O(log2 log2(n)时间内映射,使用不超过O(nH)个线程,H≈1.58为Hausdorff维数,使其并行空间高效。

GPU张量核快速约简势分析

这项工作提出了将张量核用于不同目的的想法,例如并行算术约简问题,并提出了一种新的基于GPU张量核的算法,并分析了与传统的基于GPU的算法相比其潜在的性能优势。

块空间GPU方法在离散四面体域中的潜在优势

从分析中可以看出,基于块的简洁数据重新组织比线性数据组织的性能提高了2倍,而映射的效率则高达6倍。

三角域问题计算空间的GPU映射

使用不同Nvidia Kepler GPU的实验结果表明,计算欧氏距离矩阵g(λ)比基本包围盒(BB)策略提高了18%,比UTM和REC策略运行速度更快,几乎与RB一样快。

单纯形域的非线性块空间GPU线程映射的竞争力

性能结果表明,将GPU线程映射到单纯形域的效率问题具有竞争力,甚至是在特斯拉V100等最新GPU体系结构中运行时最快的映射,在2单纯形测试中,该映射的加速比高达1.25\倍。

使用张量核心单元加速缩小和扫描

本文首次尝试拓宽可表示为TCU操作的算法类别,并首次从程序简单性、效率和性能方面展示了这种映射的优点。

用于快速算术约简的GPU张量核

特斯拉V100 GPU上的实验性能结果表明,基于张量核的方法是节能的,在标准并行约简上达到<inline-formula><tex-math notation=“LaTeX”)。