TACO：第20卷，第4期

第20卷，第4期2023年12月

第20卷第4期

2023年12月

阅读更多信息

编辑：

大卫·凯利
美国东北大学

出版商：

计算机协会
纽约
纽约州
美国

ISSN公司：1544-3566

EISSN公司：1544-3973

标签：

PDF格式电子阅读器

文献计量学

发布下载

PDF格式前沿事项（TOC、刊头、提交信息）

全选

引文输出保存到活页夹

研究论文

开放式访问

提高GPU上真实世界变压器推断的计算和存储效率

条款编号：46,第1-22页https://doi.org/10.1145/3617689

Transformer模型已经成为自然语言处理（NLP）领域的一种主要方法，并且越来越多地部署在生产环境中。图形处理单元（GPU）已成为变压器的流行选择。。。

研究论文

开放式访问

基于ReRAM的CIM体系结构中用于计算卸载的编译工具

条款编号：47,第1-25页https://doi.org/10.1145/3617686

内存中计算（CIM）体系结构使用非易失性存储器（NVM）已成为解决传统冯·诺依曼体系结构中“内存墙”问题的一种很有前途的方法。CIM加速器可以执行算术或布尔逻辑操作。。。

研究论文

开放式访问

使用Franca语言的高性能确定性并发

条款编号：48,第1-29页https://doi.org/10.1145/3617687

参与者框架和类似的反应式编程技术广泛用于构建并发系统。它们承诺效率高，可以很好地扩展到分布式系统中的大量核心或节点。然而，它们也使程序员面临。。。

研究论文

开放式访问

智能DNN+：一种用于模型推理的高效记忆神经网络压缩框架

条款编号：49,第1-24页https://doi.org/10.1145/3617688

深度神经网络（DNN）在各种实际应用中取得了显著的成功。然而，运行深度神经网络（Deep Neural Network，DNN）通常需要数百兆字节的内存占用，因此很难部署到资源上。。。

研究论文

开放式访问

MicroProf:微服务应用程序中不必要数据传输的代码级属性

条款编号：50,第1-26页https://doi.org/10.1145/3622787

微服务架构风格因其故障隔离能力、易于扩展应用程序和开发人员的灵活性而广受欢迎。然而，以微服务设计风格编写应用程序有其挑战。由于松散。。。

研究论文

开放式访问

gPPM：一种加速擦除码编解码过程的广义矩阵运算和并行算法

文章编号：51,第1-25页https://doi.org/10.1145/3625005

擦除代码广泛部署在现代存储系统中，导致其编码/解码操作的频繁使用。擦除码的编码/解码过程通常使用校验矩阵方法执行。然而，这。。。

研究论文

开放式访问

PARALiA:异构系统上自动调整线性代数的性能感知运行时

文章编号：52,第1-25页https://doi.org/10.1145/3624569

密集线性代数运算在高性能计算（HPC）应用程序中经常出现，这使得它们的性能对于实现最佳可伸缩性至关重要。由于许多现代HPC集群包含多个GPU节点，BLAS操作。。。

研究论文

开放式访问

RACE：一种高效的动态图神经网络冗余软件加速器

条款编号：53,第1-26页https://doi.org/10.1145/3617685

动态图神经网络（DGNN）最近吸引了各个领域的大量研究关注，因为大多数真实世界的图都是固有的动态图。尽管进行了许多研究工作，但对于DGNN，现有的硬件/软件。。。

研究论文

开放式访问

利用卷积切片优化和ISA扩展推进直接卷积

条款编号：54,第1-26页https://doi.org/10.1145/3625004

卷积是机器学习模型推理必须执行的计算量最大的操作之一。计算卷积的传统方法称为Im2Col+BLAS方法。本文提出SConv：一种直接的。。。

研究论文

开放式访问

DxPU：数据中心中的大规模非聚合GPU池

条款编号：55,第1-23页https://doi.org/10.1145/3617995

人工智能的迅速采用和云服务提供的便利性导致了对云中GPU的需求不断增长。通常，GPU作为PCIe设备物理连接到主机服务器。然而，主机服务器的固定程序集组合。。。

研究论文

开放式访问

表征多芯片GPU数据共享

条款编号：56,第1-24页https://doi.org/10.1145/3629521

多芯片图形处理单元（GPU）系统对于将性能扩展到单个GPU芯片之外以用于各种重要的新兴应用至关重要。然而，多芯片GPU面临的一个关键挑战是如何克服。。。

研究论文

开放式访问

在性能所在地：量化Copious 3D-Stacked Cache对HPC工作负载的影响

条款编号：57,第1-26页https://doi.org/10.1145/3629520

在过去三十年中，内存子系统的创新主要是为了克服数据移动瓶颈。在本文中，我们关注内存技术的一个特定市场趋势：3D存储内存和缓存。我们调查。。。

研究论文

开放式访问

Mapi-Pro：一种用于间歇计算的节能内存映射技术

条款编号：58,第1-25页https://doi.org/10.1145/3629524

无电池技术的发展取代了太空、深井和其他环境中的电池使用，以降低成本和污染。基于非易失性存储器（NVM）的处理器用于在断电时保存系统状态。此类设备。。。

研究论文

开放式访问

乘法与火灾：事件驱动稀疏神经网络加速器

条款编号：59,第1-26页https://doi.org/10.1145/3630255

从边缘计算到数据中心，深度神经网络推理已经成为许多系统的重要工作负载。为了降低在这些系统上运行的深度神经网络（DNN）的性能和功耗要求，修剪通常被用作一种优化方法。。。

研究论文

开放式访问

FlowPix：使用领域特定编译器加速FPGA覆盖上的图像处理管道

条款编号：60,第1-25页https://doi.org/10.1145/3629523

近年来，摩尔定律保证的指数级性能增长已开始减弱。与此同时，像图像处理这样的新兴应用程序需要很高的计算性能。这些因素必然导致……的出现。。。

研究论文

开放式访问

ULEEN：一种新型超低能量边缘神经网络结构

条款编号：61,第1-24页https://doi.org/10.1145/3629522

“极端边缘”¹智能传感器等设备对于部署机器学习来说是一个极具挑战性的环境。这些设备的微小能量预算超出了传统深度神经网络的可行性，尤其是在。。。

研究论文

开放式访问

Fastensor：优化从SSD到GPU的Tensor I/O路径以进行深度学习培训

条款编号：62,第1-25页https://doi.org/10.1145/3630108

近年来，由于模型规模和复杂性的增加，深度学习在计算机视觉（CV）和NLP方面取得了巨大的成功。使用GPU等加速器训练深度学习模型通常需要大量迭代数据。。。

ACM体系结构和代码优化汇刊

小节

发布下载

提高GPU上真实世界变压器推断的计算和存储效率

基于ReRAM的CIM体系结构中用于计算卸载的编译工具

使用Franca语言的高性能确定性并发

智能DNN+：一种用于模型推理的高效记忆神经网络压缩框架

MicroProf:微服务应用程序中不必要数据传输的代码级属性

gPPM：一种加速擦除码编解码过程的广义矩阵运算和并行算法

PARALiA:异构系统上自动调整线性代数的性能感知运行时

RACE：一种高效的动态图神经网络冗余软件加速器

利用卷积切片优化和ISA扩展推进直接卷积

DxPU：数据中心中的大规模非聚合GPU池

表征多芯片GPU数据共享

在性能所在地：量化Copious 3D-Stacked Cache对HPC工作负载的影响

Mapi-Pro：一种用于间歇计算的节能内存映射技术

乘法与火灾：事件驱动稀疏神经网络加速器

FlowPix：使用领域特定编译器加速FPGA覆盖上的图像处理管道

ULEEN：一种新型超低能量边缘神经网络结构

Fastensor：优化从SSD到GPU的Tensor I/O路径以进行深度学习培训

小节

发布下载

保存到活页夹

学科

评论