跳到主要内容
第20卷,第4期2023年12月
文献计量学
跳过目录部分
研究论文
开放式访问
提高GPU上真实世界变压器推断的计算和存储效率
条款编号:46,第1-22页https://doi.org/10.1145/3617689

Transformer模型已经成为自然语言处理(NLP)领域的一种主要方法,并且越来越多地部署在生产环境中。图形处理单元(GPU)已成为变压器的流行选择。。。

研究论文
开放式访问
基于ReRAM的CIM体系结构中用于计算卸载的编译工具
条款编号:47,第1-25页https://doi.org/10.1145/3617686

内存中计算(CIM)体系结构使用非易失性存储器(NVM)已成为解决传统冯·诺依曼体系结构中“内存墙”问题的一种很有前途的方法。CIM加速器可以执行算术或布尔逻辑操作。。。

研究论文
开放式访问
使用Franca语言的高性能确定性并发
条款编号:48,第1-29页https://doi.org/10.1145/3617687

参与者框架和类似的反应式编程技术广泛用于构建并发系统。它们承诺效率高,可以很好地扩展到分布式系统中的大量核心或节点。然而,它们也使程序员面临。。。

研究论文
开放式访问
智能DNN+:一种用于模型推理的高效记忆神经网络压缩框架
条款编号:49,第1-24页https://doi.org/10.1145/3617688

深度神经网络(DNN)在各种实际应用中取得了显著的成功。然而,运行深度神经网络(Deep Neural Network,DNN)通常需要数百兆字节的内存占用,因此很难部署到资源上。。。

研究论文
开放式访问
MicroProf:微服务应用程序中不必要数据传输的代码级属性
条款编号:50,第1-26页https://doi.org/10.1145/3622787

微服务架构风格因其故障隔离能力、易于扩展应用程序和开发人员的灵活性而广受欢迎。然而,以微服务设计风格编写应用程序有其挑战。由于松散。。。

研究论文
开放式访问
gPPM:一种加速擦除码编解码过程的广义矩阵运算和并行算法
文章编号:51,第1-25页https://doi.org/10.1145/3625005

擦除代码广泛部署在现代存储系统中,导致其编码/解码操作的频繁使用。擦除码的编码/解码过程通常使用校验矩阵方法执行。然而,这。。。

研究论文
开放式访问
PARALiA:异构系统上自动调整线性代数的性能感知运行时
文章编号:52,第1-25页https://doi.org/10.1145/3624569

密集线性代数运算在高性能计算(HPC)应用程序中经常出现,这使得它们的性能对于实现最佳可伸缩性至关重要。由于许多现代HPC集群包含多个GPU节点,BLAS操作。。。

研究论文
开放式访问
RACE:一种高效的动态图神经网络冗余软件加速器
条款编号:53,第1-26页https://doi.org/10.1145/3617685

动态图神经网络(DGNN)最近吸引了各个领域的大量研究关注,因为大多数真实世界的图都是固有的动态图。尽管进行了许多研究工作,但对于DGNN,现有的硬件/软件。。。

研究论文
开放式访问
利用卷积切片优化和ISA扩展推进直接卷积
条款编号:54,第1-26页https://doi.org/10.1145/3625004

卷积是机器学习模型推理必须执行的计算量最大的操作之一。计算卷积的传统方法称为Im2Col+BLAS方法。本文提出SConv:一种直接的。。。

研究论文
开放式访问
DxPU:数据中心中的大规模非聚合GPU池
条款编号:55,第1-23页https://doi.org/10.1145/3617995

人工智能的迅速采用和云服务提供的便利性导致了对云中GPU的需求不断增长。通常,GPU作为PCIe设备物理连接到主机服务器。然而,主机服务器的固定程序集组合。。。

研究论文
开放式访问
表征多芯片GPU数据共享
条款编号:56,第1-24页https://doi.org/10.1145/3629521

多芯片图形处理单元(GPU)系统对于将性能扩展到单个GPU芯片之外以用于各种重要的新兴应用至关重要。然而,多芯片GPU面临的一个关键挑战是如何克服。。。

研究论文
开放式访问
在性能所在地:量化Copious 3D-Stacked Cache对HPC工作负载的影响
条款编号:57,第1-26页https://doi.org/10.1145/3629520

在过去三十年中,内存子系统的创新主要是为了克服数据移动瓶颈。在本文中,我们关注内存技术的一个特定市场趋势:3D存储内存和缓存。我们调查。。。

研究论文
开放式访问
Mapi-Pro:一种用于间歇计算的节能内存映射技术
条款编号:58,第1-25页https://doi.org/10.1145/3629524

无电池技术的发展取代了太空、深井和其他环境中的电池使用,以降低成本和污染。基于非易失性存储器(NVM)的处理器用于在断电时保存系统状态。此类设备。。。

研究论文
开放式访问
乘法与火灾:事件驱动稀疏神经网络加速器
条款编号:59,第1-26页https://doi.org/10.1145/3630255

从边缘计算到数据中心,深度神经网络推理已经成为许多系统的重要工作负载。为了降低在这些系统上运行的深度神经网络(DNN)的性能和功耗要求,修剪通常被用作一种优化方法。。。

研究论文
开放式访问
FlowPix:使用领域特定编译器加速FPGA覆盖上的图像处理管道
条款编号:60,第1-25页https://doi.org/10.1145/3629523

近年来,摩尔定律保证的指数级性能增长已开始减弱。与此同时,像图像处理这样的新兴应用程序需要很高的计算性能。这些因素必然导致……的出现。。。

研究论文
开放式访问
ULEEN:一种新型超低能量边缘神经网络结构
条款编号:61,第1-24页https://doi.org/10.1145/3629522

“极端边缘”1智能传感器等设备对于部署机器学习来说是一个极具挑战性的环境。这些设备的微小能量预算超出了传统深度神经网络的可行性,尤其是在。。。

研究论文
开放式访问
Fastensor:优化从SSD到GPU的Tensor I/O路径以进行深度学习培训
条款编号:62,第1-25页https://doi.org/10.1145/3630108

近年来,由于模型规模和复杂性的增加,深度学习在计算机视觉(CV)和NLP方面取得了巨大的成功。使用GPU等加速器训练深度学习模型通常需要大量迭代数据。。。

学科

评论