12引文
优化矩阵乘法的学习
2018
Triton:一种用于分片神经网络计算的中间语言和编译器
2019
Intel、AMD和Fujitsu处理器上成批、小型和矩形矩阵乘法的缓存优化和性能建模
2023
设计面向矢量的紧凑BLAS和LAPACK内核
2017
内核FaRer
2021
基于ARM处理器的大规模并行Winograd卷积优化
2021
一种新的分块矩阵乘法容错结构
2023
22参考文献
BLIS框架
2016
高性能多线程矩阵乘法剖析
2014
使用PHiPAC优化矩阵乘法:一种便携式、高性能的ANSI C编码方法
1997
利用POWER2的函数并行性设计高性能数值算法
1994