第30届HPCA 2024:英国爱丁堡
IEEE高性能计算机体系结构国际研讨会,HPCA 2024,英国爱丁堡,2024年3月2-6日。 电气与电子工程师协会 2024 ,国际标准图书编号 979-8-3503-9313-2 萨布杰·拉斯卡尔 , 普拉纳提·马吉 , Sungkeun Kim先生 , 法拉比·马哈茂德 , 阿卜杜拉·穆扎希德 , 金恩贞 :
在MCM加速器中加强深度学习培训的集体沟通。 1-16 安东尼斯·普西斯塔基斯 , 法比安·查克斯 , 约塞普·托雷拉斯 :
MINOS:分布式一致性和持久性协议实现和卸载到SmartNIC。 1-17 尼尔·克莱顿·克雷戈 , 萨纳·达马尼 , Karthikeyan Sankarlingam公司 , 斯蒂芬·凯克勒 :
WASP:利用GPU管道并行性和硬件加速的自动经纱专业化。 1-16 柯旭 , 明堂 , 王泉城 , 韩旺(Han Wang) :
利用退休时的安全漏洞。 1-14 拉哈夫·阿卜杜拉 , Hyokeun Lee公司 , 周惠阳 , 阿姆罗阿瓦德 :
Salus:对CXL扩展GPU内存的高效安全支持。 1-15 亚历山大·拉克 , Shiv Sundram公司 , 科尔曼·史密斯 , 马修·维利姆 , 拉古·普拉巴卡尔 , 弗雷德里克·科尔斯塔德 , 昆勒·奥卢科顿 :
Revet:一种用于数据流线程的语言和编译器。 1-14 陈云(音) , 阿里·哈贾巴迪 , 特雷弗·E·卡尔森 :
GADGETSPINNER:使用循环流检测器的新瞬态执行原语。 15-30 刘畅(Chang Liu) , 王东生 , 永强吕 , 邱鹏飞 , 于晋 , 卓元路 , 张银倩 , 港区 :
发现并利用AMD推测性内存访问预测器以获得乐趣和利润。 31-45 刘大江 , 玉新霞 , 嘉兴尚 , 姜忠 , 彭欧阳 , 首义音 :
E2EMap:通过反向映射进行CGRA编译的端到端强化学习。 46-60 张伟创 , 赵洁茹 , 管申 , 全晨 , 陈晨 , 郭敏义 :
基于FPGA的加速器高效生成的MLIR优化框架。 75-90 李毅 , 孙玉阳 , 杨明昌 , 申兆彦 , 李冰哲 :
Celeritas:2024年通过跨层计算实现的基于核心外的无监督图形神经网络。 91-107 苏米特·瓦利亚 , 程烨 , Arkid贝拉 , 德鲁维·洛达维亚 , 亚蒂什·图拉基亚 :
TALCO:使用回溯指针的收敛进行基因组序列拼接。 91-107 丹尼斯·古尔文 , 莫欣山 , 黄绍义(Shaoyi Huang) , 阿米特·哈桑(Amit Hasan)先生 , 蔡文鼎 , 奥马尔·汗 :
PruneGNN:用于图形神经网络加速的算法架构修剪框架。 108-123 朱泽瑜 , 李凡荣 , 李刚(音译) , 刘泽建 , 墨子涛 , 胡庆浩 , 梁晓尧 , 建诚(Jian Cheng) :
MEGA:一种利用度-软件混合精度量化的内存高效GNN加速器。 124-138 郑敏红 , 赵成军(Sungjun Cho) , Geonwoo公园 , 杨元裕(Wonhyuk Yang) , 雍和宫 , 金光顺 :
带宽—适用于带有存储类内存的GPU的高效DRAM缓存。 139-155 蔡景伟 , 吴作栋 , 森鹏(Sen Peng) , 于晨伟 , 展鸿滩 , 石桂明 , 高明宇 , 马凯生 :
双子座:大型DNN Chiplet加速器的绘图和架构联合探索。 156-171 毛瑞新 , 林丹(Lin Tang) , 星宇苑 , 叶柳 , 周军(音) :
Stallar:高能效、低延迟SNN算法以及与时空计算的硬件协同设计。 172-185 杰拉尔多·奥利维拉 , 阿塔伯克·奥尔根 , 阿卜杜拉·吉雷·亚格利克西 , F.尼萨·博斯坦奇 , 胡安·戈梅斯·卢纳 , 索加塔Ghose , Onur Mutlu公司 :
MIMDRAM:一种用于高通量、高能效和程序透明多指令多数据计算的端到端处理使用DRAM系统。 186-203 Seonjin Na公司 , 金正宇(Jungwoo Kim) , 李善浩 , Jaehyuk Huh先生 :
通过动态和批量元数据管理支持安全的多GPU计算。 204-217 徐元超 , 詹姆斯·潘吉亚 , 叶晨成 , 严索林 , 沈喜鹏 :
数据加密:以数据为中心的可信执行环境。 218-232 普拉塞提奥 , 阿迪文娜·布特拉 , 金俊英(Joo-Young Kim) :
变形:使用变换域重用的基于吞吐量最大化TFHE的加速器。 249-262 Bongjoon Hyun先生 , Taehun Kim先生 , Dongjae Lee(李东杰) , 明秀·鲁 :
通过揭开商业PIM技术的神秘面纱,探索未来PIM体系结构。 263-279 伊斯梅尔·埃米尔·尤克塞尔 , 叶海亚·坎·图格鲁 , 阿塔伯克·奥尔根 , F.尼萨·博斯坦奇 , 阿卜杜拉·吉雷·亚格利克西 , 杰拉尔多·奥利维拉 , 罗浩聪 , 胡安·戈梅斯·卢纳 , 穆罕默德·萨德罗萨达蒂 , Onur Mutlu公司 :
实际DRAM芯片中功能完备的布尔逻辑:实验表征和分析。 280-296 尤达安 , 云霄堂 , 舒舒怡 , 李鹏 , 潘秀瑞 , 孙光裕 , 罗兆初 , 乔丽 , 张杰(音译) :
StreamPIM:赛马场内存中的流矩阵计算。 297-311 内尔·帕特尔 , 阿明·马曼迪普尔 , 穆罕默德·努里 , 穆罕默德·阿利安 :
SmartDIMM:上层协议的内存加速。 312-329 王玉岳 , 潘秀瑞 , 尤达安 , 张杰(音译) , 格伦·雷曼 :
BeaconGNN:大规模GNN加速,支持无序流式存储计算。 330-344 张红孙 , 宋Jaeyong Song , Jaewon Jung先生 , Jaeyong公园 , 金永硕(Youngsok Kim) , 李金浩(Jinho Lee) :
Smart-Infinity:在真实系统上使用近存储处理进行快速大型语言模型训练。 345-360 福平牛 , 岳建辉 , 沈江秋 , 廖晓飞 , 海金 :
FlashGNN:用于GNN培训的In-SSD加速器。 361-378 东贤沟 , Miryeong Kwon先生 , Hanyeoreum Bae公司 , Myoungsoo Jung先生 :
DockerSSD:用于计算SSD的容器化存储处理和硬件加速。 379-394 陈云(音) , 阿里·哈贾巴迪 , 裴玲凤 , 特雷弗·E·卡尔森 :
PREFETCHX:跨核缓存-基于预取的侧通道攻击。 395-408 王全成 , 明堂 , 柯旭 , 韩旺(Han Wang) :
分支预测程序安全漏洞的建模、派生和自动分析。 409-423 张欣(Xin Zhang) , Zhi Zhang先生 , 清尼神 , 王文浩 , 高燕松 , 卓西阳 , 张继良 :
SegScope:通过架构足迹探测细粒度中断。 424-438 葛林福 , 田霞 , 罗忠培 , 陈瑞阳 , 赵文哲 , 彭菊仁 :
用于间接内存访问的差分匹配预取器。 439-453 明杰·李 , 成民公园 , Hyungmin Kim先生 , Minyong Yoon公司 , 李章万 , Jun Won Choi先生 , 南宋金 , Mingu Kang先生 , Choi准伍 :
SPADE:基于稀疏柱的自动驾驶三维物体检测加速器。 454-467 马晨林 , 王英平 , 陈富文 , Jing Liao公司 , Yi Wang(王怡) , 芮茂 :
Rapper:用于区块链存储平台的参数感知内存修复加速器。 468-482 黄玲怡 , 愚公 , 杨穗 , 小臧 , 博远 :
MOPED:具有灵活尺寸支持的高效运动规划引擎。 483-497 塞巴斯蒂安·S·金 , 阿尔贝托·罗斯 :
有效的上下文敏感内存依赖预测。 515-527 亚历山大·瓦伦丁·雅梅 , 乔治·沃夫利奥蒂斯(Georgios Vavouliotis) , 丹尼尔·吉梅内斯(Daniel A.Jiménez) , 卢克·阿尔瓦雷斯 , 马克·卡萨斯 :
一种结合片外预测和自适应预取滤波的两级神经网络方法。 528-542 奥德修斯·查佐普洛斯 , 乔治·帕帕迪米特里奥 , 瓦西里厄斯·卡拉科斯塔斯 , 季米特里斯·吉佐普洛斯 :
Gem5-MARVEL:异构SoC架构的微架构级弹性分析。 543-559 阿卜杜拉·吉雷·亚格利克西 , 叶海亚·坎·图格鲁 , 杰拉尔多·奥利维拉 , 伊斯梅尔·埃米尔·尤克塞尔 , 阿塔伯克·奥尔根 , 罗浩聪 , Onur Mutlu公司 :
空间变化软件读取干扰防御:实际DRAM芯片的实验分析和对未来解决方案的影响。 560-577 阿尼什·萨克塞纳 , 莫努丁·库雷希 :
开始:任何行锤阈值的可缩放跟踪。 578-592 F.尼萨·博斯坦奇 , 伊斯梅尔·尤克塞尔埃米尔 , 阿塔伯克·奥尔根 , 康斯坦蒂诺斯·卡内洛普洛斯 , 叶海亚·坎·图格鲁 , A.吉雷·亚格利奇 , 穆罕默德·萨德罗萨达蒂 , Onur Mutlu公司 :
CoMeT:基于计数-最小草图的行跟踪以低成本缓解RowHammer。 593-612 西奥多洛斯·特罗查托斯 , 徐传祺 , 桑杰·德什潘德 , 姚璐 , 永善顶 , 雅库布·谢弗 :
Quantum计算机可信执行环境。 613 Jaewan Choi先生 , Jaehyun公园 , Kwanhee Kyung公司 , 南宋金 , 郑浩安 :
释放PIM的潜力:加速基于变压器的生成模型的大批量推理。 614 Joonseop Sim先生 , 安秀红(Soohong Ahn) , Taeyong Ahn公司 , Seungyong Lee(李承勇) , 李明勋 , Jooyoung Kim(金俊英) , Kwangsik Shin先生 , Donguk Moon公司 , Euiseok Kim先生 , 京公园 :
用于加速内存密集型应用程序的计算型CXL内存解决方案。 615 王圣哲 , 林子航 , 吴素珍(Suzhen Wu) , 洪江 , 张杰(音译) , 薄毛 :
LearnedFTL:一种基于学习的页面级FTL,用于减少基于闪存的SSD中的双重读取。 616-629 Shih-Hung Tseng先生 , 曾毅晨 , 杨明昌 :
超级页面是超快的吗? 提取闪存块以统一SSD中超级页面的闪存页。 630-642 Myoungjun Chun先生 , Jaeyong Lee(李在荣) , Myungsuk Kim(金明硕) , Jisung公园 , 金继红(Jihong Kim) :
RiF:使用在线早重试引擎提高现代SSD的读取性能。 643-656 乔莉 , 红阳党 , 郑万 , 高聪明 , 叶敏(音) , 张杰(音译) , 郭泰伟 , 薛俊杰(Chun Jason Xue) :
Midas Touch:无效数据辅助的三维高密度闪存可靠性和性能提升。 657-670 Chetan Choppali Sudarshan公司 , 尼基尔·马特卡 , 萨尔马·B·K·弗鲁杜拉 , Sachin S.Sapatnekar公司 , 维迪亚·查布里亚 :
生态芯片:可持续超大规模集成电路芯片架构的碳足迹估算。 671-685 朱汉清 , 贾其谷 , 王汉瑞 , 姜子轩 , 张哲凯 , 荣兴堂 , 冯成浩 , 宋汉 , 陈雷(Ray T.Chen) , 大卫·Z·潘 :
照明变压器:一种动态操作的光学互连光子变压器加速器。 686-703 埃文·麦金尼 , 迈克尔·哈特里奇 , 亚历克斯·K·琼斯 :
MIRAGE:使用镜像门的量子电路分解和路由协作设计。 704-718 悉达多·拉曼·桑达拉·拉曼 , 莉兹·K·约翰 , 杰德普·库尔卡尼 :
SACHI:一种静态感知、全数字、近内存、Ising架构。 719-731 满石 , 维克拉姆·贾恩 , 安东尼·约瑟夫 , 莫里斯·梅耶尔 , 玛丽安·维赫斯特 :
BitWave:利用基于列的位级稀疏性加速深度学习。 732-746 东旭Im , 霍俊耀 :
LUTein:具有Radix-4基于LUT的切片张量处理单元的密集稀疏位片体系结构。 747-759 Jaeyong Jang先生 , 尤尔瓦·金 , Juheun Lee公司 , Jae-Joon Kim先生 :
FIGNA:FP-INT GEMM保持数值精度的基于整数单位的加速器设计。 760-773 李会泽 , 李兆英 , 白振宇 , 图利卡·米特拉 :
ASADI:使用基于对角线的原位计算加速稀疏注意力。 774-787 杰仁 , 董旭 , 杨双燕 , 赵嘉诚 , 李志成 , 克里斯蒂安·纳瓦斯卡 , 王晨曦 , 郭庆哈里·徐 , 董丽(Dong Li) :
通过基于学习的记忆管理实现大型动态神经网络训练。 788-802 林志琦 , 苗有山 , 徐冠斌 , 程莉 , 奥利·萨里基维 , 赛义德·马莱基 , 范扬 :
Tessel:通过灵活的调度搜索促进大型DNN模型的分布式执行。 803-816 张玉辉 , 赵鲁丹 , 程车(Cheng Che) , 王晓峰 , 孟丹 , 芮侯 :
SpecFL:一个有效的基于树模型训练的思辨联合学习系统。 817-831 刘玉渊 , 郑洪生 , 胡玉芳 , 徐晨凤 , Tsung Tai Yeh(宗大业) :
TinyTS:微控制器上的内存高效TinyML模型编译器框架。 848-860 赛谦张 , 蒂埃里·坦贝 , 内斯托·库瓦斯 , 顾延伟 , 大卫·布鲁克斯 :
CAMEL:共同设计AI模型和eDRAM以实现高效的设备学习。 861-875 亚历山大·巴克 , Karthik Ganesan公司 , 娜塔莉·恩里特·杰格 :
FlipBit:物联网设备的近似闪存。 876-890 青色Subhra Mishra , 杰克·桑普森 , Mahmut Taylan坎德米尔 , 维杰里什南·纳拉亚南 , 契塔·R·达斯 :
Usas:边缘服务器的可持续持续学习框架。 891-907 李文雪 , Junyi Zhang(张君毅) , 刘玉飞 , 曾高雄 , 王子龙 , 曾超良 , 周鹏鹏 , 王巧玲 , 陈凯(Kai Chen) :
Cepheus:利用高性能RoCE多播加速数据中心应用。 908-921 李月英 , 尼基塔·拉扎列夫 , 大卫·库法蒂 , 丁尼·尹 , 安迪·安德森 , Zhiru Zhang(张志如) , G.爱德华·苏 , Kostis Kaffes公司 , 克里斯蒂娜·德利米特鲁 :
LibPreemptable:支持快速、自适应和硬件辅助的用户空间调度。 922-936 张彦琦(Yanqi Zhang) , 庄庄周 , 萨米赫·埃尔尼基蒂 , 克里斯蒂娜·德利米特鲁 :
Ursa:云微服务的轻量级资源管理。 954-969 Sangsoo公园 , 金京洙 , 吉宁So , 金荣 , Jonggeon Lee公司 , 京湾伍 , Nayeon Kim(金娜妍) , 李永云 , Hyungyo Kim先生 , Yongsuk Kwon先生 , 金金云 , 李洁云 , YeonGon Cho先生 , 泰永民 , Jeonghyeon Cho先生 , Hoyoung宋 , 郑浩安 , 南宋金 :
基于LPDDR的CXL-PNM平台,用于基于变换器的大型语言模型的TCO高效推理。 970-982 徐洁雄 , 陈一泉 , 王一静 , 史文辉 , 郭菊芳 , 易晨 , 廖华生 , 杨旺(Yang Wang) , 海琳 , 甄进 , 刘强(音) , 陈文志 :
LightPool:Cloud-Native分布式数据库的基于NVMe-oF的高性能轻量级存储池体系结构。 983-995 Alper Buyuktosunoglu公司 , 大卫·特里拉 , 巴伦特·阿巴利 , 迪安娜·波斯特斯·邓恩·伯杰 , 克雷格·沃尔特斯 , 李章洙 :
企业级缓存压缩设计。 996-1011 Gerasimos Gerogiannis公司 , 斯里拉姆·阿南塔克利什南 , 约塞普·托雷拉斯 , 易卜拉欣·胡尔 :
HotTiles:使用异构加速器架构加速SpMM。 1012-1028 刘芳欣 , 宁阳 , 李浩敏 , 王宗武 , 卓然歌 , 宋文培 , 李江 :
SPARK:通过高效编码实现神经网络的可扩展和精确软件加速。 1029-1042 王树亭 , 徐汉阳 , 阿明·马曼迪普尔 , 罗汉·马哈帕特拉 , Byung Hoon Ahn先生 , Soroush Ghodrati公司 , 克里希南·凯拉斯 , 穆罕默德·阿利安 , 哈迪·伊斯梅尔扎德 :
数据运动加速:链接跨域多加速器。 1043-1062 苏丹舒·古普塔 , 桑迪亚·达瓦卡达斯 :
缓解:通过数据移动软件加速器调度缓解SoC中的内存压力。 1063-1079 王月琦 , 李冰耀 , 阿默·贾勒尔 , 杨军(Jun Yang) , 唐旭龙 :
GRIT:通过细粒度动态页面放置增强多-GPU性能。 1080-1094 亚龙山 , 杨永奎 , 钱学海 , 于志斌 :
古瑟:GPGPU电源压力标记发生器。 1111-1124 侯赛因·塞耶德·阿盖伊 , 马哈茂德·纳德兰·塔汉 , Lieven Eeckhout公司 :
GPU比例模型模拟。 1125-1140 Jaeyoon Lee(李在云) , 元永荣 , 东惠·金 , Daero Kim公司 , 李俊雄(Junseung Lee) , 金正日(Jungrae Kim) :
Agile-DRAM:数据中心在内存容量、延迟和能量方面的灵活权衡。 1141-1153 陆晓阳 , 哈米德·纳杰菲 , 廖子韶 , 孙贤和 :
CHROME:具有在线强化学习的并发软件整体缓存管理框架。 1154-1167 K.P.Arun公司 , 黛巴达塔·米什拉 , 比斯瓦班丹熊猫 :
优点:混合内存系统中的程序堆栈持久性。 1168-1183 吴荣龙 , 沈志荣 , 杨志伟 , 《纪武书》 :
通过将机器学习与异地更新相结合来缓解非易失性存储器中的写入干扰。 1184-1198
![](https://dblp.org/img/cog.dark.24x24.png)