{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部件”:[[2024,1,21]],“日期-时间”:“2024-01-21T04:08:06Z”,“时间戳”:1705810086585},“参考-计数”:63,“出版商”:“计算机协会(ACM)”,“问题”:“1”,“资助者”:[{“DOI”:“10.13039\/501100012166”,“名称”:“国家中国重点研发计划”,“doi-asserted-by”:“crossref”,“adward”:[“2021ZD0110101”]},{“doi”:“10.13039\/501100001809”,“name”:“国家自然科学基金”,“doiasserted-by“:”crossref.“,”adward“:[“62090024,62232015,and 62302479”]}.,{”doi“:”10.13039\\501100002858“,”name“:”中国博士后科学基金“,”doi-assert-by“:”crossrev“,”award“:[“2023M733566”]},{“name”:“中科院信息通信技术创新基金”,“award”:[“E361010”]}],“content-domain”:{“domain”:[“dl.acm.org”],“crossmark-restriction”:true},“short-container-title”:[”acm Trans.Archit.Code Optim.“],“published-print”:{“date-parts”:[2024,3,31]},”abstract“:”低精度计算已成为加速卷积神经网络最有效的技术之一,并在现代硬件上获得了广泛支持。尽管低精度计算在加速卷积神经网络方面很有效,但由于数值问题,它尚未普遍应用于快速卷积,如Winograd算法。在本文中,我们提出了一种有效的量化Winograd卷积,称为LoWino,它在Winograd-domain中使用了一种内部量化方法来减少变换带来的精度损失。同时,我们提出了一种有效的实现方法,它集成了设计良好的优化技术,使我们能够充分利用现代CPU上的低精度计算能力。我们在两个具有代表性卷积层和神经网络模型的Intel Xeon Scalable Processor平台上评估LoWino。实验结果表明,与供应商库中最先进的实现相比,我们的方法可以实现平均1.84\u00d7和1.91\u00d的操作员加速,同时将准确性损失保持在合理的水平<\/jats:p>“,”DOI“:”10.1145\/3632956“,”type“:”journal-article“,”created“:{”date-parts“:[2023,11,17]],”date-time“:”2023-11-17T12:12:18Z“,”timestamp“:1700223138000},”page“:标题“:[”快速卷积遇到低精度:探索现代CPU上的高效量化Winograd卷积“],”前缀“:”10.1145“,”卷“:”21“,”作者“:[{”ORCID“:”http://\/ORCID.org\/00000-0002-7835-113X“,”authenticated-ORCID“:false,”给定“:”雪英“,”family“:”Wang“,”sequence“:”first“,”affiliation“:”[{“name”:“中国北京邮电大学“}]},{“ORCID”:“http://\/ORCID.org\/0000-0002-9738-261X”,“authenticated-ORCID”:false,“given”:”Guangli“,”family“:”Li“,”sequence“:”additional“,”affiliation“:[{”name“中国科学院计算技术研究所,中国科学院大学”}]{“ORCID“:”http://\/ORCID.org\/00000-0003-3543-2324“,”authenticated-ORCID“:false,”给定“:”Zhen“,”family“:”Jia“,”sequence“:”additional“,”affiliation“:[{“name”:“Amazon Web Services,USA”}]},{“ORCID”:“http://\/ORCID.org\/0000-0003-2909-7750”,“authentimated-ORCID”:false“,”给定:“Xiaobing”,“family”:“Feng”,“sequence”:“additional”,“affiliance”:[{“名称”:“中国科学院计算技术研究所和中国科学院大学“}]},{“ORCID”:“http://\/ORCID.org\/0000-0001-8165-840X”,“authenticated-ORCID”:false,“given”:”Yida“,“family”:“Wang”,“sequence”:“additional”,“affiliation”:[{“name”:“Amazon Web Services,USA”}]}],“member”:“320”,“published-on-line”:{“date-parts“:[[2024,1,19]]},”reference“:[{”key“:”e_1_3_1_2_2“,”first page“:“582”,”volume-title“:”微体系结构国际研讨会论文集“,”author“:”Andri Renzo“,”year“:”2022“,”unstructured“:”Renzo-Andri、Beatrice Bussolino、Antonio Cipolletta、Lukas Cavigelli和Zhe Wang。2022。进一步使用winograd卷积:轻敲量化可在4x4平铺上进行有效推断。《国际微体建筑学研讨会论文集》。IEEE,582\u2013598.“},{“问题”:“4”,“关键”:“e_1_3_1_3_2”,“doi-asserted-by”:“crossref”,“首页”:“1”,“doi”:“10.1145 \/3412380”,“文章标题”:“错误分析和提高深层神经网络Winograd卷积的准确性”,“卷”:“46”,“作者”:“Barabasz Barbara”,“年份”:“2020”,“非结构化”:“芭芭拉·巴拉巴斯,Andrew Anderson,Kirk M。Soodhalter和David Gregg。2020年。深度神经网络的误差分析和提高Winograd卷积的准确性。ACM事务处理。数学。柔和。46,4(2020),1\u201333.“,“日记标题”:“ACM Trans。数学。柔和。“},{”key“:”e_1_3_1_4_2“,”首页“:”5918“,”volume-title“:”IEEE计算机视觉与模式识别会议论文集“,”author“:”Cai Zhaowei“,”year“:”2017“,”unstructured“:”Zhaowi Cai,Xiaodong He,Jian Sun,and Nuno Vasconcelos.2017。通过半波高斯量化实现低精度的深度学习。IEEE计算机视觉和模式识别会议论文集。5918\u20135926.“},{”key“:”e_1_3_1_5_2“,”首页“:”291“,”article-title“:”幻灯片:“大型深度学习系统硬件加速智能算法辩护”,“卷”:“2”,“作者”:“陈贝迪”,“年份”:“2020”,“非结构化”:“Beidi Chen,Tharun Medini,James Farwell,Charlie Tai,Anshumali Shrivastava,et \u00a0al.2020。幻灯片:针对大规模深度学习系统的硬件加速,为智能算法辩护。程序。机器。学习。系统。2(2020),291\u2013306.“,“新闻标题”:“Proc。机器。学习。系统。“},{”issue“:”1“,”key“:”e_1_3_1_6_2“,”doi-asserted-by“:”crossref“,”first page“:“64”,”doi“:”10.1631 \/FITEE.1700789“,”artic-title“:”深度卷积神经网络有效计算的最新进展“,”volume“:”19“,”author“:”Cheng Jian“,”year“:”2018“,”unstructured“:”Jian Cheng,Pei-song Wang,Gang Li,Qing-hao Hu,and Han-Qing Lu.2018。深度卷积神经网络有效计算的最新进展。前面。信息技术。选举人。Eng.19,1(2018),64\u201377。“,“journal-title”:“Front。信息技术。选举人。工程师“},{”key“:”e_1_3_1_7_2“,”首页“:”12507“,”volume-title“:”IEEE\/CVF计算机视觉和模式识别会议记录“,”author“:”Chikin Vladimir“,”year“:”2022“,”unstructured“:”Vladimir Chikin和Vladimil Kryzhanovskiy.2022。用于精确量化winograd卷积的信道平衡。IEEE计算机视觉和模式识别会议论文集。12507\u201312516.“},{“key”:“e_1_3_1_8_2”,“首页”:“3009”,“卷标题”:“ICCV研讨会论文集”,“作者”:“Choukroun Yoni”,“年份”:“2019”,“非结构化”:“Yoni Choukroun,Eli Kravchik,Fan Yang,and Pavel Kisilev。2019。用于有效推理的神经网络的低位量化。在ICCV研讨会的会议记录中。3009\u20133018.“},{“key”:“e_1_3_1_9_2”,“article-title”:“二值化神经网络:训练深度神经网络,权值和激活限制为+1或\u20131”,“author”:“Courbariaux Matthieu”,“year”:“2016”,“unstructured”:“Matthieu-Courbariaux,Itay Hubara,Daniel Soudry,Ran El-Yaniv,and Yoshua Bengio。2016。二值化神经网络:训练深度神经网络,权重和激活限制为+1或\u20131。arXiv:1602.02830。检索自https:\/\/arxiv.org\/abs\/1602.02830“,”journal-title“:”arxiv:“1602.02830”},{“key”:“e_1_3_1_10_2”,“first-page”:“156”,“article-title”:“加速现代cpu上的幻灯片深度学习:矢量化、量化、内存优化等”,“volume”:”3“,“author”:“Daghaghi-Shabnam”,“year”:“2021”,“unstructured”:“”沙布纳姆·达格哈吉(Shabnam Daghaghi)、尼古拉斯·梅斯伯格(Nicholas Meisburger)、孟南·赵(Mengan Zhao)和安舒马利·施里瓦斯塔瓦(Anshumali Shrivastava)。2021.加速现代cpu上的幻灯片深度学习:矢量化、量化、内存优化等。程序。机器。学习。系统。3(2021),156\u2013166.“,“新闻标题”:“Proc。机器。学习。系统。“},{”key“:”e_1_3_11_2“,”首页“:”248“,”volume-title“:”IEEE计算机视觉与模式识别会议记录“,”author“:”Deng Jia“,”year“:”2009“,”unstructured“:”Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,Kai Li,and Li Fei-Fei.2009。Imagenet:一个大规模的分层图像数据库。IEEE计算机视觉和模式识别会议论文集。IEEE,248\u2013255.“},{”key“:”e_1_3_1_12_2“,”article-title“:”使用混合块浮点训练dnns“,”volume“:“31”,”author“:”Drumond Mario“,”year“:”2018“,”unstructured“:”Mario Drumond.,Tao Lin,Martin Jaggi,and Bababak Falsafi.2018。使用混合块浮点训练dnn。高级神经信息处理。系统。31 (2018).,“journal-title”:“高级神经信息处理。系统。“},{”key“:”e_1_3_13_2“,”first page“:“1”,”volume-title“:”Proceedings of the Machine Learning and Systems Conference“,”author“:”Fern\u00e1ndez-Marqu\u00e 9s Javier“,”year“:”2020“,”unstructured“:”Javier Fern\u 00e1indez-Margu00e9s,Paul N.Whatmough,Andrew Mundy,and Matthew Matthew Matina.2020。搜索winograd-ware量化网络。机器学习和系统会议论文集。1\u201316.“},{”key“:”e_1_3_1_14_2“,”首页“:”1“,”volume-title“:”并行处理国际会议论文集“,”author“:”Gangli Li“,”year“:”2021“,“unstructured”:”Li Gangli,Zhen Jia,Xiaobing Feng,and Yida Wang.2021。LoWino:在现代CPU上实现高效的低精度winograd卷积。《并行处理国际会议论文集》。1\u201311.“},{”key“:”e_1_3_1_15_2“,”首页“:”796“,”volume-title“:”国际微体系结构研讨会论文集“,”author“:”龚章晓文“,”year“:”2020“,”unstructured“:”张晓文龚,侯祥基,克里斯托弗·弗莱彻,克里斯托弗·J·休斯,萨拉·巴格索基,乔塞普·托雷拉斯。2020。保存:Sparsity-aware矢量引擎,用于加速cpu上的dnn训练和推理。《国际微体建筑学研讨会论文集》。IEEE,796\u2013810.“},{”key“:”e_1_3_1_16_2“,”首页“:”12175“,”volume-title“:”IEEE\/CVF计算机视觉与模式识别会议(CVPR\u201922)会议记录“,”author“:”郭建元“,”year“:”2022“,”unstructured“:”Guo Jianyuan,Kai Han,Han Wu,Yehui Tang,Xinghao Chen,Yunhe Wang,and Chang Xu.2022。CMT:卷积神经网络满足视觉变换器。IEEE计算机视觉和模式识别会议论文集(CVPR\u201922)。12175\u201312185.“},{”key“:”e_1_3_1_17_2“,”article-title“:”量化神经网络方法与理论综述“,”author“:”郭云辉“,”year“:”2018“,”unstructured“:”Yunhui Guo.2018“。量化神经网络方法和理论综述。arXiv:1808.04752。检索自https:\/\/arxiv.org\/abs\/1808.04752“,”journal-title“:”arxiv:1808.04752“},{“key”:“e_1_3_1_18_2”,“article-title”:“深度压缩:使用修剪、训练量化和huffman编码压缩深度神经网络”,“author”:“Han Song”,“year”:“2015”,“unstructured”:“Song Han,Huizi Mao,and William J.Dally.2015。深度压缩:通过剪枝、训练量化和哈夫曼编码压缩深度神经网络。arXiv:1510.00149。检索自https:\/\/arxiv.org\/abs\/1510.00149“,”journal-title“:”arxiv:1510.00149“},{“key”:“e_1_3_1_19_2”,“首页”:“770”,“volume-title”:“IEEE计算机视觉与模式识别会议论文集”,“author”:“He Kaiming”,“year”:“2016”,“unstructured”:“Kaiming He,Xiang Zhang,Shaoqing Ren,and Jian Sun。2016。用于图像识别的深度残差学习。IEEE计算机视觉和模式识别会议论文集。770\u2013778.“},{“issue”:“8”,“key”:“e_1_3_1_20_2”,“首页”:“3594”,“article-title”:“深度卷积神经网络的渐近软滤波修剪”,“volume”:”50“,“author”:“He Yang”,“year”:“2019”,“unstructured”:“Yang He,Xuanyi Dong,Guoliang Kang,Yanwei Fu,Chenggang Yan,and Yi Yang.2019”。深度卷积神经网络的渐进软滤波器修剪。IEEE传输。网络。50,8(2019),3594\u20133604.”,“期刊标题”:“IEEE Trans。网络。“},{”key“:”e_1_3_1_21_2“,”首页“:”1389“,”volume-title“:”IEEE国际计算机视觉会议论文集“,”author“:”何一辉“,”year“:”2017“,”unstructured“:”何一辉、张湘玉、孙健。2017。用于加速超深层神经网络的通道修剪。在IEEE国际计算机视觉会议论文集上。1389\u20131397.“},{”key“:”e_1_3_1_22_2“,”首页“:”4174“,”volume-title“:”AAAI人工智能会议论文集“,”卷“:”34“,”author“:”Huang Di“,”年份“:”2020“,”unstructured“:”Di Huang,Xishan Zhang,Rui Zhang“,Tian Zhi,Deyuan He,Jiaming Guo,Chang Liu,Qi Guo,Zidong Du,Shaoli Liu,et \u00a0al.2020“。DWM:一种用于卷积加速的可分解winograd方法。《AAAI人工智能会议论文集》,第34卷。4174\u20134181.“},{”key“:”e_1_3_1_23_2“,”volume-title“:”内部指南“,”year“:”2021“,”unstructured“:”Intel.2021“。本质指南。2021年3月29日检索自https:\/\/software.intel.com/sites\/landingpage\/IntrinsicsGuide\/“},{“key”:“e_1_3_1_24_2”,“volume-title”:“第二代intel Xeon可扩展处理器上的intel Deep Learning Boost简介”,“year”:“2021”,“unstructured”:“intel.2021”。第二代Intel Xeon可扩展处理器上的Intel深度学习增强简介。2021年3月24日检索自https:\/\/software.intel.com/content\/www\/us\/en\/develove\/articles \/introduction-to-intel-deep-learning-boos-on-second-generation-intel-xeon-scalable.html“},{“key”:“e_1_3_1_25_2”,“volume-title”:“oneAPI deep Neural Network Library(oneDNN)”,“year”:“2021”,“unstructured”:“intel.2021”。oneAPI深层神经网络库(oneDNN)。2021年2月27日检索自https:\/\/github.com//oneapi-src\/oneDNN“},{”key“:”e_1_3_1_26_2“,”first page“:“2704”,”volume-title“:”Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition“,”author“:”Jacob Benoit“,”year“:”2018“,”unstructured“:”Benoit Jacob、Skirmantas Kligys、Bo Chen、Menglong Zhu、Matthew Tang、Andrew Howard、Hartwig Adam和Dmitry Kalenichenko。2018.神经网络的量化和训练,以实现高效的整数算法推理。IEEE计算机视觉和模式识别会议论文集。2704\u20132713.“},{”issue“:”7“,”key“:”e_1_3_1_27_2“,”首页“:”986“,”article-title“:”通过MegaKernel在GPU上启用高效快速卷积算法“,”volume“:“69”,“author”:“贾连成”,“year”:“2020”,“unstructured”:“连成贾,Yun Liang,Li qiang Lu,and Shengen Yan.2020。通过MegaKernel在GPU上实现高效快速卷积算法。IEEE传输。计算。69,7(2020),986\u2013997。”,“期刊标题”:“IEEE Trans。计算。“},{”key“:”e_1_3_1_28_2“,”首页“:”47“,”volume-title“:”ACM操作系统原理研讨会论文集“,”author“:”贾志浩“,”year“:”2019“,”unstructured“:”贾志浩,Oded Padon,James Thomas,Todd Warszawski,Matei Zaharia,and Alex Aiken.2019。TASO:通过自动生成图形替换来优化深度学习计算。ACM操作系统原理研讨会论文集。47\u201362.“},{”key“:”e_1_3_1_29_2“,”首页“:”109“,”volume-title“:”ACM SIGPLAN并行编程原理与实践研讨会论文集“,”author“:”Jia Zhen“,”year“:”2018“,”unstructured“:”Zhen Jia,Aleksandar Zlateski,Fredo Durand,and Kai Li.2018。为多核CPU优化基于winograd的N维卷积。在ACM SIGPLAN并行编程原理与实践研讨会的会议记录中。109\u2013123.“},{”key“:”e_1_3_1_30_2“,”unstructured“:”Zhen Jia Aleksandar Zlateski Fredo Durand and Kai Li.2018。多核上的最优winograd卷积。机器学习与系统学报1\u20133.“},{“key”:“e_1_3_1_31_2”,“article-title”:“Flexpoint:深层神经网络有效训练的自适应数值格式”,“volume”:”30“,“author”:“K\u00f6ster Urs”,“year”:“2017”,“unstructured”:“Urs K\u006ster,Tristan Webb,Xin Wang,Marcel Nassar,Arjun K。班萨尔、威廉·康斯特布尔、奥古斯·埃利波尔、斯科特·格雷、斯图尔特·霍尔、卢克·霍诺夫等人。2017年,Flexpoint:一种有效训练深层神经网络的自适应数字格式。高级神经信息处理。系统。30 (2017).,“journal-title”:“高级神经信息处理。系统。“},{”issue“:”8“,”key“:”e_1_3_1_32_2“,”doi-asserted-by“:”crossref“,”first page“:“151”,”doi“:”10.3390\/computers12080151“,”article-title“:”卷积神经网络:A survey“,”volume“:”12“,”author“:”Krichen Moez“,”year“:”2023“,”unstructured“:”Moez Krichen.2023。卷积神经网络:综述。计算机12,8(2023),151.“,”杂志标题“:”计算机“},{“key”:“e_1_3_1_33_2”,“article-title”:“量化深度卷积网络以进行有效推理:白皮书”,“作者”:“Krishnamoorthi Raghuraman”,“年份”:“2018”,“非结构化”:“Raghuranman Krishnamanorthi.2018”。量化深度卷积网络以实现高效推理:白皮书。arXiv:1806.08342。检索自https:\/\/arxiv.org\/abs\/1806.08342“,”journal-title“:”arxiv:1806.08342}“,{”key“:”e_1_3_1_34_2“,”first page“:“1097”“article-title”:“Imagenet classification with deep volume neural networks”,“volume”:“25”,“author”:“Krizhevsky Alex”,“year”:“2012”,“unstructured”:“Alex Krizhovsky,Ilya Sutskever,and Geoffrey e.Hinton.2012。基于深度卷积神经网络的Imagenet分类。高级神经信息处理。系统。25(2012),1097\u20131105.“,“期刊标题”:“高级神经信息处理。系统。},{“key”:“e_1_3_1_35_2”,“volume-title”:“信息理论与统计”,“author”:“Kullback Solomon”,“year”:“1997”,“unstructured”:“Solomon Kullback.1997”。信息理论与统计学。Courier公司。“},{”key“:”e_1_3_1_36_2“,”volume-title“:”wincnn“,”author“:”Lavin Andrew“,”year“:”2021“,”unstructured“:”Andrew Lavin.2021。温克恩。2021年2月27日检索自https:\/\/github.com/andravin\/wincnn“},{“key”:“e_1_3_1_37_2”,“first-page”:“4013”,“volume-title”:“IEEE计算机视觉和模式识别会议记录”,“author”:“Lavin Andrew”,“year”:“2016”,“unstructured”:“Andrew Lavin and Scott Gray.2016”。卷积神经网络的快速算法。IEEE计算机视觉和模式识别会议论文集。4013\u20134021.“},{“键”:“e_1_3_1_38_2”,“第一页”:“159”,“卷标题”:“IEEE应用并行与分布式处理国际会议论文集”,“作者”:“李晨迪”,“年份”:“2021”,“非结构化”:“李晨迪、贾海鹏、曹航、姚建宇、石伯谦、向春阳、孙金波、卢鹏奇和张云泉。2021。Autotsmm:一个自动调整框架,用于在cpu上构建高性能的身高和瘦体重矩阵乘法。在IEEE国际会议关于并行和分布式处理与应用程序的会议记录中。IEEE,159\u2013166.“},{”key“:”e_1_3_1_39_2“,”首页“:”1“,”volume-title“:”并行处理国际会议论文集“,”author“:”李东生“,”year“:”2021“,“unstructured”:”李冬生、黄丹、陈志光、陆宇通.2021。在ARM处理器上优化大规模并行winograd卷积。《并行处理国际会议论文集》。1\u201312.“},{”key“:”e_1_3_1_40_2“,”首页“:”3842“,”卷标“:”声学、语音和信号处理国际会议论文集“,”作者“:”李广利“,”年份“:”2020“,”非结构化“:”李广利、刘磊、王雪英、马秀萍、冯小兵.2020。Lance:基于图形处理单元的神经网络的高效低精度量化winograd卷积。在国际声学、语音和信号处理会议记录中。IEEE,3842\u20133846.“},{”key“:”e_1_3_1_41_2“,”首页“:”90“,”volume-title“:”代码生成与优化国际研讨会论文集“,”author“:”Li Guangli“,”year“:”2021“,”unstructured“:”Guangli Li,Jingling Xue,Lei Liu,Xueying Wang,Xium Ma,Xiao Dong,Jiansong Li,and Xiao Bing Feng.2021。在GPU上释放张量核的低精度计算潜力。代码生成和优化国际研讨会论文集。IEEE,90\u2013102.“},{”key“:”e_1_3_1_42_2“,”首页“:”1“,”volume-title“:”并行处理国际会议论文集“,”author“:”刘俊宏“,”year“:”2021“,“unstructured”:”Junhong Liu,Dongxu Yang,and Junjie Lai.2021。利用张量核优化基于Winograd的卷积。《并行处理国际会议论文集》。1\u201310.“},{”key“:”e_1_3_1_43_2“,”首页“:”1025“,”volume-title“:”2019年USENIX年度技术会议论文集(USENIX-ATC\u201919)“,”author“:”Liu Yizhi“,”year“:”199“,”unstructured“:”Yizhi-Liu、Yao Wang、Ruofei Yu、Mu Li、Vin Sharma和Yida Wang。2019。在cpu上优化CNN模型推理。2019年USENIX年度技术会议记录(USENIX-ATC\u201919)。1025\u20131040.“},{”key“:”e_1_3_1_44_2“,”首页“:”1“,”volume-title“:”《欧洲计算机系统会议论文集》“,”author“:”Mazaheri Arya“,”year“:”2020“,”unstructured“:”Arya Mazaheri,Tim Beringer,Matthew Moskewicz,Felix Wolf,and Ali Jannesari.2020。使用符号计算和元编程加速winograd卷积。《欧洲计算机系统会议记录》。1\u201314.“},{”key“:”e_1_3_1_45_2“,”unstructured“:”保利乌斯·米切维希乌斯·杜桑·斯托西克·尼尔·伯吉斯·马吕斯·科内拉·普拉迪普·杜比·理查德·格里森特瓦特·桑原哈·亚历山大·海内克·帕特里克·贾德·约翰·卡马卢·纳文·梅伦普迪·斯图尔曼·奥伯曼·穆罕默德·肖比·迈克尔·萧和郝武。2022年。用于深度学习的FP8格式。arxiv:2209.05433[cs.LG]。检索自https:\/\/arxiv.org\/abs\/2209.05433“},{”key“:”e_1_3_1_46_2“,”first page“:“5”,”volume-title“:”GPU技术会议记录“,”volum:“2”,”author“:”Migacz Szymon“,”year“:”2017“,”unstructured“:”Szymon-Migcz.2017“。用张量rt进行8位推理。在GPU技术会议论文集,第2卷。5.“},{”键“:”e_1_3_1_47_2“,”卷标题“:”CUDA C++编程指南“,”年份“:”2021“,”非结构化“:”NVIDIA.2021。CUDA C++编程指南。2021年3月29日检索自https:\/\/docs.nvidia.com/cuda\/cuda-c-programming-guide\/index.html“},{“key”:“e_1_3_1_48_2”,“first page”::“608”,“volume-title”:“Proceedings of the 15th European Conference on Computer Vision(ECCV\u201918)”,“author”:“Park Eunhyeok”,“year”:“2018”,“unstructured”:“Eunhyeock Park,Sunghoo Yoo,and Peter Vajda.2018”。用于神经网络训练和推理的值件量化。《第十五届欧洲计算机视觉会议论文集》(ECCV\u201918)。608\u2013624.“},{”key“:”e_1_3_1_49_2“,”首页“:”8024“,”volume-title“:”神经信息处理系统的进展“,”author“:”Paszke Adam“,”year“:”2019“,”unstructured“:”Adam Paszke、Sam Gross、Francisco Massa、Adam Lerer、James Bradbury、Gregory Chanan、Trevor Killeen、Zeming Lin、Natalia Gimelshein、Luca Antiga、Alban Desmaison、Andreas K\u00f6pf、Edward Yang、Zachary DeVito、Martin Raison、Alykhan Tejani、Sasank Chilamkurthy、Benoit Steiner、Lu Fang、Junjie Bai和Soumith Chintala。2019.PyTorch:一个命令式、高性能的深度学习库。神经信息处理系统进展。8024\u20138035.“},{”key“:”e_1_3_1_50_2“,”doi-asserted-by“:”crossref“,”unstructured“:”Tran Minh Quan David Grant Colburn Hildebrand and and Won-Ki Jeong.2021。FusionNet:连接组学中用于图像分割的深度全剩余卷积神经网络。计算机科学前沿。3(2021)613981.“,”DOI“:”10.3389\/fcomp.2021.613981“},{”key“:”e_1_3_1_51_2“,”article-title“:”Yolov3:增量改进“,”author“:”Redmon Joseph“,”year“:”2018“,”unstructured“:”Joseph Redmon and Ali Farhadi.2018“。Yolov3:渐进式改进。arXiv:1804.02767。检索自https:\/\/arxiv.org\/abs\/1804.02767“,”journal-title“:”arxiv:1804.02777“},{“key”:“e_1_3_1_52_2”,“first-page”:“234”,“volume-title”:“医学图像计算和计算机辅助干预国际会议”,“author”:“Ronneberger Olaf”,“year”:“2015”,“unstructured”:“奥拉夫·伦尼伯格(Olaf Ronneberger)、菲利普·菲舍尔(Philipp Fischer)和托马斯·布洛克斯(Thomas Brox)。2015.U-net:生物医学图像分割的卷积网络。在医学图像计算和计算机辅助干预国际会议上。Springer,234\u2013241.“},{“key”:“e_1_3_1_53_2”,“volume-title”:“学习表征国际会议论文集”,“author”:“Simonyan Karen”,“year”:“2015”,“unstructured”:“Karen Simonian and Andrew Zisserman。2015。用于大规模图像识别的深度卷积网络。《学习表征国际会议论文集》,1\u201314.“},{“key”:“e_1_3_1_54_2”,“首页”:“1”,“volume-title”:“IEEE计算机视觉和模式识别会议论文集”,“author”:“Szegedy Christian”,“year”:“2015”,“unstructured”:“Christian Szegedy、Wei Liu、Yangqing Jia、Pierre Sermanet、Scott Reed、Dragomir Angelov、Dumitru Erhan、Vincent Vanhoucke和Andrew Rabinovich。2015年,深入卷积。IEEE计算机视觉和模式识别会议论文集。1\u20139.“},{“key”:“e_1_3_1_55_2”,“volume-title”:“ncnn”,“year”:“2021”,“unstructured”:“腾讯2021”。ncnn。2021年2月27日检索自https://github.com/Tencent//ncnn“},{”key“:”e_1_3_1_56_2“,”first page“:“1”,”volume-title“:”Proceedings of the International Conference for High Performance Computing,Networking,Storage and Analysis“,”author“:”Wang Yida“,”year“:”2015“,”unstructured“:”Yida Wang,Michael J.Anderson,Jonathan D。科恩(Cohen)、亚历山大·海内克(Alexander Heinecke)、凯·李(Kai Li)、纳达图尔·萨蒂什(Nadathur Satish)、纳拉亚南·桑达拉姆(Narayanan Sundaram)、尼古拉斯·B·特克·伯恩(Nicholas B.Turk-B。2015.Intel Xeon Phi协处理器上fMRI数据的全相关矩阵分析。高性能计算、网络、存储和分析国际会议论文集。IEEE,1\u201312.“},{”key“:”e_1_3_1_57_2“,”首页“:”77“,”volume-title“:”代码生成与优化国际研讨会论文集“,”author“:”Weng Jian“,”year“:”2021“,”unstructured“:”Jian Weng,Animesh Jain,Jie Wang,Leyuan Wang,Yida Wang,and Tony Nowatzki。2021。单元:统一张量化指令编译。代码生成和优化国际研讨会论文集。IEEE,77\u201389.“},{“key”:“e_1_3_1_58_2”,“doi-asserted-by”:“crossref”,“doi”:“10.1137\/1.9781611970364”,“volume-title”:“计算的算术复杂性”,“author”:“Winograd Shmuel”,“year”:“1980”,“unstructured”:“Shmuel Winograd.1980”。计算的算术复杂性。第33卷。暹罗。“},{”key“:”e_1_3_1_59_2“,”首页“:”53“,”volume-title“:”ACM SIGOPS亚太系统研讨会论文集“,”author“:”Xie Dedong“,”year“:”2022“,”unstructured“:”Dedong Xie,Zhen Jia,Zili Zhang,and Xin Jin.2022。在ARM多核处理器上优化半精度Winograd卷积。ACM SIGOPS亚太系统研讨会论文集。53\u201360.”},{“key”:“e_1_3_1_60_2”,“首页”:“32”,“卷标题”:“ACM SIGPLAN并行编程原理与实践研讨会论文集”,“作者”:“Yan Da”,“年份”:“2020”,“非结构化”:“Da Yan,Wei Wang,and Xiaowen Chu.2020。在GPU上优化批处理winograd卷积。在ACM SIGPLAN并行编程原理与实践研讨会的会议记录中。32\u201344.“},{”key“:”e_1_3_1_61_2“,”doi-asserted-by“:”crossref“,”first page“:“1209”,”doi“:”10.1145\/312366.3129393“,”volume-title“:”Proceedings of the International Conference on Multimedia“,”author“:”Yang Haojin“,”year“:”2017“,”unstructured“:”Haojin-Yang,Martin Fritzsche,Christian Bartz,and Christoph Meinel.2017。Bmxnet:基于mxnet的开源二进制神经网络实现。在国际多媒体会议记录中。1209\u20131212.“},{“key”:“e_1_3_1_62_2”,“首页”:“1780”,“卷标”:“IEEE多媒体与博览会国际会议论文集”,“作者”:“姚义乌”,“年份”:“2019”,“非结构化”:“耀义乌、董斌、李宇科、杨伟强、朱浩琦。2019。具有端到端完整数据流的卷积神经网络的高效实现。IEEE多媒体和博览会国际会议论文集。1780\u20131785.“},{”key“:”e_1_3_1_63_2“,”unstructured“:”浙卫瑶镇董章成郑阿米尔·戈拉米·佳丽于埃里克·谭乐源·王启景·黄义达·王迈克尔·马奥尼等人\u00a0al.2021。HAWQ-V3:二进神经网络量化。在机器学习国际会议上。PMLR 11875\u201311886.“},{”key“:”e_1_3_1_64_2“,”doi asserted by“:”crossref“,”首页“:”414“,”doi“:”10.1145\\3330345.3330382“,”卷标题“:”国际超级计算大会论文集“,”作者“:”兹拉特斯基-亚历山大“,”年份“:”2019“,”非结构化“:”亚历山大·兹拉特斯基、贾震、李凯和弗雷多·杜兰德2019。现代CPU上高效FFT和winograd卷积的剖析。在超级计算国际会议记录中。414\u2013424.“}],”container-title“:[”ACM Transactions on Architecture and Code Optimization“],”original-title”:[],”language“:”en“,”link“:[{”URL“:”https:\/\/dl.ACM.org\/doi\/pdf\/10.1145\/3632956“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-checking“}]“deposed”:{“date-parts”:[2024,1,19]],“日期时间”:“2024-01-19T12:41:43Z“,”timestamp“:1705668103000},”score“:1,”resource“:{”primary“:{”URL“:”https:\/\/dl.acm.org\/doi\/10.1145\/3632956“}},“subtitle”:[],“shorttitle”:[],“issued”:{“date-parts”:[2024,19]]},‘references-count’:63,‘journal-sissue’:{‘issue':‘1’,‘published-print’:日期部分“:[[2024,3,31]]}},”alternative-id“:[”10.1145\/3632956“],”URL“:”http:\/\/dx.doi.org\/10.1145\/3632956“,”关系“:{},”ISSN“:[”1544-3566“,”1544-3973“],”ISSN-type“:[{”值“:”1544-2566“,”类型“:”打印“},{”价值“:”544-3973 4“,”order“:0,”name“:”received“,”label“:”received“,“group”:{“name”:“publication_history”,“label”:“publication history”}},{“value”:“2023-10-30”,“order”:1,“name”:“accepted”,“table”:“accepted(接受)”,“group”:{“name”:“publication_历史”,“标签”:“publication history(发布历史)}}}