{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部件”:[[2023,9,3]],“日期-时间”:“2023-09-03T05:41:20Z”,“时间戳”:1693719680898},“引用-计数”:30,“发布者”:“威利”,“问题”:“13”,“许可证”:[{“开始”:{-“日期-零件”:[2014,1,28]],-28T00:00:00Z“,”时间戳“:1390867200000},“content-version”:“vor”,“delay-in-days”:0,“URL”:“http://\/onlinelibrary.wiley.com/termsAndConditions#vor”}],“出资人”:[{“DOI”:“10.13039\/501100001871”,“name”:“Funda\u00e7\u00e3o para a Ci\u00eancia e a Tecnologia”,“DOI-asserted-by”:“publisher”,“奖项”:[“PTDC\/EIA-EIA\/102212\/2008”]}],“内容域”:{“域”:[],“交叉标记限制”:false},“short-container-title”:[“并发与计算”],“published-print”:{“日期部分”:[[2015,9,10]]},“摘要”:“摘要<\/jats:title>稀疏矩阵\u2010矢量乘法在许多科学和工业问题中占据主导地位。例如,求解线性系统的迭代方法通常依赖于此关键操作的性能。二进制矩阵的特殊情况出现在计算的几个重要领域,如图论和密码学。不幸的是,不规则的内存访问模式会导致内存吞吐量降低,从而降低此操作的速度。为了最大限度地提高内存吞吐量,我们将矩阵转换为直接的2010行程序,该程序利用CPU的指令缓存和硬件预取器。程序的常规无环模式减少了缓存未命中,从而减少了大多数指令的延迟。我们专注于广泛使用的x86_64<\/jats:styled-content>体系结构和二进制矩阵,探讨有关内存访问策略和代码大小的几个可能的权衡。我们还考虑在各种数学结构上包含元素的矩阵,例如浮点实数和整数模m<\/jats:italic>。与压缩行存储实现相比,我们获得了显著的加速。版权所有\u00a9 2014 John Wiley&Sons,Ltd快速稀疏矩阵\u2010line直线程序\u2010-矢量乘法”],“前缀”:“10.1002”,“卷”:“27”,“作者”:[{“给定”:“塞缪尔”,“家族”:“内维斯”,“序列”:“第一个”,“从属关系”:[}“名称”:“葡萄牙科英布拉科英布拉大学信息工程系”}]},{“给出”:“菲利佩”,“家庭”:“Araujo”,”序列“:”附加”,“附属机构”:[{“名称”:“CISUC信息工程系,科英布拉-科英布拉-葡萄牙大学”}]}],“成员”:“311”,“在线发布”:{“日期部分”:[〔2014,1,28〕},“参考”:[{“密钥”:“e_1_2_9_2_1”,“doi断言者”:“publisher”,“doi”:“10.1137\/1.9780898719574”},{“密钥”:“e_1_2_9_3_1”,“doi断言者”:“publisher”,“doi”:“10.1007\/BFb0091537“},{“key”:“e_1_2_9_4_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1007\/3-540-49264-X_9“}”,{”key“:”e_1_i_9_5_1“,”doi-assert-by“:”publisher“,“doi”:“10.1109\/TIT.1986.1057137”},“key“:”e_2_9/6_1“”,“首页”:“333”,“article-title”:“求解齐次线性方程通过块Wiedemann算法“,”体积“:”62“,”作者”:“Coppersmith D”,“年份”:“1994”,“期刊标题”:“数学计算”},{“密钥”:“e_1_2_9_7_1”,“卷标题”:“图谱”,“作者”:“Cvetkovic DM”,“年份”:“1995”},{“密钥”:“e_1_2_9_8_1”,“doi断言者”:“出版商”,“doi”:“10.1007\/978-3-540-75651-4_5”},{“密钥”:“e_1_2_9_9_1”,“系列标题”:“CRYPTO\u201910“,”卷标题“:”《第30届密码学进展年会论文集》,“作者”:“Kleinjung T”,“年份”:“2010”},{“key”:“e_1_2_9_10_1”,“doi-asserted-by”:“crossref”,”unstructured“:”KleinhungT NussbaumL Thom\u00e9E.使用网格平台求解GF(2)上的大型稀疏线性系统。第11届ACM \/IEEE网格计算国际会议(网格2010)比利时布鲁塞尔,2010年;161\u2013168。可从以下网址获取:http://\/hal.archives\u2010ouvertes.fr\/inria\u201000502899\/PDF\/grid.PDF[2014年1月20日访问]。“,”DOI“:”10.1109\/GRID.2010.5697952“},{”key“:”e_1_2_9_11_1“,”series-title“:”EUROCRYPT'00“,”volume-title“:“第十九届密码技术理论与应用国际会议论文集”,“author”:“Courtois N”,“year”:“2000”},“key”:“e_1_c_9_12_1”,“DOI-asserted-by”:“publisher”,“DOI”:“”10.1007\/978\u20103\u2010540\u201074619\u20105_19“},{”key“:”e_1_2_9_13_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1007\/978\u201032\u201033027\u20108_21”},“key”:“e_1_i_9_14_1”,“doi-assert-by”:“crossref”,”unstructured“:”VuducR DemmelJW YelickKA KamilS NishtalaR LeeB公司。稀疏矩阵\u2010vector multiply Proc的性能优化和界限。ACM \/IEEE Conf.超级计算(SC)Baltimore MD USA 2002;2013年1月35日。网址:http://\/portal.acm.org\/citation.cfm?id=762822[于2014年1月20日访问]。“,”DOI“:”10.1109\/SC.2002.10025“},{”key“:”e_1_2_9_15_1“,”unstructured“:”ImEJ.2000.优化稀疏矩阵的性能\u2010矢量乘法博士论文EECS系加州大学伯克利分校。可从http://www.EECS.Berkeley.edu\/Pubs\/TechRpts\/2000\/5556.html获取[于2014年1月20日访问]。“}”,{“key”:“e_1_2_9_16_1“,“doi-asserted-by”:“publisher”,“doi”:“10.1145\/1583991.1584053”},{“key”:“e_1_i_9_17_1”,”非结构化“:”PothenA.1997.科学计算应用中的图分块算法。技术报告Old Dominion University Norfolk VA USA国际计算科学会议论文集\u2010第I部分“,”作者“:”Im EJ“,”年份“:”2001“},{”key“:”e_1_2_9_1“,“非结构化”:“FogA.英特尔AMD和VIA CPU的微体系结构:面向汇编程序员和编译器制造商的优化指南(2012)。可从以下网址获得:http://www.agner.org\/optimize\/#manuals[于2014年1月20日访问]。“},{”key“:”e_1_2_9_20_1“,”unstructured“:”Intel Corporation.Intel 64 and IA\u201032 Architectures Software Developer's Manual Volumes 2A 2B&2C:Instruction Set Reference.325383\u2010044(2013)。可从以下网址获得:http://\/download.Intel.com/products\/processor\/Manual\/325383.pdf[2014年1月20日访问]。“}VuducRW。2003年12月。稀疏矩阵内核的自动性能调整。加州大学伯克利分校博士论文。“},{”key“:”e_1_2_9_22_1“,”doi-asserted-by“:”publisher“,”doi“:”10.1177\/1094342041296“}”,{“key”:“e_1_i_9_23_1”,”series-title“:”Journal of Physics:Conference series“,”volume-title“:“Proceedings of SciDAC 2005”,“author”:“Vuduc R”,“year”:“2005”},”{“密钥”:“e_1_29_24_1”、“doi-assert-by”:“publisher”,“DO”I“:”10.1145\/1837210.1837224“},{“键”:“e_1_2_9_25_1“,”非结构化“:”StachP。NFS线性代数优化。CADO整数因子分解Villers\u2010l\u00e8s\u2010Nancy France 2008研讨会。可从以下网址获得:http://\/cado.gforge.inria.fr\/workshop\/abstracts.html【2014年1月20日访问】。“},{”key“:”e_1_2_9_26_1“,”volume-title“:”SODA“,”author“:”Williams R“,”year“:”2007“}”,{“key”:“e_1_i_9_27_1”,”first page“:“1209”,”article-title”:“On conomicial construction of the transived closure of an oriented graph”,“volume”:”11“,”“author”:“Arlazarov VL”,“year”:“1970”,“journal title”:”“苏维埃数学Doklady”},“key e_1_2_9_28_1“,”非结构化“:”BernsteinDJ。优化线性映射模块2 SPEED\u2010CC车间记录:德国柏林2009年加密解密和密码编译器软件性能增强;3\u201319.“},{”key“:”e_1_2_9_29_1“,”首页“:”1171“,”文章标题“:”关于整流器和触点\u2010整流器电路“,”卷“:”111“,”作者“:”卢帕诺夫OB“,“年”:“1956”,”杂志标题“:“Doklady Akademii Nauk SSSR”},”key:“e_1_i_9_30_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1145\/178243.178249“},{”键“:”e_1_2_9_31_1“,”doi-asserted-by“:”publisher“,”DOI“:”10.1177\/10943400001400303“}],”container-title“:[”并发与计算:实践与经验“],”original-title”:[],“language”:“en”,“link”:[{“URL”:“https:\/\/api.wiley.com\/onlinelibrary\/tdm\/v1\/articles \/10.10002%2Fcpe.3211”,“content-type”:“unspecified”,“content-version”:“vor”,“intended-application”:“text-mining”“},{”URL“:”https:\/\/onlinelibrary.wiley.com//doi\/pdf\/10.1002\/cpe.3211“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-checking“}],”deposed“:{”date-parts“:[2023,9,2],”date-time“:“2023-09-02T12:52:39Z”,“timestamp”:1693659159000},“score”:1,“resource”:{“primary”:{“URL”:“https:\/\/onlinelibrary.wiley.com/doi\/10.1002\/cpe.3211“}},”副标题“:[],”短标题“:[],”已发布“:{”日期-部分“:[[2014,1,28]]},“参考计数”:30,”日志发布“:}”问题“:“13”,”发布-打印“:{”日期-部件“:[2015,9,10]}}”替代id“:[”10.1002\/cpe.2211“],”URL“:”http://\/dx.doi.org\/10.1002\/cpe.3211“,”存档“:[”Portico“],“关系“:{},”ISSN“:[”1532-0626“,”1532-0.634“],”ISSN-type“:[{”value“:”1532-00626“,“type”:“print”},{”value“:“1532-0634”,“type”:“electronic”}],“subject”:[],“published”:{“date-parts”:[[2014,1,28]]}}}}