{“status”:“ok”,“message type”:“work”,“message version”:“1.0.0”,“message”:{“indexed”:{“date parts”:[[2024,5,17],“date time”:“2024-05-17T05:57:09Z”,“timestamp”:1715925429009},“publisher location”:“Cham”,“reference count”:39,“publisher”:“Springer International Publishing”,“isbn type”:[{“value”:“9783030801250”,“type”:“print”},{“value”:“9783030801267”,“type”:“electronic”}],“license”:[{“start”:{“date parts”:[[2021,1,1]],“date-time”:“2021-01-01T00:00:00Z”,“timestamp”:1609459200000},“content-version”:“tdm”,“delay in days”:0,“URL”:“https://www.springer.com\/tdm”},{“start”:{“date parts”:[[2021,1,1]],“date-time”:“2021-01T00:00:00Z”,“timestamp”:1609459200000},“内容版本”:“vor”,“delay-in-days”:0,“URL”:“https:\/\/www.springer.com\/tdm”}],“content-domain”:{“domain”:[“link.springer.com”],“crossmark-restriction”:false},“short-container-title”:[],“published-print”:{“date-parts”:[[2021]]},”DOI“:”10.1007\/978-3-030-80126-7_35“,”类型“:”book-chapter“,”创建“:{”date-part“:[[2021,7,6]],“日期-时间”:“2021-07-06T11:11:23Z”,“时间戳”:1625569883000},“页面”:“473-491”,“更新策略”:“http://\/dx.doi.org\/10.1007\/springer_crossmark_policy”,“源”:“Crossref”,”is-referenced-by-count“:5,”title“:[”深度学习应用程序的分层Roofline性能分析“],”prefix“:”10.1007“,”author“:[{”given“:”Charlene“,”family“:”Yang“,”sequence“:”first“,”affiliation“:[]},{“given”:“Yunsong”,“family”:“Wang”,“sequence”:“additional”,“affiliation”:[]neneneep,{”given“:”Thorsten“,”family“:”Kurth“,”sequence“:”additional“,”affiliance“:[]{”fixed“:”Steven],“成员”:“297”,“published-online”:{“date-parts”:[[2021,7,7]]},“reference”:[{“key”:“35_CR1”,“unstructured”:“apex.amp.2020年10月15日访问”},{“键”:“35 _CR2”,“非结构化”:“CUDA C++wmma API”}、{“密钥”:“35.CR3”、“非结构化的”:“CUDA cuBLAS库”}:“35_CR5”,“非结构化”:“TensorFlow的确定性分析”},{“key”:“35_CR6”,“unstructured”:“经验Roofline Toolkit(ERT)。于2020年10月15日访问”},{“key”:“35_CR10”,“unstructured”:“NVIDIA CUPTI API reference guide”},{“密钥”:“35 _CR11”,“非结构化”:“恩维迪亚开发人员工具概述。2020年10月15日访问”},“非结构化”:“NVIDIA GPU上的Roofline方法”},{“key”:“35_CR15”,“doi-asserted-by”:“crossref”,“非结构”:“Chen,L.-C.,Zhu,Y.,Papandreou,G.,Schroff,F.,Adam,H.:用于语义图像分割的带atrous可分离卷积的编码器-解码器。摘自:《欧洲计算机视觉会议论文集》,2018年9月。”,“DOI”:“10.1007\/978-3-030-01234-2_49”},{“key”:“35_CR16”,“unstructured”:“Chetlur,S.,et al.:cuDNN:深度学习的有效原语。arXiv预印本arXiv:1410.0759(2014)”}、{“key”:《35_CR17》,“DOI-asserted-by”:“crossref”,“非结构化”:“Choi,J.W.,Bedard,D.,Fowler,R.,Vuduc,R.:能量的屋顶线模型。在:2013 IEEE第27届并行和分布式处理国际研讨会,pp.661\u2013672(2013)“,”DOI“:”10.1109\/IPDPS.2013.77“},{”key“:”35_CR18“,”DOI断言“:”crossref“,”非结构化“:”Ben,M.D.,Yang,C.,Louie,S.,Deslippe,J.:加速混合GPU-CPU系统上的大规模GW计算。Bull.Am.Phys.Soc.65(2020)“,”DOI“:”10.1109\/SC41405.2020.00008“},{“key”:“35_CR19”,“DOI-asserted-by”:“crossref”,“unstructured”:“Ding,N.,Williams,S.:GPU的指令顶层模型。收录于:2019 IEEE\/ACM高性能计算机系统的性能建模、基准测试和仿真(PMBS),第7\u201318页。IEEE(2019)“,“DOI”:“10.1109\/PMBS49563.2019.0007”},{“key”:“35_CR20”,“DOI-asserted-by”:“crossref”,“unstructured”:“Doerfler,D.等人:将屋顶线性能模型应用于Intel Xeon Phi骑士着陆处理器。摘自:高性能计算国际会议,第339\u2013353页。Springer(2016)“,“DOI”:“10.1007\/978-3-319-46079-6_24”},{“key”:“35_CR21”,“DOI-asserted-by”:“crossref”,“unstructured”:“Gayatri,R.,Yang,C.,Kurth,T.,Deslippe,J.:使用OpenMP 4.5实现性能可移植性的案例研究。摘自:加速器编程使用指令国际研讨会,第75\u201395页。Springer(2018)“,“DOI”:“10.1007\/978-3-030-12274-4_4”},{“key”:“35_CR22”,“unstructured”:“Goodfellow,I.等:生成对抗网。In:神经信息处理系统进展,第2672\u20132680页(2014)”}、{“key”:”35_CR23“,”DOI-asserted-by“:”crossref“,”unstructure“:”Ibrahim,K.Z.,Williams,S.,Oliker,L.:使用屋顶线缩放轨迹的FF GPU编程模型的性能分析。摘自:《标杆管理、测量和优化国际研讨会》,第3\u201319页。Springer(2019)“,”DOI“:”10.1007\/978-3-030-49556-5_1“},{”issue“:”3“,”key“:”35_CR24“,”DOI-asserted-by“:”publisher“,”first page“:“224”,“DOI”:“10.1007\/s42514-019-00018-4”,“volume”:“1”,“author”:“MH Javed”,“year”:“2019”,“unstructured”:“Javed,M.H.,Ibrahim,K.Z.,Lu,X.:使用屋顶线轨迹对深度学习工作量进行性能分析。CCF变速器。高性能计算。1(3),224\u2013239(2019)“,“日记标题”:“CCF事务。高性能计算。},{“key”:“35_CR25”,“doi-asserted-by”:“crossref”,“unstructured”:“Joubert,W.等人:打击阿片类流行病:确定慢性疼痛和阿片类成瘾的上位性和多效性遗传结构。摘自:SC18:高性能计算、网络、存储和分析国际会议,第717\u2013730页。IEEE(2018)“,“DOI”:“10.1109\/SC.2018.00060”},{“key”:“35_CR26”,“DOI-asserted-by”:“crossref”,“unstructured”:“Kokela,T.,et al.:用于性能表征的新型多级集成屋顶线模型方法。见:高性能计算国际会议,第226\u2013245页。Springer(2018)“,“DOI”:“10.1007\/978-3-192040-5_12”},{“key”:“35_CR27”,“DOI-asserted-by”:“crossref”,“unstructured”:“Kurth,T.等人:气候分析的Exascale深度学习。摘自:SC18:高性能计算、网络、存储和分析国际会议,第649\u2013660页。IEEE(2018)“,”DOI“:”10.1109\/SC.2018.00054“},{“问题”:“10”,“关键”:“35_CR28”,“首页”:“1995”,“卷”:“3361”,“作者”:“Y LeCun”,“年份”:“1995”,“非结构化”:“LeCun,Y.,Bengio,Y.等:图像、语音和时间序列的卷积网络。Handb.脑理论神经网络.3361(10),1995(1995)”,“日志标题”:“把手b。脑理论神经网络。“},{”key“:”35_CR29“,”doi-asserted-by“:”crossref“,”unstructured“:”Lopes,A.,Pratas,F.,Sousa,L.,Ilic,A.:通过缓存软件屋顶线建模探索GPU性能、功率和能效边界。摘自:2017 IEEE系统和软件性能分析国际研讨会(ISPASS),第259\u2013268页(2017)“doi”:“10.1109 \/ISPASS.2017.7975297“},{“key”:“35_CR30”,“doi-asserted-by”:“crossref”,“unstructured”:“Madsen,J.R.,et al.:Timemory:HPC的模块化性能分析。In:高性能计算国际会议,pp.434\u2013452。Springer(2020)”,“DOI”:“10.1007\/978-3-030-50743-5_22”},{“key”:“35_CR31”,“unstructured”:“特斯拉NVIDIA.V100 GPU架构。世界上最先进的数据中心GPU。版本WP-08608-001_v1。1.英伟达。Aug,p.108(2017)“},{”key“:”35_CR32“,”unstructured“:”Okuta,R.,Unno,Y.,Nishino,D.,Hido,S.,Loomis,C.:CuPy:NVIDIA GPU计算的numpy-compatible库。摘自:《第三十一届神经信息处理系统年会(NIPS)机器学习系统(LearningSys)研讨会论文集》(2017)35_CR33“,”doi-asserted-by“:”crossref“,”unstructured“:”Wang,Y.,Yang,C.,Farrel,S.,Zhang,Kurth,Y.T.,Williams,S.:基于时间的深入学习绩效分析屋顶线。在:2020 IEEE\/ACM超级计算机深度学习研讨会(2020,已提交)“,”DOI“:”10.1109\/DLS51937.2020.00007“},{”key“:”35_CR34“,”DOI断言“:”crossref“,”非结构化“:”Williams,S.、Waterman,A.、Patterson,D.:Roofline:浮点程序和多核架构的一种有见地的可视化性能模型。技术报告,劳伦斯伯克利国家实验室(LBNL),加利福尼亚州伯克利,美国(2009)“,“DOI”:“10.2172”},{“key”:“35_CR35”,“unstructured”:“Yang,C.:NVIDIA V100 GPU上3.7 TFLOP的8个步骤:Roofline分析和其他技巧”}Yang,C.:分层屋顶线分析:如何在Intel CPU和NVIDIA GPU上使用性能工具收集数据“},{“key”:“35_CR37”,“unstructured”:“Yang,C,Friesen,B.,Kurth,T.,Cook,B.,Williams,S.:在cray系统上实现自动化应用程序评测。In:cray User Group Conferencecrossref”,“非结构化”:“Yang,C.等人:定量评估性能可移植性的经验屋顶线方法。摘自:2018 IEEE \/ACM HPC性能、便携性和生产力国际研讨会(P3HPC),第14\u201323页。IEEE(2018)“,”DOI“:”10.1109\\P3HPC.2018.00005“},{”key“:”35_CR39“,”DOI断言“:”crossref“,”首页“:”e547“,”DOI“:”10.1002\\cpe.5547“,”卷“:”32“,”作者“:”C Yang“,”年份“:”2019“,”非结构化“:”Yang,C.,Kurth,T.,Williams,S.:GPU的分层屋顶线分析:加速NERSC-9 perlmutter系统的性能优化。同意。计算。实际。Exp.32,e5547(2019)“,“日志标题”:“同意。计算。实际。Exp.“}”,“container-title”:[“网络和系统中的课堂讲稿”,“智能计算”],“original-title“:[],“link”:[{“URL”:“https:\\//link.springer.com/content\/pdf\/10.1007\/978-3-030-80126-7_35”,“content-type”:“unspecified”,“content-version”:“vor”,“intended-application”:“similarity-checking”}],“deposed”:{“date-parts”:[2023,11,5]],“date-time“:”2023-11-05T18:11:11Z“,”timestamp“:1699207871000},”score“:1,”resource“:{主要”:{“URL”:“https:\/\/link.springer.com\/10.1007\/978-3-030-80126-7_35”}},“副标题”:[],“短标题”:[],“已发布”:{“date-parts”:[2021]},《国际标准图书编号》:[“9783030801250”,“97833080126”],“references-count”:39,“URL”:“http://\/dx.doi.org\/10.1007\/978-3-030-80126-7_35”,“关系“:{},”ISSN“:[”2367-3370“,”2367-23389“],”ISSN-type“:[{”value“:”2367-13370“、”type“:”print“}、{”value“:“2367-3389”、“type”:“electronic”}]、“subject”:[]、“published”:{“date-parts”:[2021]}、“assertion”:[{”value:“2021年7月7日”、“order”:1、“name”:“first_online”、“label”:“first online”,“组”:{“名称”:“章节历史”,“标签”:“章历史”}}]}}