{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期-部件”:[[2024,8,8]],“日期-时间”:“2024-08-08T00:12:38Z”,“时间戳”:1723075958387},“参考-计数”:41,“出版商”:“计算机协会(ACM)”,“问题”:“4”,“出资人”:[{“名称”:“本工作得到了中国科学技术部国家重点研发计划的支持”,“奖项”:[“2020YFB1710001”]}],“内容域”:{“域”:[],“交叉标记限制”:false},“短容器标签”:[”Proc.ACM Manag.Data“],“published-print”:{“date-parts”:[2023,12,8]},”abstract“:”长期以来,系统日志被认为是分析和诊断系统故障的宝贵数据。日志处理的一项基本任务是通过日志解析将非结构化日志转换为结构化日志。以前的所有日志解析方法都遵循一个通用框架,该框架首先将每个日志分段为一个标记序列,然后计算两个序列之间的相似性。然而,现有的所有方法都有一个共同的缺点:带有固定分隔符的平面分割无法理解日志的结构信息,导致解析精度低。为了解决这个问题,我们提出了一种新的日志解析方法,AS-Parser。我们的方法引入了一种分层日志分割机制,可以将日志自适应分割为树结构。它可以自动识别适当的分隔符并捕获常见的结构信息。此外,我们提出了三项改进措施,以提高我们方法的有效性和效率。在公共基准测试中,AS-Parser在16个数据集中的14个数据集上表现最佳,平均解析精度为0.943,远远超过现有方法<\/jats:p>“,”DOI“:”10.1145\/3626719“,”type“:”journal-article“,”created“:{”date-parts“:[2023,12,12]],”date-time“:”2023-12-12T19:01:21Z“,”timestamp“:1702407681000},”page“:“,”作者“:[{”ORCID“:”http:\/\/orcid.org/0009-00000-6136-982X”,“已认证的orcid”:false,“给定”:“小雷”,“家族”:“陈”,“序列”:“第一”,“隶属关系”:[{“名称”:“复旦大学,中国上海”}]},{“orcid”:“http:\/\/orcid.org/0000-0002-8136-9621”,“已认证的orcid”:false,“给定”:“彭”,“家族”:“王”,“序列”:“附加”,“隶属关系”:[{“名称”:“中国上海复旦大学“}]},{“ORCID”:“http://\/ORCID.org\/0000-0001-9883-6356”,“authenticated-ORCID”:false,“give”:“Jia”,“family”:“Chen”,“sequence”:“additional”,“affiliation”:[{“name”:“Fudan University,Shanghai,China”}]},{家庭“:”王“,”sequence“:”additional“,”affiliation“:[{”name“:”中国上海复旦大学“}]}],”member“:”320“,”published-on-line“:{”date-parts“:[[2023,12,12]]},”reference“:[}”key“:”e_1_2_1_1_1“,”doi-asserted-by“:”publisher“,”doi“:”10.1109\/ICDE.2019.00211“},{”volume-title“:”前缀图:一种将前缀树与概率图合并的通用日志分析方法。2021年,IEEE第37届国际数据工程会议(ICDE)。IEEE,2411-2422”,“年份”:“2021”,“作者”:“Chu Guojun”,“密钥”:“e_1_2_1_2_1”,“非结构化”:“Chu Guojun,Jingyu Wang,Qi Qi,Haifeng Sun,Shimin Tao,and Jianxin Liao。前缀图:一种将前缀树与概率图合并的通用日志分析方法。2021年,IEEE第37届国际数据工程会议(ICDE)。IEEE,2411--2422.“},{”key“:”e_1_2_1_3_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1109\/ICWS49710.2020.00018”},“volume-title”:“尚伟义和陈振勋”,“year”:“2020”,“author”:“戴和通”,“key”:“e_2_2_4_1”,”unstructured“:”戴和通,李恒,陈车绍,尚伟义,陈振勋。2020。Logram:使用n-gram字典进行有效的日志解析。IEEE软件工程学报(2020年)。“},{”key“:”e_1_1_5_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1109\/TKDE.2018.2875442”},“{”key“:“e_1_i_1_6_1”,“doi-assert-by”:“publisher”,”doi“:”10.1145\/3133956.3134015“}”,{“key”:“e_ 2_1_7_1”,{“卷标”:“通过非结构化日志分析检测分布式系统中的执行异常。在2009年IEEE第九届数据挖掘国际会议上,“作者”:“傅强”,“关键”:“e_1_2_1_8_1”,“非结构化”:“强富,建光楼,王毅,蒋莉。2009。通过非结构化日志分析检测分布式系统中的执行异常。2009年第九届IEEE数据挖掘国际会议。IEEE,149--158.“},{”key“:”e_1_2_1_9_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/3183713.3183746”},“key”:“e_1_i_1_10_1”,“doi-assert-by”:“publisher”,”doi“:”10.1145\/2983323.2983358,{“键”:“e_1_2_1_12_1”,“doi-asserted-by”:“出版商”,“doi”:“10.1145\/3460345”},{“卷-时间”:“树的对齐-树编辑的替代方法。理论计算机科学”,“年份”:“1995”,“作者”:“姜涛”,“键”:“e_1_2_1_13_1”,“非结构化”:“陶江,王路生,张开忠。1995。树对齐是树编辑的替代方法。理论计算机科学,第143卷,第1期(1995年),第137--148页。“10.1145\/2619287.2619290”},{“键”:“e_1_2_1_17_1”,“doi-asserted-by“:”publisher“,”doi“:”10.1145\/3299869.3319892“},{“key”:“e_1_2_1_18_1”,“unstructured”:“John Lafferty Andrew McCallum和Fernando CN Pereira.2001。条件随机场:用于分割和标记序列数据的概率模型。(2001).”},{“key”:“e_1_2_1_19_1”,“nonstructured”:“若天马新周涛桂一鼎谭林阳张立琪黄宣静。2022。无模板的快速调整,用于少量快照NER。(2022)5721---5732.“},{”key“:”e_1_2_1_20_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/1557019.1557154”},“key”:“e_2_2_21_1”,“首页”:“4739”,“文章标题”:“LogAnomaly:非结构化日志中顺序和数量异常的无监督检测”,“卷”:“19”,“作者”:“孟伟宾”,“年份”:“2019”,“非结构化”:“孟伟斌、刘莹、朱一晨、张胜林、丹培、刘玉清、陈一浩、张瑞芝、陶世民、裴孙等2019年。对数异常:无监督检测非结构化日志中的顺序和数量异常。。IJCAI,第19卷。4739--4745.“,”journal-title“:”IJCAI“},{”key“:”e_1_1_22_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/3196321.3196340”},“key”:“e_2_1_23_1”,“doi-assert-by”:“publisher”,”doi“:“10.1109\/TPDS.2013.21”}、{”key“:“e_i_1_24_1”10.1109\/MSR.2010.5463281“},{”卷-标题“:”欧洲机器学习和数据库知识发现联合会议。斯普林格,122-138“,“年份”:“2020年”,“作者”:“内德尔科斯基·萨肖”,“关键”:“e_1_1_25_1”,“非结构化”:“萨肖·内德尔科奇,贾斯敏·博加蒂诺夫斯基,亚历山大·阿克,豪尔赫·卡多佐和奥德杰·高。2020年。自我监督日志分析。https:\/\/github.com//nulog\/nulog。在数据库中的机器学习和知识发现欧洲联合会议上。Springer,122--138.“},{”key“:”e_1_2_1_26_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1016\/0022-2836(70)90057-4”},“key”:“e_1_i_1_27_1”,“unstructured”:“夏宁Geoff Jiang Haifeng Chen and Kenji Yoshira.2014。1HLAer:异构测井分析系统。(2014).“},{”key“:”e_1_1_28_1“,”doi-asserted-by“:”publisher“,“doi”:“10.14778\/3236187.3236207”},},“key”:“e_2_1_29_1”,“doi-assert-by”:“publisher”,”doi“:”10.1109\/ICSE.2015.145“}”,{“volume-title”:“解析大型日志文件的有效方法。2022年IEEE软件维护与发展国际会议(ICSME)。IEEE,1-12”,“年份”:”2022年”,“作者”:“Sedki Issam”,“key”:“e_1_2_1_30_1”,“非结构化”:“Issam Sedki,Abdelwahab Hamou-Lhadj,Otmane Ait-Mohamed,and Mohammed A Shehab。2022.一种分析大型日志文件的有效方法。2022年,IEEE软件维护与发展国际会议(ICSME)。IEEE,1--12.“},{”key“:”e_1_2_1_31_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1109\/ISDFS.2017.7916497”},“key”:“e_1_cu1_32_1”,“doi-assert-by”:“publisher”,”doi“:”10.1109\/IPOM.2003.1251233“}”,{.7367331“},{”卷标签“:”注意力是你所需要的。神经信息处理系统进展”,“年份”:“2017年”,“作者”:“Vaswani Ashish”,“关键字”:“e_1_2_1_34_1”,“非结构化”:“Ashish Vasvani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N Gomez?ukasz Kaiser和Illia Polosukhin。2017年。你所需要的就是关注。神经信息处理系统进展,第30卷(2017年)。“},{”key“:”e_1_1_35_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1109\/ICDM51629.2021.00077”},“key”:“e_2_1_36_1”,“doi-assert-by”:“publisher”,”doi“:”10.1145\/3540250.3549176“}”,{,{“键”:“e_1_2_1_38_1”,“doi-asserted-by”:“出版商”,“doi”:“10.1145\/1081870.1081927“},{“key”:“e_1_2_1_39_1”,“doi-asserted-by”:“publisher”,”doi“:”10.18653\/v1\/2020.emnlp-main.516“}”,{”key“:”e_1_cu1_40_1“,”series-title“:”SIAM journal on computing“,”volume-title“:“树间编辑距离的简单快速算法及相关问题”,“author”:“Zhang Kaizhong”,“year”:“1989”,“unstructured”:“”张开忠和丹尼斯·沙沙。1989.树之间编辑距离的简单快速算法和相关问题。SIAM计算杂志,第18卷,第6卷(1989年),第1245--1262页。“},{“卷-时间”:“2019 IEEE \/ACM第41届软件工程国际会议:软件工程实践(ICSE-SEIP)。IEEE,121-130”,“年份”:“199”,“作者”:“朱杰明”,“密钥”:“e_1_2_1_41_1”,“非结构化”:“朱杰明、何士林、刘金阳、何品嘉、谢琦、郑子斌和迈克尔·吕。2019.自动化日志解析的工具和基准。https:\/\/github.com//logpai\/loghub。2019年,IEEE \/ACM第41届国际软件工程会议:软件工程实践(ICSE-SEIP)。IEEE,121--130.“}],”container-title“:[”ACM数据管理会议记录“],”original-title”:[],”language“:”en“,”link“:[{”URL“:”https:\/\/dl.ACM.org\/doi\/pdf\/10.1145\/3626719“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-checking“}”,“deposed”:{“date-parts”:[2024,8,7]],“日期时间”:“2024-08-07T18:25:48Z“,”timestamp“:1723055148000},”score“:1,”resource“:{”primary”:{“URL”:“https:\/\/dl.acm.org\/doi\/10.1145\/3626719”}},“subtitle”:[],“shorttitle”:[],“issued”:{“date-parts”:[2023,12,8]]},‘references-count’:41,‘journal-sissue’:{‘issue':“4”,‘published-print’:{”日期部分“:[[2023,12,8]]}},”alternative-id“:[”10.1145\/3626719“],”URL“:”http:\/\/dx.doi.org\/10.1145\/3626719“,”关系“:{},”ISSN“:[”2836-6573“],”ISSN-type“:[{”类型“:”电子“,”值“:”28366573“}],”主题“:[],”发布“:{”日期部分“:[2023,12,8]}}}}