×

作者归属的混沌游戏表示。 (英语) Zbl 07698045号

摘要:作者归属任务假设存在多个由不同作者编写的文档示例,必须确定谁编写了给定的匿名文本。对于每一位作者,都假设了一种特定的写作风格,其特点是作者自己都不知道的。写作风格就像指纹一样,多年来已经证明一位作者的各种特征是一致的。混沌游戏表示(Chaos Game Representation)是一种从核苷酸序列创建图像的方法,经过修改后可以从文本文档块中生成图像。文本被转换为类似于指纹的表示,指纹用于检查不同作者文本中此类标记中存在的模式之间的相似性。结果表明,这种表达方式编码了作者写作风格的足够特殊性,使该方法在该领域具有竞争力,具有历史和当前重要性。

MSC公司:

68泰克 人工智能
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Stamatatos,E.,《现代作者归属方法调查》,《美国社会科学杂志》。技术。,60, 3, 538-556 (2009)
[2] 张,C。;吴,X。;牛,Z。;丁伟,非结构化文本的作者识别,知识-基于系统。,66, 99-111 (2014)
[3] Holmes,D.I.,作者归属,计算机。人类。,28, 2, 87-106 (1994)
[4] Neme,A。;Pulido,J。;穆尼奥斯,A。;埃尔南德斯,S。;Dey,T.,基于自组织映射的文体学分析和作者归因算法,神经计算。(《自组织地图进展》特刊副标题:2012年自组织地图研讨会论文选集。《自组织地图进展》特刊副标题:2012年自组织地图研讨会论文集,WSOM 2012(2012),147,147-159(2015)
[5] 阿拉姆,H。;Kumar,A.,《多语言作者识别和语言特征提取——一种机器学习方法》,(2013年IEEE国土安全技术国际会议,2013年IEEE-国土安全技术世界会议,HST(2013)),386-389
[6] Juola,P.,《文体与移民:案例研究》,《法律政策》,21,287-725(2013)
[7] 库塔,M。;Kitowski,J.,《字符n-gram轮廓优化内在剽窃检测方法》,500-511(2014),Springer International Publishing:Springer国际出版公司Cham
[8] 罗森布卢姆,N。;朱,X。;米勒,B.P.,《谁编写了这部法典》?《识别程序二进制文件的作者》,172-189(2011),施普林格柏林-海德堡:施普林格-柏林-海德堡-柏林,海德堡
[9] Mosteller,F。;Wallace,D.,《推论与争议作者:联邦主义者》,《行为科学中的艾迪生-韦斯利系列》(1964),艾迪生·韦斯利·Zbl 0122.14106号
[10] Savoy,J.,《重温联邦党人文件:协作归因方案》,Proc。美国社会信息科学。技术,50,1,1-8(2013)
[11] Juola,P.,《传统作者归属子任务概述》(Forner,P.;Karlgren,J.;Womser-Hacker,C.,CLEF(在线工作笔记/实验室/研讨会)(2012))
[12] Stamatatos,E。;Daelemans,W。;Verhoeven,B。;Juola,P。;洛佩兹·洛佩兹,A。;Potthast,M。;Stein,B.,《2015年PAN作者识别任务概述》,(Cappellato,L.;Ferro,N.;Jones,G.J.F.;SanJuan,E.,《2015年度CLEF工作笔记-评估论坛的会议和实验室》,法国图卢兹,2015年9月8日至11日。2015年CLEF工作说明-评估论坛的会议和实验室。2015年CLEF工作说明——评估论坛会议和实验室,法国图卢兹,2015年9月8日至11日,CEUR研讨会记录,CEUR-WS.org,第1391卷(2015))
[13] 科佩尔,M。;Schler,J.,《利用文体特质进行作者归属》(IJCAI'03风格分析与合成计算方法研讨会(2003)),69-72
[14] 加西亚,a.M。;Martín,J.C.,《在有争议的联邦党人文件上测试三角洲》,《国际期刊英语》。螺柱,12,2,133-150(2012)
[15] Hinh,R。;Shin,S。;Taylor,J.,《在作者归属中使用框架语义》,(2016 IEEE系统、人和控制论国际会议,2016 IEEE国际系统、人与控制论会议,SMC(2016)),004093-004098
[16] Oliveira,W。;Justino,E。;Oliveira,L.S.,《比较作者归属的压缩模型》,《法医科学》。国际,228,1,100-104(2013)
[17] 科佩尔,M。;施勒,J。;Argamon,S.,《作者归属中的计算方法》,J.Am.Soc.Inf.Sci。技术。,60,1,9-26(2009年)
[18] Burrows,J.,Delta:风格差异的度量和可能的作者指南,Lit。语言学家。计算。,17, 3, 267 (2002)
[19] Jeffrey,H.J.,基因结构的混沌博弈表示,核酸研究,18,8,2163-2170(1990)
[20] 马塔·托莱多,R.A。;马修·J。;Willis,A.,《使用混沌游戏算法确定文本作者》,(麦迪逊大学,《在文学与科学学会会议上的发言》,麦迪逊学院,《文学与科学协会会议上的讲话》,SLS’96(1996年10月10日至13日))
[21] Shrestha,P。;塞拉,S。;F.González。;蒙特斯,M。;罗索,P。;Solorio,T.,用于短文本作者归属的卷积神经网络, (计算语言学协会欧洲分会第15届会议记录:第2卷,短文,计算语言学协会cs,西班牙巴伦西亚(2017)),669-674
[22] 钱,C。;He,T。;Zhang,R.,基于深度学习的作者鉴定(2017),斯坦福大学技术代表。
[23] Mohsen,A.M。;新墨西哥州埃尔·马基。;Ghanem,N.,《使用深度学习进行作者识别》,(2016年第15届IEEE机器学习和应用国际会议,2016年第十五届IEEE国际机器学习与应用会议,ICMLA(2016)),898-903
[24] Wang,Y。;Hill,K。;辛格,S。;Kari,L.,《基因组特征谱:从二核苷酸到混沌博弈表示》,《基因》,346173-185(2005)
[25] Karamichalis,R。;卡里,L。;Konstantinidis,S。;Kopecki,S。;Solis-Reyes,S.,基因组签名的加性方法,BMC生物信息。,17, 1, 313 (2016)
[26] Deschavanne,P.J。;Giron,A。;维兰,J。;Fagot,G。;Fertil,B.,《基因组特征:通过序列的混沌博弈表示评估物种的特征和分类》,《分子生物学》。演变。,16, 10, 1391-1399 (1999)
[27] Krizhevsky,A。;Sutskever,I。;Hinton,G.E.,深度卷积神经网络的Imagenet分类(第25届神经信息处理系统国际会议论文集-第1卷)。第25届神经信息处理系统国际会议论文集-第1卷,NIPS’12(2012),Curran Associates Inc.:Curran Associates Inc.USA),1097-1105
[28] 斯托恩,C。;Lichtblau,D.,《利用混沌游戏表征和深度学习进行作者识别》,《数学》,第8期,第11期(2020年)
[29] Lichtblau,D.,使用FCGR和信号处理的无比对基因组序列比较,BMC Bioinform。,20, 742 (2019)
[30] Lichtblau,D。;Stoean,C.,通过图像进行文本文档编码以确定作者身份,(Dutoit,T.;Martín-Vide,C.;Pironkov,G.,《统计语言和语音处理》(2018),Springer International Publishing:Springer国际出版公司Cham),178-189
[31] Golub,G.H。;Reinsch,C.,奇异值分解和最小二乘解,数值。数学。,14, 5, 403-420 (1970) ·Zbl 0181.17602号
[32] I.Wolfram Research,Mathematica 11(2018)。
[33] 刘易斯,D.D。;Yang,Y。;Rose,T.G。;Li,F.,RCV1:文本分类研究的新基准集合,J.Mach。学习。研究,5361-397(2004)
[34] O.Fourkioti。;Symeonidis,S.公司。;Arampatzis,A.,《语言建模与基于实例的方法以及用于作者归属的特征组合的比较研究》,(Kamps,J.;Tsakonas,G.;Manolopoulos,Y.;Iliadis,L.;Karydis,I.,《数字图书馆的研究与高级技术》(2017),Springer International Publishing:Springer国际出版公司Cham), 274-286
[35] Escalante,H.J。;Solorio,T。;Montes-y Gómez,M.,作者归属的字符n图的局部直方图,(计算语言学协会第49届年会论文集:人类语言技术-第1卷)。计算语言学协会第49届年会会议记录:人类语言技术-第1卷,HLT’11(2011),计算语言学协会:计算语言学协会,宾夕法尼亚州斯特鲁兹堡,美国),288-298
[36] 美国萨科塔。;Bethard,S。;y Gómez,M.M。;Solorio,T.,《并非所有字符的n-gram都是平等生成的:作者归属研究》,(《人类语言技术:2015年ACL北美分会年会》(2015)),93-102
[37] 萨里,Y。;瓦拉科斯,A。;Stevenson,R.,《作者归属的连续n-gram表示法》(Lapata,M.;Blunsom,P.;Koller,A.,计算语言学协会欧洲分会。计算语言学协会欧盟分会,EACL 2017,第2卷(2017),ACL)
[38] Plakias,S。;Stamatatos,E.,《作者身份识别的张量空间模型》,239-249(2008),施普林格·柏林-海德堡:施普林格-柏林-海德堡-柏林,海德堡
[39] Stamatatos,E.,使用文本失真进行作者归属,(计算语言学协会欧洲分会第十五届会议论文集:第1卷,长论文(2017),计算语言学协会:西班牙巴伦西亚计算语言学协会),1138-1149
[40] 美国萨科塔。;Solorio,T。;Montes-y Gómez,M。;Rosso,P.,《正交相似关系在作者预测中的应用》,463-475(2013),施普林格-柏林-海德堡:施普林格
[41] 塞鲁西,Y。;祖克曼,我。;Bohnert,F.,主题模型的作者归属,计算。语言学家。,40269-310(2014年)
[42] Frantzeskou,G。;Stamatatos,E。;Gritzalis,S。;Chaski,C.E。;Howald,B.S.,《通过字节级n-grams识别作者身份:源代码作者配置文件(SCAP)方法》,国际数字杂志。显然。,6, 1 (2007)
[43] Potthast,M。;Braun,S。;Buz,T。;达夫豪斯,F。;Friedrich,F。;Gülzow,J.M。;科勒,J。;W·Lötzsch。;缪勒,F。;缪勒,M.E。;帕曼,R。;Reinke,B。;Rettenmeier,L。;Rometsch,T。;索默,T。;Träger,M。;威廉·S。;斯坦因,B。;Stamatatos,E。;Hagen,M.,谁写了网络?《重温适用于信息检索的影响性作者识别研究》,393-407(2016),Springer International Publishing:Springer国际出版社Cham
[44] 西杰·提阿汉。;Harper,D.J.,《使用基于压缩的语言模型进行文本分类》,141-165(2003),施普林格荷兰:施普林格荷属多德雷赫特·Zbl 1089.68558号
[45] 基奥,E。;Lonardi,S。;Ratanamahatana,C.A.,《迈向无参数数据挖掘》,(第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD’04(2004),计算机械协会:美国纽约州纽约市计算机械协会),206-215
[46] Veenman,C。;Li,Z.,压缩特征的作者验证,(CEUR研讨会论文集,第1179卷(2013年1月))
[47] 埃弗特,S。;Proisl,T。;贾尼迪斯,F。;雷格,I。;Pielström,S。;Schöch,C。;Vitt,T.,理解和解释作者归属的Delta度量,Digit。学者。人类。,32,补充2,ii4-ii16(2017)
[48] 普罗伊斯,T。;埃弗特,S。;贾尼迪斯,F。;Schöch,C。;Konle,L。;Pielström,S.,《Delta与n-gram追踪:评价作者归属方法的稳健性》,(第十一届国际语言资源与评价会议论文集。第十一届语言资源与评估国际会议论文集,2018年LREC,欧洲语言资源协会(ELRA):欧洲语言资源协会(ELRA),日本宫崎)
[49] Akiva,N.,使用二进制BOW特征检测作者和剽窃,(CLEF 2012(2012)PAN笔记本)
[50] Ruder,S。;Ghaffari,P。;Breslin,J.G.,用于大规模作者归属的特征级和多通道卷积神经网络(2016),CoRR
[51] Juola,P.,《计算机程序如何帮助J.K.Rowling书写布谷鸟的呼唤》(2013年8月)
[52] 扎克斯,D.,计算机是如何发现J.K.罗琳的笔名的?(2014年4月)
[53] Juola,P.,《罗琳案例:作者问题的拟议标准分析协议》,Digit。学者。人类。,30、i100-i113(2014)
[54] 瓦雷拉,P。;Justino,E。;Oliveira,L.S.,为作者归属选择句法属性,(2011年神经网络国际联合会议(2011)),167-172
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。