{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部件”:[[2024,5,30]],“日期-时间”:“2024-05-30T09:11:54Z”,“时间戳”:1717060314140},“参考-计数”:76,“出版商”:“剑桥大学出版社(CUP)”,“问题”:“5”,“许可证”:[{“开始”:{-“日期-零件”:[2019,9]],:“2019-09-09T00:00:00Z”,“时间戳”:1567987200000},“内容版本”:“未指定”,“延迟天数”:8,“URL”:“https://www.cambridge.org/core\/terms”}],“内容域”:{“域”:[],“交叉标记限制”:false},“短容器标题”:[“国家语言工程”],“已发布印刷品”:{“日期部分”:[[2019,9]]},“摘要”:“摘要<\/jats:title>众所周知,使用为标准语言开发的模型对非标准语言进行部分语音标记会显著降低准确性。通常使用两种方法来改进它:单词归一化,这会降低PoS标记器的异地率;域适配,在域适配中,标记器可以通过将非标准数据添加到标记器\u2019s训练集中进行监督,从而了解非标准语言的变化,或通过原始文本计算的分布信息。本文研究了两种方法,归一化和领域适应,这两种方法都是针对精心构建的数据集(包括历史和用户生成的斯洛文尼亚文本),特别是关注为每种方法生成手动注释数据集所需的工作量,并比较由此产生的PoS准确性。我们对各种设置下的标记器性能进行了定量和定性分析,表明在我们的数据集中,封闭类和开放类单词表现出明显不同的行为,数据中PoS标记的微小不一致也会影响准确性。我们还表明,为了提高标记准确性,最好集中精力获取用于简短注释活动的手动注释规范化训练数据,而当可以进行更实质性的注释活动时,手动生成用于PoS标记的域内训练集会更好。最后,无论可用的训练数据大小如何,通过Brown聚类进行的无监督自适应都同样有用,但当通过域内标记数据进行自适应时,改进往往更大<\/jats:p>“,”DOI“:”10.1017\/s135132491900366“,”type“:”journal-article“,”created“:{”date-parts“:[[2019,9,9]],”date-time“:”2019-09-09T11:13:56Z“,”timestamp“:1568027636000},”page“:“651-674”,“source”:“Crossref”,“is-referenced-by-count”:2,“title”:[“如何标记非标准语言:斯洛文尼亚历史和用户生成文本的规范化与域适应“],”前缀“:”10.1017“,”卷“:”25“,”作者“:[{”给定“:”Katja“,”家庭“:”祖潘“,”序列“:”第一“,”从属“:[]},{”ORCID“:”http://\/ORCID.org\/00000-0001-7169-9152“,“authenticated-ORCID”:false,“给定”:“Nikola”,“family”:“”Ljube\u0161i\u0107“,”sequence“:”additional“,”affiliation“:[]},{”ORCID“:”http://\/ORCID.org\/0000-0002-1560-4099“,”authenticated-ORCID“:false,”given“:“Toma\u017e”,“family”:“Erjavec”,“sequence”:“additional”,“affiliance”:[]{,“member”:“56”,“published-on-line”:{“date-parts”:[2019,9,9]}“,”reference“:[{”key“:”S135132491900366_ref6“,”非结构化“:”Bollmann,M.、Dipper,S.、Krasselt,J.和Petran,F.(2012年)。早期新高中德语历史拼写案例研究的手动和半自动规范化。在KONVENS,第342\u2013350页。“},{”key“:”S135132491900366_ref26“,”first page“:“67”,”article-title“:”JANES v0.4:korpus slovenskih spletnih uporabni\u0161kih vsebin“(JANES 04:斯洛文尼亚用户生成内容语料库”,“volume”:“4”,“author”:“Fi\u0161 er”,“year”:“2016”,“journal-title”:“Sloven\u0161/u010dina 2.0”},{“键”:“S135132491900366_ref9”,“doi-asserted-by“:”publisher“,”doi“:”10.3115\/974147.974178“},{”key“:”S135132491900366_ref17“,”unstructured“:”Eisenstein,J.(2013)。如何处理互联网上的不良语言。《计算语言学协会北美分会会议录》,第359\u2013369页。“}”,{“key”:“S135132991900366_ ref61”,“unstructure”:“Rayson,P.、Archer,D.、Baron,A.、Culpeper,J.和Smith,N.(2007年)。标记吟游诗人:在早期现代英语语料库中评估现代POS标记的准确性。语料库语言学会议论文集:CL 2007。UCREL公司。“},{”key“:”S135132491900366_ref21“,”first page“:“1”,”article-title“:”IMP historical Slovene language resources“,”author“:”Erjavec“,”year“:”2015a“,”journal title“:“language resources and Evaluation”}“key”:“S135132991900366_ ref7”,”unstructured“:”Bollmann,M.,Krasselt,J.,and Petran,F.(2012).历史拼写的手动和半自动规范化-早期新高德语的案例研究。《2012年KONVENS会议录》(LThist 2012 Workshop,pp.342\u2013350。)},{“key”:“S135132491900366_ref4”,“unstructured”:“Bennett,P.,Durrell,M.,Scheible,S.,and Whitt,R.J.(2010)注释德语历史语料库:案例研究。《2010年LREC语言资源和语言技术研讨会论文集:标准——最新发展、新需求和未来发展》,巴黎,第64页,201368Ljube\u0161i\u0107,N.,Klubi\u010dka,F.,Agi\u0117,\u017d,和Jazbec,I.-P.(2016年)。新的屈折词库和训练语料库,用于改进克罗地亚语和塞尔维亚语的形态句法注释。在第十届国际语言资源与评估会议(LREC 2016)上。“},{”key“:”S135132491900366_ref37“,”doi-asserted-by“:”crossref“,”unstructured“:”Kim,Y.,Jernite,Y.、Sontag,D.和Rush,A.M.(2016)。感知字符的神经语言模型。在AAAI中,第2741\u20132749页。“,”doi“:”10.1609\/AAAI.v30i1.10362“}”,{“157”,“doi”:“10.21248 \/jlcl.28.2013.172“,“文章标题”:“Optimierung des Stuttgart-T\u00fcbingen-Tagset f\u00fc语言注释von Korpora zur internetbasierten Kommunikation:Ph\u00e4nomene,Herausforderungen,Erweiterungsvorschl\u00e 4ge”,“卷”:“28”,“作者”:“Bartz”,“年份”:“2014”,“日志标题”:《语言技术与计算语言学杂志》},{“key”:“S135132491900366_ref54”,“unstructured”:“Owoputi,O.,O\u2019Connor,B.,Dyer,C.,Gimpel,K.,Schneider,N.,and Smith,N.A.(2013)。使用词簇改进在线对话文本的部分话语标记。《NAACL-HLT学报》,第380\u2013390页。”},“key“:”S135132491900366_ref10“,”first-page“:”467“,”article-title“:”基于类的自然语言n-gram模型“,”volume“:“18”,”author“:”Brown“,”year“:”1992“,”journal-title”:“计算语言学”},{“key”:“S135132991900366_ ref1”,”unstructured“:”Bahdanau,D.,Cho,K.,and Bengio,Y.(2014).通过联合学习对齐和翻译实现神经机器翻译。arXiv预印本arXiv:1409.0473.“},{”key“:”S135132491900366_ref56“,”doi-asserted-by“:”publisher“,”doi“:”10.3115\/v1\/W14-0605“}”,{“key”:“S135132991900366_ ref39”,“doi-assert-by”:“publisher”,“doi”:“10.3115\/1557769.1557821”},“key“”:”S135.1324919003656_ref33“,”unstructured“:”Han,B.和Baldwin,T.(2011).短消息的词汇规范化:Makn表示#twitter。《计算语言学协会第49届年会论文集:人类语言技术》,第1卷,第368\u2013378页。美国宾夕法尼亚州斯特劳德斯堡:计算语言学协会。检索自http://\/dl.acm.org\/citation.cfm?id=2002472.2002520“},{“key”:“S135132491900036_ref41”,“非结构化”:“Krek,S.,Dobrovoljc,K.,Erjavec,T.,Mo\u017ee,S.,Ledinek,N.和Holz,N.(2015)。训练语料库ssj500k 1.4。斯洛文尼亚语言资源库CLARIN.SI.http:\/\/hdl.handle.net\/11356\/1052.“},{“key”:“S135132491900366_ref66”,“unstructured”:“Scherrer,Y.和Erjavec,T.(2016b)。斯洛文尼亚历史词汇现代化。自然语言工程,FirstView,1\u201325。检索自http://\/journals.cambridge.org\/article_S1351324915000236“},{“key”:“S13513249190036_ref59”,“unstructured”:“Plank,B.,S\u00f8gaard,A.,and Goldberg,Y.(2016)。带有双向长-短期记忆模型和辅助损失的多语言部分语音标记。arXiv预印本arXiv:1604.05529。”},}“key:”S135132491900366_ref72“,“非结构化”:“Vilar,D.、Peter,J.-T.和Ney,H.(2007)。我们能翻译字母吗?统计机器翻译第二次研讨会论文集,第33\u201339页。“},{“key”:“S135132491900366_ref20”,“unstructured”:“Erjavec,T.(2014)。斯洛文尼亚历史IMP 1.1的数字图书馆和语料库。斯洛文尼亚语言资源库CLARIN.SI.http:\/\/hdl.handle.net\/11356\/1031S135132491900366_ref30“,“非结构化”:“Greene,B.和Rubin,G.(1971)。英语自动语法标记。布朗大学语言学系。检索自https:\/\/books.google.si\/bools?id=VznTygAACAAJ“},{“key”:“S135132491900366_ref44”,“unstructured”:“Ljube\u0161i\u0107,N.和Erjavec,T.(2016)。语料库与词法标注中的词汇监督:斯洛文尼亚语的案例。第十届国际语言资源与评价会议论文集(LREC 2016),巴黎,法国:欧洲语言资源协会(ELRA)。“},{”key“:”S135132491900366_ref11“,”doi-asserted-by“:”publisher“,”doi“:”10.3115\/1118693.118694“}”,{“key”:“S135132991900366_ ref12”,”unstructured“:”De Clercq,O.,Schulz,S.,Desmet,B.,Lefear,E.,and Hoste,V.(2013).荷兰用户生成内容的规范化。《2013年国际会议论文集自然语言处理最新进展》(Proceedings of the International Conference Recent Advances In Natural Language Processing RANLP 2013),第179\u2013188页Dobrovoljc,K.、Krek,S.、Holozan,P.、Erjavec,T.和Romih,M.(2015)。形态学词典Sloleks 1.2。斯洛文尼亚语言资源库CLARIN.SI.http:\/\/hdl.handle.net\/11356\/1039.“},{“key”:“S135132491900366_ref18”,“unstructured”:“Erjavec,T.(2011)历史语言的自动语言注释:ToTrTaLe和十九世纪斯洛文尼亚语。在第五届美国公民自由与自由贸易联盟文化遗产、社会科学和人文科学语言技术研讨会论文集,第33\u201338.页。“},{“key”:“S135132491900036_ref19”,“doi断言”:“publisher”,“doi”:“10.1007\\s10579-011-9174-8”},{“key”:“S135132491900036_ref23”,“nonstructured”:“Erjavec,T.,Fi\u0161er,D.,\u010dibej,J.,Arhar Holdt,\u0160,Ljube\u0161i\u0107,N.和Zupan,K.(2017)。CMC培训语料库Janes-Tag 2.0。斯洛文尼亚语言资源库CLARIN.SI.http:\/\/hdl.handle.net\/11356\/1123.“},{“key”:“S135132491900366_ref22”,“unstructured”:“Erjavec,T.(2015b)。斯洛文尼亚古奥300k历史参考语料库1.2。斯洛文尼亚语言资源库CLARIN.SI.http:\/\/hdl.handle.net\/11356\/1025.“},{“key”:“S135132491900366_ref57”,“unstructured”:“Pettersson,E.,Megyesi,B.,and Tiedemann,J.2013。历史文本自动注释的SMT方法。在NODALIDA计算历史语言学研讨会论文集2013;2013年5月22日;2013年,挪威奥斯陆:《Nealt Proceedings Series》,第18卷,第54\u201369页。“},{“key”:“S135132491900366_ref28”,“unstructured”:“Gimpel,K.,Schneider,N.,O\u2019Connor,B.,Das,D.,Mills,D.,Eisenstein,J.,u2026 Smith,N.A.(2011)Twitter的部分语音标记:注释、功能和实验。《计算语言学协会第49届年会论文集:人类语言技术:短篇论文》,第2卷,第42\u201347页Gr\u010dar,M.、Krek,S.和Dobrovoljc,K.(2012)。Obeliks:statisti\u010dni oblikoskladenjski ozna\u010devalnik在lematizator za slovenski jezik中(Obeliks:斯洛文尼亚语的统计形态句法标记和lemmatiser)。斯洛文尼亚卢布尔雅那Zbornik Osme konference Jezikovne tehnologije。“},{”key“:”S135132491900366_ref34“,”doi-asserted-by“:”crossref“,”first-page“:”65“,”doi“:”10.21248\/jlcl.26.2011.147“,”article-title“:”从旧文本到现代拼写:自动归一化实验“,”volume“:“26”,”author“:”Hendrickx“,”year“:”2011“,”journal-title第“:”166“,”页article-title“:”社交媒体POS标记领域适应方法的有效性“,”author“:”Horsmann“,”year“:”2015“,”journal-title”:“CLiC-it”},{“key”:“S13513249190036_ref36”,“unstructured”:“Kalchbrenner,N.和Blunsom,P.(2013)。递归连续翻译模型。在EMNLP,第3卷,第413页非结构化”:“Koehn,P.(2017)。神经机器翻译。CoRR,abs公司\/1709.07809。检索自http://\/arxiv.org\/abs\/1709.07809“},{“key”:“S135132491900366_ref13”,“unstructured”:“Derczynski,L.,Chester,S.,and B\u00f8gh,K.S.(2015)。请调整您的Brown聚类。《国际会议自然语言处理最新进展》,RANLP,2015年,第110\u2013117页doi-asserted-by“:”publisher“,”doi“:”10.1002\/9781119145554“},{”key“:”S135132491900366_ref45“,”unstructured“:”Ljube\u0161i\u0107,N.,Erjavec,T.,and Fi\u0161 er,D.(2016)。基于语料库的南斯拉夫语音调恢复。第十届国际语言资源与评价会议论文集(LREC 2016),巴黎,法国:欧洲语言资源协会(ELRA)。“},{”key“:”S135132491900366_ref32“,”doi-asserted-by“:”publisher“,”doi“:”10.3115\/1557769.1557830“}“key”:“S135132991900366_ ref46”,“doi-assert-by”:“publisher”,“doi”:“10.1007\/978-3642-23538-250”},“key“:”S135123491900366-ref47“,”doi-asserted-by“:”publishers“,”TOI“:“10.1866”53\/v1\/W17-1410“},{“key”:“S135132491900366_ref49”,“非结构化”:“Ljube\u0161i\u0107,N.、Zupan,K.、Fi\u0161 er,D.和Erjavec,T.(2016)。斯洛文尼亚数据标准化:历史文本与用户生成的内容。Bochumer Linguistische Arbeitsberichte,146\u2013155。“},{“key”:“S135132491900366_ref51”,“unstructured”:“Matthews,D.(2007)。专名的机器音译。爱丁堡大学硕士论文。”},“{”key:“S1350132491900336_ref25”,“非结构化”:“Etxeberria,I.,Alegria,I.、Uria,L.和Hulden,M.(2016)评估历史文本规范化的噪音通道模型:巴斯克语、西班牙语和斯洛文尼亚语。《第十届国际语言资源与评估会议记录》(LREC 2016),斯洛文尼亚Portoro\u017e:欧洲语言资源协会(ELRA)。“},{”key“:”S135132491900366_ref53“,”doi-asserted-by“:”publisher“,”doi“:”10.1007\/978-3-540-71496-5_5“}”,{“key”:“S13513249”9000366_rf55“,”unstructured“:”Pettersson,E.、Megyesi,B.和Nivre,J.(2013)使用上下文敏感的加权Levenshtein距离和复合分裂对历史文本进行规范化。《第19届北欧计算语言学会议论文集》(NODALIDA 2013);2013年5月22日\u201324;奥斯陆大学;挪威。nealt Proceedings Series,Vol.16,pp.163\u2013179。“},{”key“:”S135132491900366_ref58“,”volume-title“:”人类语言技术综合讲座“,”author“:”Piotrowski“,”year“:”2012“}”,{“key”:”S135.1324919003656_ref60“,”unstructured“:”Ratnaparkhi,A.(1996).用于部分讲话标记的最大熵模型。在自然语言处理实证方法会议上,第133\u2013142页。检索自http:\/\/aclweb.org/collectory\/W96-0213“},{“key”:“S135132491900036_ref62”,“nonstructured”:“Ritter,A.,Clark,S.,and Etzioni,O.(2011)。推文中的命名实体识别:一项实验研究。《自然语言处理实证方法会议论文集》,第1524\u20131534页。”},{“key”:“S135132491900366_ref63“,“非结构化”:“Scheible,S.,Whitt,R.J.,Durrell,M.和Bennett,P.(2011)。评估早期现代德语文本上的\u2018off-the-shelf\u2019 POS-tagger。第五届ACL-HLT文化遗产、社会科学和人文语言技术研讨会论文集,第19\u201323页。“},{“key”:“S135132491900366_ref64”,“unstructured”:“Scheible,S.,Whitt,R.J.,Durrell,M.和Bennett,P.(2012)Gatetogermanc:基于GATE的历史德语注释管道。在LREC中,第3611\u20133617页。用于文本规范化的编码器-解码器方法。在第五届NLP类似语言、变体和方言研讨会论文集(VarDial 2018)(pp.18\u201328)。美国新墨西哥州圣菲:计算语言学协会。检索自https:\/\/www.aclweb.org\/contology\/W18-3902“},{”key“:”S135132491900366_ref67“,”first page“:“248”,”article-title“:”使用字符级机器翻译自动规范化瑞士-德国ArchiMob语料库“,”author“:”Scherrer“,”year“:”2016“,”journal-title”:“Bochumer Linguistsche Arbeitsberichte”},”{“key”:“S135132491900366_ref68“,“非结构化”:”Schmid,H.(1994)。使用决策树的概率部分话语标记。《语言处理新方法国际会议论文集》,英国曼彻斯特doi-asserted-by“:”publisher“,”doi“:”10.3115\/v1\/P14-043“},{“key”:“S135132491900366_ref74”,“doi-assert-by”:“publisher”,“doi”:“10.3115\/v1\/N15-069”},“key“:”S135132991900366_ ref73“,”unstructured“:”Yang,Y.和Eisenstein,J.(2014).无监督的特征嵌入域适配.arXiv预处理Xiv:1412.4385.“},{“密钥”:“S135132491900366_ref75“,“非结构化”:”Yang,Y.和Eisenstein,J.(2016)。历史英语的部分语音标记。arXiv预印本arXiv:1603.03144.“},{“key”:“S135132491900366_ref76”,“非结构化”:“Zampieri,M.、Malmasi,S.、Nakov,P.、Ali,A.、Shon,S.,Glass,J.、\u2026 Jain,M.(2018)语言识别和形态句法标记:第二次VarDial评估活动。在第五届NLP类似语言、变体和方言研讨会论文集(VarDial 2018),第1\u201317页,美国新墨西哥州圣达菲:计算语言学协会。检索自https:\/\/www.aclweb.org\/contology\/W18-3901“},{“key”:“S135132491900366_ref8”,“first page”:”191“,“article-title”:“An efficient memory-based morphostry tagger and parser for Dutch”,“volume”::“7”,“author”:“Bosch,Van Den”,“year”:“2007”,“journal-title“:”LOT Discurrous Series“}”,{”key“:”S13513242919000366_ref70“,“unstructured”:“TEI财团(2017)。TEI P5:电子文本编码和交换指南。TEI财团。检索自http://www.tei-c.org\/Guidelines\/P5\/“},{”key“:”S135132491900366_ref24“,”doi-asserted-by“:”publisher“,”doi“:”10.1017\/S1351324918000505“}”,{“key”:”S15132491900366-ref27“,”unstructured“:”Foster,J.,\u00c7etinoglu,\u100d6,Wagner,J.、Le Roux,J.和Van Genabith,J.2026(2011)。#hardtoparse:对twitter进行POS标记和解析。在AAAI 2011年缩微文本分析研讨会上,第20\u201325页。“},{“关键”:“S135132491900366_ref71”,“首页”:“53”,“文章标题”:“CLIN27共享任务:将历史文本翻译为当代语言以改进自动语言注释”,“卷”:“7”,“作者”:“Tjong Kim Sang”,“年份”:“2017”,“新闻标题”:《荷兰计算语言学杂志》“},{”key“:”S135132491900366_ref14“,”unstructured“:”Derczynski,L.,Ritter,A.,Clark,S.,and Bontcheva,K.(2013)。推特部分语言标记:克服稀疏和噪声数据。RANLP,第198\u2013206页Ling,W.、Trancoso,I.、Dyer,C.和Black,A.W.(2015)。基于特征的神经机器翻译。arXiv预打印arXiv:1511.04586.“}],“container-title”:[“自然语言工程”],“原始标题”:[],“语言”:“en”,“链接”:[{“URL”:“https:\/\/www.cambridge.org\/core\/services\/aop-cambridge-core\/content\/view\/S135132491900366”,“内容类型”:“未指定”,“content-version”:“vor”,“intended-application”:“相似性检查”}]存放“:{“date-parts”:[[2023,9,20]],“date-time”:“2023-09-201:15:30Z”,“timestamp”:1695172530000},“score”:1,“resource”:{(主要):{”URL“:”https:\/\/www.cambridge.org\/core\/product\/identifier \/S135132491900366\/type\/journal_article“}},”副标题“:[],”短标题“:[],“issued”:{“date-ports”:[2019,9]]},“references-count”:76,“journal-issue”:{“issue“:”5“,”published-print“:{”date-parts“:[[2019,9]]}},”alternative-id“:[”S135132491900366“],”URL“:”http://\/dx.doi.org\/10.1017\/s135132491900336“,”relation“:{},“ISSN”:[”1351-3249“,”1469-8110“],“ISSN-type”:[{“value”:“1351-3299”,”type“print“}”,”value“:”1469-8110“,”type“:”electronic“}],”subject“:[],”published“:{”date-parts“:[[2019,9]]}}}