{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部件”:[[2024,4,27]],“日期-时间”:“2024-04-27T05:06:53Z”,“时间戳”:1714194413345},“参考-计数”:25,“出版商”:“Springer Science and Business Media LLC”,“问题”:“2”,“许可证”:[{“开始”:“日期-零件”:[[2013,7,24]],”日期-时间“:”2013-07-24T00:00:00Z“,“timestamp”:1374624000000},“content-version”:“tdm”,“delay-in-days”:0,“URL”:“http://www.springer.com/tdm”}],“content-domain”:{“domain”(域):[],“crossmark-restriction”(交叉标记限制):false},”short-container-title“:[”Lang Resources&Evaluation“],”published-print“:{”date-parts“:[[2014,6]]}”,“DOI”:“10.1007\/s10579-013-9246-z”,“type”:“journal-article”,“created”:{“date-parts”:[[2013,7,23]],“date-time”:“2013-07-23T02:08:56Z”,“timestamp”:1374545336000},“page”:“227-248”,“source”:”Crossref“,“is-referenced-by-count”:12,“title”:[“用于语言建模目的的挖掘、处理和存储大量电子文本的通用框架”],“prefix”:“10.1007”,“volume”:《48》,“author”:[{“给定”:“Jan”,“family”:“\u0160vec”,“sequence”:“first”,“affiliation”:[]},{“given”:“Jan”,“faily”:”Lehe\u010dka“,”sequence“:”additional“,”affiliance“:[]{,”given“:”Pavel[]},{“给定”:“Ale\u0161”,“家族”:“Pra\u017e\u00e1k”,“sequence”:“additional”,“affiliation”:[]},{“given”:“Jan”,“family”:“Vavru\u0161ka”,“序列”:“附加”,“从属关系”:[]},}“giving”:“Petr”,“家族”:“Stanislav”,“sequence”:“additionable”,“abfiliation}],“member”:“297”,“published-on-line”:{“date-parts”:[[2013,7,24]]},“reference”:[{“key”:“9246_CR1”,“unstructured”:“Baroni,M.&Bernardini,S.(2004)。Bootcat:从web启动语料库和术语。收录于《2004年LREC会议录》,第1313\u20131316页。”},{“issue”:“8-13”,“key“:”9246_CR2“,”doi-asserted-by“:”crossref“,”,“first-page”:“1157”,“doi”:“10.1016\/S0169-7552(97)00031-7英寸,“体积”:“29”,“作者”:“A.Z.Broder”,“年份”:“1997”,“非结构化”:“Broder,A.Z.,Glassman,S.C.,Manasse,M.S.,&Zweig,G.(1997)。网络的句法聚类。计算机网络和ISDN系统,29(8\u201313),1157\u20131166。”,“期刊标题”:“计算机网络和ISDN系统”},{“密钥”:“9246_CR3”,“非结构化”:“Bulyko,I.、Ostendorf,M.、Siu,M.,Ng,T.、Stolcke,A.和\u00c7etin,O.(2007)。会话语音识别中语言建模的网络资源。语音和语言处理ACM事务(TSLP),5(1),1:1\u20131:25。”},{“key”:“9246_CR4”,“非结构化”:“Fairon,C.(2006)Corporator:用于创建基于rss的专业语料库的工具。第二届网络语料库国际研讨会论文集,WAC\u201906(第43\u201349页)。美国宾夕法尼亚州斯特劳德斯堡:计算语言学协会。“},{”键“:”9246_CR5“,”首页“:”93“,”卷标题“:”TSD 2010。LNCS”,“作者”:“J.Kanis”,“年份”:“2010年”,“非结构化”:“Kanis,J.,&Skorkovsk\u00e1,L.(2010)。通过信息检索性能的手段比较不同的柠檬化方法。收录:P.Sojka、A.Hor\u00e1k、I.Kope\u010dek和K.Pala(编辑),TSD 2010。LNCS(第6231卷,第93页\u2013100)。海德堡:施普林格。“},{”issue“:”1“,”key“:”9246_CR6“,”doi-asserted-by“:”crossref“,”first-pages“:”97“,”doi“:”10.1075\/ijcl.6.105kil“,”volume“:“6”,”author“:”A.Kilgarriff“,”year“:”2001“,”unstructured“:”Kilgarliff,A.(2001)。比较语料库。《国际语料库语言学杂志》,6(1),97\u2013133。“,”Journal-title“:”International Journal of Corpus Linguistics“}”,{“key”:“9246_CR7”,“unstructured”:“Kilgarriff,A.,Reddy,S.,Pomik\u00e1lek,J.,&PVS,A.(2010)。多种语言的语料库工厂。收录于N.Calzolari,K.Choukri,B.Maegaard,J.Mariani,J.Odijk,S.Piperidis,M.Rosner,&D.Tapias(编辑),第七届语言资源与评估国际会议论文集(LREC\u201910)(第904\u2013910页)。马耳他瓦莱塔:欧洲语言资源协会(ELRA)。“},{”issue“:”2“,”key“:”9246_CR8“,”doi-asserted-by“:”crossref“,”first-page“:”245“,”doi“:”10.1093\/llc\/17.2.245“,”volume“:“17”,”author“:”K.Ku\u010dera“,”year“:”2002“,”unstructured“:”Ku\u011dera,K.(2002)。捷克国家语料库:原则、设计和结果。文学与语言计算,17(2),245\u2013257.“,”日记标题“:”文学和语言计算“},{“key”:“9246_CR9”,“unstructured”:“Li,P.,Zhu,Q.,Qian,P,&Fox,G.(2007)。基于网格和可信度构建大规模文本语料库。收录:V.Matousek&P.Mautner(Eds.),TSD。计算机科学讲义(第4629卷,第56\u201365页)。纽约:Springer。”}非结构化”:Malkin,M.&Venkatesan,R.(2005)。在温和对手面前比较文本流。2005年澳大利亚网格计算和电子研究研讨会论文集(第44卷,第179\u2013186页)。ACSW边境\u201905。澳大利亚计算机协会。,。“},{”key“:”9246_CR11“,”doi-asserted-by“:”crossref“,”doi“:”10.1017\/CBO9780511809071“,”volume-title“:”信息检索导论“,”author“:”C.D.Manning“,”year“:”2008“,”unstructured“:”Manning,C.D.,Raghavan,P.,&Sch\u00fctze,H.(2008)。信息检索导言。纽约:剑桥大学出版社。“}”,{“key”:“9246_CR12“,”非结构化“:”Pomik\u00e1lek,J.(2011)。从web语料库中删除样板文件和重复内容。捷克共和国布尔诺Masaryk大学信息学院博士论文。},{“key”:“9246_CR13”,“unstructured”:“Pra\u017e\u00e1k,A.,Loose,Z.,Psutka,J.,Radov\u00e1,V.,&M\u00fcller,L.(2011)。四阶段复述训练系统。《SIGMAP 2011年会议录》。塞维利亚。“},{”key“:”9246_CR14“,”doi-asserted-by“:”crossref“,”unstructured“:”Psutka,J.,Ircing,P.,Psutga,J.V.,Radov\u00e1,V.,Byrne,W.,Haji\u010d,J.、M\u00edrovsk\u00fd,J.和Gustman,S.(2003)。MALACH项目中自发捷克语的大词汇量ASR。《2003年欧洲演讲会报》(第1821\u20131824页),日内瓦。“,doi”:“10.21437\/Eurospeech.2003-551“},{“key”:“9246_CR15”,“unstructured”:“Psutka,J.,Radov\u00e1,V.,M\u00fcller,L.,Matou\u0161ek,J.、Ircing,P.和Graff,D.(2001)。捷克语口语的大型广播新闻和阅读演讲语料库。收录于《欧洲演讲2001》(Proceedings of Eurospeech2001)(第2067\u20132070页)。丹麦:奥尔堡。”crossref”,“非结构化”:“Psutka,J.,\u0160vec,J.、Psutga,J.V.、Van\u011bk,J.和Pra\u017e\u00e1k,A.、\u01600m\u00eddl,L.和Ircing,P.(2011)。捷克文化遗产档案中的快速词汇和语音口语术语检测系统。EURASIP音频、语音和音乐处理杂志,10.”,“DOI”:“10.1186\/1687-4722-2011-10”},{“key”:“9246_CR17”,“unstructured”:“Sharoff,S.(2006)。使用自动搜索引擎查询创建通用语料库。在WaCky!Web上的工作论文作为语料库(第63\u201398页)。Gedit.”}、{“key”:”9246_CR18“,“unsructured“:”Spoustov\u00e1,D.、Spousta,M.和Pecina,P.(2010年)。构建捷克语网络语料库。第七届国际语言资源与评估会议记录(LREC\u201910)。马耳他瓦莱塔。“},{”key“:”9246_CR19“,”doi-asserted-by“:”crossref“,”unstructured“:”Stolcke,A.(2002)。SRILM\u2014可扩展语言建模工具包。《2002年ICSLP会议录》(第901\u2013904页)。丹佛。“,”doi“:”10.21437\/ICSLP.2002-303“}“,{“key”:“9246_CR22”,“unstructure”:“\u0160vec,J.(2010)。Voiar(语音档案)图书馆。西波西米亚大学,Plze\u0148.“},{“key”:“9246_CR23”,“doi-asserted-by”:“crossref”,“首页”:“356”,“doi”:“10.1007\/978-3642-23538-2_45”,“volume-title”:“文本、演讲和对话。计算机科学课堂笔记”,“author”:“J.\u0160vec”,“year”:“2011”,“unstructured”:u\u0161ka,J.(2011).用于构建大规模语言建模语料库的Web文本数据挖掘。在:I.Habernal&V.Matou\u0161ek(编辑),文本、演讲和对话。计算机科学课堂讲稿(第6836卷,第356\u2013363页)。柏林/海德堡:施普林格。“},{”key“:”9246_CR20“,”doi-asserted-by“:”crossref“,”first-page“:”416“,”doi“:”10.1007\/978-3642-15760-8_53“,”volume-title“:”文本、演讲和对话。《人工智能讲义》,“作者”:“J.Trmal”,“年份”:“2010”,“非结构化”:“Trmal,J.,Pra\u017e\u00e1k,A.,Loose,Z.,&Psutka,J.(2010).捷克议会会议的在线电视字幕。收录:Sojka,P.、Hor\u00e1k,A.、Kope\u010dek,I.和Pala,K.(编辑),《文本、演讲和对话》。人工智能课堂讲稿(第6231卷,第416\u2013422页)。柏林:斯普林格。“},{”key“:”9246_CR21“,”首页“:”431“,”volume-title“:”TSD 2010。LNCS”,“作者”:“J.Van\u011bk”,“年份”:“2010年”,“非结构化”:“Van\u011bk,J.&Psutka,J.(2010)。为捷克电视台播出的议会会议自动字幕而开发的性别相关声学模型融合。参见:P.Sojka,A.Hor\u00e1k,I.Kope\u010dek,&K.Pala(编辑),TSD 2010。LNCS(第6231卷,第431页\u2013438)。海德堡:施普林格。“},{”key“:”9246_CR24“,”首页“:”464“,”volume-title“:”TSD 2010。LNCS“,”author“:”Z.Zaj\u00edc“,”year“:”2010“,”unstructured“:”Zaj\u000edc,Z.,Machlica,L.,&M\u00fcller,L.(2010)。语音识别任务中自适应的稳健统计估计。收录:P.Sojka、A.Hor\u00e1k、I.Kope\u010dek和K.Pala(编辑),TSD 2010。LNCS(第6231卷,第464页\u2013471)。海德堡:施普林格。“},{”key“:”9246_CR25“,”doi asserted by“:”crossref“,”first page“:”326“,”doi“:”10.1007\/1155187_42“,”卷标题“:”文本、语音和对话。计算机科学讲义“,”作者“:”J.Zelinka“,”年份“:”2005“,”非结构化“:”Zelinka,J.,Kanis,J.,&M\u00fcller,L.(2005)。屈折语言中数字的自动转录。in:V。Matou\u0161ek,P.Mautner和T.Pavelka(编辑),《文本、演讲和对话》。计算机科学课堂讲稿(第3658卷,第326\u2013333页)。柏林\/海德堡:施普林格。“}],”container-title“:[”Language Resources and Evaluation“],”original-title”:[],”Language“:”en“,”link“:[{”URL“:”http://\/link.springer.com/content\/pdf\/10.1007\/s10579-013-9246-z.pdf“,”content-type“:”application\/pdf“、”content-version“:”vor“,”intended-application“:”text-mining“},”{“URL”:“”http:\/\/link.springer.com/article\/10.1007\/s10579-013-9246-z\/fulltext.html“,”content-type“:”text\/html“,”内容-version“:”vor“,”intended-application“:”text-mining“},{”URL“:”http://\/link.springer.com\/content\/pdf\/10007\/s10579-013-9246-z“,”content-type”:“未指定”,“content-version”:“vor”,“intended-application”:“”相似性检查“}],”存放“:{“date-parts”:[[2023,7,3]],“date-time”:“2023-07-03T11:09:12Z”,“timestamp”:1688382552000},“score”:1,“resource”:{”primary“:{“URL”:“http://\/link.springer.com/10.1007\/s10579-013-9246-z”},”subtitle“:[],”shorttitle“:[],”issued“{”date-part“:[[2013,7,24]]}”,“references-count”“:25,”新闻发布“:{”发布“:”2“,”发布发布“:date-parts“:[[2014,6]]}},”alternative-id“:[”9246“],”URL“:”http://\/dx.doi.org\/10.1007\/s10579-013-9246-z“,”relation“:{},“ISSN”:[“1574-020X”,“1574-0218”],”ISSN-type“:[{”value“:”1574-020X“,”type““:”print“},{”value“:“1574-00218”,“type”:“electronic”}],“subject”“:[],”已发布“:{”日期部分“:[[2013,7,24]]}}