×

关于维基文本索引问题。 (英语。俄文原件) Zbl 1308.68144号

J.计算。系统。科学。国际。 第48616-624号(2009年); 翻译自Izv。罗斯。阿卡德。特奥·诺克。修女。向上。2009年,第4期,121-129(2009)。
摘要:一种称为“维基页面”的新型文档正在赢得互联网的青睐。这不仅表现在此类互联网页面数量的增加上,还表现在Wiki项目(尤其是Wikipedia)的普及上;因此,Wiki文本中的解析问题变得越来越热门。提出并实现了一种用俄语、英语和德语三种语言对维基百科文本进行索引的新方法。考虑了索引系统的体系结构,包括软件组件GATE和Lemmatizer。描述了将Wiki文本转换为自然语言文本的规则。构建了俄语维基百科和简单英语维基百科的索引库。齐普夫定律的有效性在俄罗斯维基百科和简单英语维基百科》中进行了测试。

MSC公司:

68单位35 信息系统的计算方法(超文本导航、接口、决策支持等)

软件:

科科斯
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] L.Rainie和B.Tancer,“维基百科用户”,摘自《报告:在线活动和;《追求》(2007),http://www.pewinternet.org/pdfs/PIP-Wikipedia07.pdf .
[2] J.J.Kleinberg,ACM 46(5)(1999)。
[3] S.Brin和L.Page,“大型超文本网络搜索引擎的剖析(1998)”http://www-db.stanford.edu/backrub/google.html .
[4] S.Fortunato、M.Boguna、A.Flammini等人,“如何跻身前十:接近Indegree的PageRank”,2005年,http://arxiv.org/abs/cs/0511016 .
[5] 《文本挖掘调查:聚类、分类和检索》,M.Berry编辑(Springer,纽约,2003)。
[6] Y.Ollivier和P.Senellart,“使用绿色度量查找相关页面:维基百科插图”,加拿大温哥华人工智能促进协会(2007年)。
[7] D.Milne,“使用维基百科链接结构计算语义相关性”,新西兰计算机科学研究学生会议论文集(NZCSRSC’2007),新西兰汉密尔顿,2007,http://www.cs.waikato.ac.nz/dnk2/publications/nzcsrsc07.pdf .
[8] S.Melnik、H.Garcia-Molina和E.Rahm,“相似性淹没:一种通用的图形匹配算法及其在模式匹配中的应用”,第18届ICDE会议论文集,加州圣何塞,美国,2002年,http://research.microsoft.com/melnik/publications.html .
[9] V.Blondel和P.Senellart,“词典中同义词的自动提取”,《SIAM文本挖掘研讨会论文集》,美国德克萨斯州阿灵顿,2002年。http://www.inma.ucl.ac.be/?blondel/publications/areas.html .
[10] V.Blondel,A.Gajardo,M.Heymans等人,《图形顶点之间相似性的度量:同义词提取和网络搜索的应用》,SIAM Review 46(1)(2004)·Zbl 1055.05099号
[11] E.Gabrilovich和S.Markovitch,“使用基于Wikipedia的显式语义分析计算语义相关性”,第20届国际人工智能联合会议论文集,印度海得拉巴,2007年,http://www.cs.technion.ac.il/gabr/papers/ijcai-2007-sim.pdf . ·Zbl 1182.68319号
[12] M.Sahami和T.D.Heilman,“测量短文本片段相似性的基于网络的内核函数”,第15届国际万维网会议论文集,2006年,http://robots.stanford.edu/users/sahami/papers-dir/www2006.pdf .
[13] P.Pantel和D.Lin,“使用上下文相似的单词进行词汇润色”,《ANLPNAACL 2000年会议记录》,美国西雅图,2000年。
[14] I.Kuralenok和I.Nekrest'yanov,“基于潜在语义分析的自动文档分类”,《电子图书馆会议记录:有希望的方法和技术》,电子藏书,俄罗斯圣彼得堡,1999年,http://www.dl99.nw.ru[俄语]。
[15] K.Bharat和M.Henzinger,“超链接环境中主题提取的改进算法”,载于《第21届国际ACM信息检索研究与开发会议论文集》(SIGIR 98),1998年。ftp://ftp.digital.com/pub/DEC/SRC/发布/monika/sigir98.pdf.Proc,21。
[16] A.G.Maguitman和F.Menczer,H.Roinestad等人,语义相似性的算法检测,2005,http://www2005.org/cdrom/contents.htm .
[17] A.A.Krizhanovsky,“通过航空术语示例自动搜索语义相近的单词”,Avtomatizatsiya v Promyshlennosti,64(4),(2008)。
[18] A.A.Krizhanovsky,“维基百科中的同义词搜索:Synarcher”,《2006年第11届国际演讲与计算机SPECOM会议论文集》,俄罗斯圣彼得堡,2006年。
[19] A.A.Krizhanovsky,“维基百科中语义相近词的搜索结果评估:信息内容和自适应HITS算法”,《维基会议论文集》,俄罗斯圣彼得堡,2007年[俄语]。
[20] I.V.Segalovich,“搜索引擎如何运作”,2004年,http://company.yandex.ru/articles网站/ .
[21] S.Robertson,“理解反向文档频率:关于IDF的理论论证”,《文献汇编》,第60期(2004年)。网址:http://www.soi.city.ac.uk/ser/idfpapers/Robertson-idf-JDoc.pdf。
[22] H.Cunningham、D.Maynard、K.Bontcheva等人,《使用GATE(用户指南)开发语言处理组件》,技术报告。英国谢菲尔德大学,2005年,网址:http://www.gate.ac.uk .
[23] A.V.Sokirko,“网站www.aot.ru上的形态学模块”,《2004年计算机语言学和智能技术国际会议对话录》,俄罗斯莫斯科,2004年,[俄语]。
[24] D.Vakhitova,“语料库语言学文本语料库的开发,2006年,http://matling.spb.ru/files/kurs/Vahitova-Corpus.doc .
[25] J.E.F.Friedl,正则表达式(Piter,圣彼得堡,2001)[俄语]·Zbl 0881.68017号
[26] S.P.Ponzetto和M.Strube,“维基百科中测量单词相关性的API”,载于捷克共和国布拉格计算语言学协会第45届年会会议记录的配套卷,2007年·Zbl 1182.68291号
[27] T.Zesch、C.Mueller和I.Gurevych,“从维基百科和Wiktionary中提取词汇语义知识”,《语言资源与评估会议论文集》,摩洛哥马拉喀什,2008年。
[28] C.D.Manning和H.Schutze,《统计自然语言处理基础》(麻省理工学院出版社,1999年)。
[29] S.Campbell、J.-P.Chancelier和R.Nikoukhah,《Scilab/Sicos中的建模与仿真》(Springer,2006)·Zbl 1090.65001号
[30] O.N.Lyashevskaya和S.A.Sharov,“俄语国家语料库的频率词典:发展的概念和技术”,《2008年计算机语言学和智能技术国际会议对话录》,俄罗斯贝卡索沃,2008年,http://www.dialog-21.ru/dialog2008/materials/pdf/53.pdf .
[31] J.Atserias、H.Zaragoza、M.Ciaramita等人,“英语维基百科的语义注释快照”,《语言资源与评估会议论文集》,摩洛哥马拉喀什,2008年。
[32] N.Aswani,V.Tablan,K.Bontcheva等人,“语言元数据和文档内容的索引和查询”,收录于《2005年RANLP会议记录》,保加利亚Borovets,2005年。
[33] R.Witte和T.Gitzinger,“连接Wiki和自然语言处理系统”,《WikiSym'07会议录》,加拿大魁北克,2007年,http://www.wikisym.org/ws2007/publish/Witte-WikiSym2007-Natural语言处理.pdf。
[34] P.Boldi和S.Vigna,《最小间隔语义的高效最优延迟算法》(2007),http://vigna.dsi.unimi.it/papers.php . ·Zbl 1350.68090号
[35] B.Magnini,C.Strapparava,G.Pezzulo等人,“领域信息在词义消歧中的作用”,《自然语言工程杂志》4(8)(2002)。
[36] A.Smirnov和A.Krizhanovsky,“基于Wiki索引数据库的信息过滤”,《2008年FLINS会议记录》,西班牙马德里,2008年,http://arxiv.org/abs/0804.2354 .
[37] M.Shamsfard、A.Nematzadeh和S.Motiee,“ORank:一个基于本体论的文档排名系统”,Int.J.Comput。科学。3(1)(2006年)。http://www.waset.org/ijcs/v1/v1-3-30.pdf .
[38] M.Meyer、C.Rensing和R.Steinmetz,“将基于维基百科的学习对象分类为替代语料库”,《LODE'07会议录》,希腊克里特岛,2007年,http://sunsite.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-311/paper09.pdf .
[39] A.Gulin、M.Maslov和I.Segalovich,“ROMIP-2006年Yandex文本排名算法的算法”,《2006年ROMIP进程》,http://download.yandex.ru/company/03-yandex.pdf .
[40] H.Geser,“从印刷到‘维基化’百科全书。《文化大革命初期的社会学问题》,载于《瑞士社会学:走向网络社会和虚拟社会关系》(Zuerich,2007),http://social.ch/int.com/t-hgeser16.pdf .
[41] L.-S.Wu,R.Akavipat,F.Menczer,“6S:P2P网络索引收集和共享应用”,《2007年RIAO会议记录》,http://sixearch.org/paper/6S-P2P-Web-1.pdf .
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。