文件Zbl 1308.68144-zbMATH Open

Krizhanovsky，A.A。；A.V.斯米尔诺夫。

关于维基文本索引问题。（英语。俄文原件） Zbl 1308.68144号

J.计算。系统。科学。国际。第48616-624号（2009年）; 翻译自Izv。罗斯。阿卡德。特奥·诺克。修女。向上。2009年，第4期，121-129（2009）。

摘要：一种称为“维基页面”的新型文档正在赢得互联网的青睐。这不仅表现在此类互联网页面数量的增加上，还表现在Wiki项目（尤其是Wikipedia）的普及上；因此，Wiki文本中的解析问题变得越来越热门。提出并实现了一种用俄语、英语和德语三种语言对维基百科文本进行索引的新方法。考虑了索引系统的体系结构，包括软件组件GATE和Lemmatizer。描述了将Wiki文本转换为自然语言文本的规则。构建了俄语维基百科和简单英语维基百科的索引库。齐普夫定律的有效性在俄罗斯维基百科和简单英语维基百科》中进行了测试。

引用于1文件

MSC公司：

68单位35

信息系统的计算方法（超文本导航、接口、决策支持等）

软件：

科科斯

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	L.Rainie和B.Tancer，“维基百科用户”，摘自《报告：在线活动和；《追求》（2007），http://www.pewinternet.org/pdfs/PIP-Wikipedia07.pdf .
[2]	J.J.Kleinberg，ACM 46（5）（1999）。
[3]	S.Brin和L.Page，“大型超文本网络搜索引擎的剖析（1998）”http://www-db.stanford.edu/backrub/google.html .
[4]	S.Fortunato、M.Boguna、A.Flammini等人，“如何跻身前十：接近Indegree的PageRank”，2005年，http://arxiv.org/abs/cs/0511016 .
[5]	《文本挖掘调查：聚类、分类和检索》，M.Berry编辑（Springer，纽约，2003）。
[6]	Y.Ollivier和P.Senellart，“使用绿色度量查找相关页面：维基百科插图”，加拿大温哥华人工智能促进协会（2007年）。
[7]	D.Milne，“使用维基百科链接结构计算语义相关性”，新西兰计算机科学研究学生会议论文集（NZCSRSC’2007），新西兰汉密尔顿，2007，http://www.cs.waikato.ac.nz/dnk2/publications/nzcsrsc07.pdf .
[8]	S.Melnik、H.Garcia-Molina和E.Rahm，“相似性淹没：一种通用的图形匹配算法及其在模式匹配中的应用”，第18届ICDE会议论文集，加州圣何塞，美国，2002年，http://research.microsoft.com/melnik/publications.html .
[9]	V.Blondel和P.Senellart，“词典中同义词的自动提取”，《SIAM文本挖掘研讨会论文集》，美国德克萨斯州阿灵顿，2002年。http://www.inma.ucl.ac.be/？blondel/publications/areas.html .
[10]	V.Blondel，A.Gajardo，M.Heymans等人，《图形顶点之间相似性的度量：同义词提取和网络搜索的应用》，SIAM Review 46（1）（2004）·Zbl 1055.05099号
[11]	E.Gabrilovich和S.Markovitch，“使用基于Wikipedia的显式语义分析计算语义相关性”，第20届国际人工智能联合会议论文集，印度海得拉巴，2007年，http://www.cs.technion.ac.il/gabr/papers/ijcai-2007-sim.pdf . ·Zbl 1182.68319号
[12]	M.Sahami和T.D.Heilman，“测量短文本片段相似性的基于网络的内核函数”，第15届国际万维网会议论文集，2006年，http://robots.stanford.edu/users/sahami/papers-dir/www2006.pdf .
[13]	P.Pantel和D.Lin，“使用上下文相似的单词进行词汇润色”，《ANLPNAACL 2000年会议记录》，美国西雅图，2000年。
[14]	I.Kuralenok和I.Nekrest'yanov，“基于潜在语义分析的自动文档分类”，《电子图书馆会议记录：有希望的方法和技术》，电子藏书，俄罗斯圣彼得堡，1999年，http://www.dl99.nw.ru[俄语]。
[15]	K.Bharat和M.Henzinger，“超链接环境中主题提取的改进算法”，载于《第21届国际ACM信息检索研究与开发会议论文集》（SIGIR 98），1998年。ftp://ftp.digital.com/pub/DEC/SRC/发布/monika/sigir98.pdf.Proc，21。
[16]	A.G.Maguitman和F.Menczer，H.Roinestad等人，语义相似性的算法检测，2005，http://www2005.org/cdrom/contents.htm .
[17]	A.A.Krizhanovsky，“通过航空术语示例自动搜索语义相近的单词”，Avtomatizatsiya v Promyshlennosti，64（4），（2008）。
[18]	A.A.Krizhanovsky，“维基百科中的同义词搜索：Synarcher”，《2006年第11届国际演讲与计算机SPECOM会议论文集》，俄罗斯圣彼得堡，2006年。
[19]	A.A.Krizhanovsky，“维基百科中语义相近词的搜索结果评估：信息内容和自适应HITS算法”，《维基会议论文集》，俄罗斯圣彼得堡，2007年[俄语]。
[20]	I.V.Segalovich，“搜索引擎如何运作”，2004年，http://company.yandex.ru/articles网站/ .
[21]	S.Robertson，“理解反向文档频率：关于IDF的理论论证”，《文献汇编》，第60期（2004年）。网址：http://www.soi.city.ac.uk/ser/idfpapers/Robertson-idf-JDoc.pdf。
[22]	H.Cunningham、D.Maynard、K.Bontcheva等人，《使用GATE（用户指南）开发语言处理组件》，技术报告。英国谢菲尔德大学，2005年，网址：http://www.gate.ac.uk .
[23]	A.V.Sokirko，“网站www.aot.ru上的形态学模块”，《2004年计算机语言学和智能技术国际会议对话录》，俄罗斯莫斯科，2004年，[俄语]。
[24]	D.Vakhitova，“语料库语言学文本语料库的开发，2006年，http://matling.spb.ru/files/kurs/Vahitova-Corpus.doc .
[25]	J.E.F.Friedl，正则表达式（Piter，圣彼得堡，2001）[俄语]·Zbl 0881.68017号
[26]	S.P.Ponzetto和M.Strube，“维基百科中测量单词相关性的API”，载于捷克共和国布拉格计算语言学协会第45届年会会议记录的配套卷，2007年·Zbl 1182.68291号
[27]	T.Zesch、C.Mueller和I.Gurevych，“从维基百科和Wiktionary中提取词汇语义知识”，《语言资源与评估会议论文集》，摩洛哥马拉喀什，2008年。
[28]	C.D.Manning和H.Schutze，《统计自然语言处理基础》（麻省理工学院出版社，1999年）。
[29]	S.Campbell、J.-P.Chancelier和R.Nikoukhah，《Scilab/Sicos中的建模与仿真》（Springer，2006）·Zbl 1090.65001号
[30]	O.N.Lyashevskaya和S.A.Sharov，“俄语国家语料库的频率词典：发展的概念和技术”，《2008年计算机语言学和智能技术国际会议对话录》，俄罗斯贝卡索沃，2008年，http://www.dialog-21.ru/dialog2008/materials/pdf/53.pdf .
[31]	J.Atserias、H.Zaragoza、M.Ciaramita等人，“英语维基百科的语义注释快照”，《语言资源与评估会议论文集》，摩洛哥马拉喀什，2008年。
[32]	N.Aswani，V.Tablan，K.Bontcheva等人，“语言元数据和文档内容的索引和查询”，收录于《2005年RANLP会议记录》，保加利亚Borovets，2005年。
[33]	R.Witte和T.Gitzinger，“连接Wiki和自然语言处理系统”，《WikiSym'07会议录》，加拿大魁北克，2007年，http://www.wikisym.org/ws2007/publish/Witte-WikiSym2007-Natural语言处理.pdf。
[34]	P.Boldi和S.Vigna，《最小间隔语义的高效最优延迟算法》（2007），http://vigna.dsi.unimi.it/papers.php . ·Zbl 1350.68090号
[35]	B.Magnini，C.Strapparava，G.Pezzulo等人，“领域信息在词义消歧中的作用”，《自然语言工程杂志》4（8）（2002）。
[36]	A.Smirnov和A.Krizhanovsky，“基于Wiki索引数据库的信息过滤”，《2008年FLINS会议记录》，西班牙马德里，2008年，http://arxiv.org/abs/0804.2354 .
[37]	M.Shamsfard、A.Nematzadeh和S.Motiee，“ORank:一个基于本体论的文档排名系统”，Int.J.Comput。科学。3（1）（2006年）。http://www.waset.org/ijcs/v1/v1-3-30.pdf .
[38]	M.Meyer、C.Rensing和R.Steinmetz，“将基于维基百科的学习对象分类为替代语料库”，《LODE'07会议录》，希腊克里特岛，2007年，http://sunsite.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-311/paper09.pdf .
[39]	A.Gulin、M.Maslov和I.Segalovich，“ROMIP-2006年Yandex文本排名算法的算法”，《2006年ROMIP进程》，http://download.yandex.ru/company/03-yandex.pdf .
[40]	H.Geser，“从印刷到‘维基化’百科全书。《文化大革命初期的社会学问题》，载于《瑞士社会学：走向网络社会和虚拟社会关系》（Zuerich，2007），http://social.ch/int.com/t-hgeser16.pdf .
[41]	L.-S.Wu，R.Akavipat，F.Menczer，“6S：P2P网络索引收集和共享应用”，《2007年RIAO会议记录》，http://sixearch.org/paper/6S-P2P-Web-1.pdf .

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

关于维基文本索引问题。 （英语。俄文原件） Zbl 1308.68144号

MSC公司：

软件：

参考文献：

关于维基文本索引问题。（英语。俄文原件） Zbl 1308.68144号