研究论文

用于重新发布文章查找的超几何语言模型

作者:

马诺斯 Tsagkias公司,

马腾岛德瑞克、和

沃特 Weerkamp公司作者信息和声明

SIGIR’11：第34届ACM SIGIR信息检索研究与发展国际会议论文集

2011年7月

页485-494

https://doi.org/10.1145/2009966.2009983

出版:2011年7月24日出版历史

获取访问权限

摘要

重新发布文章查找的任务是识别在一个来源中发布的文章实例，并在另一个来源（通常是社交媒体来源）中或多或少逐字重新发布。我们将此任务作为一个特别的检索问题来处理，将源文章用作查询。我们的方法基于语言建模。考虑到在我们的设置中，查询与完整的新闻文章一样长，我们重新审视了unigram语言模型背后的假设。我们认为，在这种情况下，通过替换从文档中抽取单词的潜在生成假设，即文档的多项式建模，产生了不太准确的查询可能性估计。

为了弥补这一差异，我们考虑不经替换的抽样分布：中心和非中心超几何分布。我们提出了两个建立在这些分布之上的检索模型：对数优势模型和贝叶斯模型，其中文档参数是使用Dirichlet复合多项式分布估计的。

我们使用新闻文章和博客帖子语料库分析了新模型的行为，发现对于重新发布的文章查找任务，我们处理的查询长度接近要检索的文档的长度，基于无替换抽样相关分布的模型优于基于多项式分布的传统模型。

工具书类

[1]

O.Abdel-Hamid、B.Behzadi、S.Christoph和M.R.Henzinger。有效检测文本片段的来源。《第18届万维网会议论文集》，第61-70页，纽约，2009年。ACM公司。亨廷格·M·。

数字图书馆

[2]

编辑J.Allan。主题检测与跟踪：基于事件的信息组织。Kluwer学术出版社，马萨诸塞州诺维尔，美国，2002年。

数字图书馆

[3]

G.阿马蒂。信息检索的频繁性和贝叶斯方法。M.Lalmas、A.MacFarlane、S.Rüger、A.Tombros、T.Tsikrika和A.Yavlinsky，《信息检索进展》编辑，《计算机科学讲义》第3936卷，第13-24页。施普林格-柏林/海德堡，2006年。

数字图书馆

[4]

G.阿马蒂。信息提取的信息论方法。H.Larsen、G.Pasi、D.Ortiz-Arroyo、T.Andreasen和H.Christiansen，《灵活查询回答系统》编辑，《计算机科学讲义》第4027卷，第519-529页。施普林格-柏林/海德堡，2006年。

数字图书馆

[5]

A.Barrón-Cedeno、P.Rosso和J.-M.Benedí。基于kullback-leibler距离缩小剽窃检测搜索空间。《第十届计算语言学与智能文本处理国际会议论文集》，CICLing’09，第523-534页，柏林，海德堡，2009年。斯普林格·弗拉格。

数字图书馆

[6]

M.Bendersky和W.B.Croft。查找web上的文本重用。《第二届ACM网络搜索和数据挖掘国际会议论文集》，WSDM’09，第262-271页，美国纽约州纽约市，2009年。ACM公司。

数字图书馆

[7]

F.Bravo Marquez、G.L’Huillier、S.Ríos和J.Velásquez。用于web文档相似性检索的超几何语言模型和类Zipf评分函数。字符串处理和信息检索编辑E.Chavez和S.Lonardi，《计算机科学讲义》第6393卷，第303-308页。施普林格柏林/海德堡，2010年。

数字图书馆

[8]

A.布罗德。关于文件的相似性和包容性。1997年，《序列压缩与复杂性研究进展》，1997年，美国华盛顿特区。IEEE计算机学会。

数字图书馆

[9]

H.-C.Chang、J.-H.Wang和C.-Y.Chiu。使用近重复检测方法从web中查找与事件相关的内容。2007年，在美国加利福尼亚州洛斯阿拉米托斯举行的IEEE/WIC/ACM网络智能国际会议上，第291-294页。IEEE计算机学会。

数字图书馆

[10]

L.Egghe和R.Rousseau。信息检索中的对偶性与超几何分布。文献杂志，53（5）：488--4961997年12月。

[11]

L.Egghe和R.Rousseau。利用拓扑方法进行信息检索的查全率和查准率的理论研究。信息处理。管理。，34:191--2181998年1月。

数字图书馆

[12]

C.埃尔坎。使用dirichlet复合多项式分布的指数族近似对文档进行聚类。《第23届国际机器学习会议论文集》，ICML'06，第289-296页，美国纽约州纽约市，2006年。ACM公司。

数字图书馆

[13]

A.雾。wallenius非中心超几何分布的计算方法。统计学通信——模拟与计算，37（2）：258-2732008。

[14]

H.Garcia-Molina、L.Gravano和N.Shivakumar。dscam：跨多个数据库查找文档副本。并行和分布式信息系统，国际会议，1996年。

数字图书馆

[15]

S.Geva和A.Trotman。Inex 2010 Link-The-Wiki Track，2010年。http://www.inex.otago.ac.nz/。

[16]

B.他和I.Ounis。组合用于查询扩展和自适应查询扩展的字段。信息处理与管理，43（5）：1294--13072007。专利处理。

数字图书馆

[17]

M.Henzinger先生。查找几乎重复的网页：大规模算法评估。《第29届ACM SIGIR信息检索研究与开发国际年会论文集》，SIGIR’06，第284-291页，美国纽约州纽约市，2006年。ACM公司。

数字图书馆

[18]

D.Hiemstra和W.Kraaij。TREC-7第二十一名：即兴和跨语言赛道。第七届文本检索会议（TREC）会议记录，NIST特别出版物第500卷，第227-238页。美国国家标准与技术研究所，1999年。

[19]

D.Ikeda、T.Fujiki和M.Okumura。自动将新闻文章链接到博客条目。在2006年AAAI春季研讨会上。

[20]

N.L.Johnson、S.Kotz和N.Balakrishnan。离散多元分布。John Wiley&Sons，纽约，1997年。

[21]

J.Kim、K.Candan和J.Tatemura。基于内容重用对博客和新闻条目进行组织和标记。《信号处理系统杂志》，58:407-4212010。

数字图书馆

[22]

J.W.Kim、K.S.Candan和J.Tatemura。博客和在线新闻文章中的高效重叠和内容重用检测。《第18届万维网国际会议论文集》，WWW'09，第81-90页，美国纽约州纽约市，2009年。ACM公司。

数字图书馆

[23]

O.Kolak和B.N.Schilit。通过挖掘报价生成链接。《第十九届ACM超文本和超媒体会议论文集》，HT'08，第117-126页，美国纽约州纽约市，2008年。ACM公司。

数字图书馆

[24]

C.麦克唐纳和I.欧尼斯。在专家搜索中使用相关反馈。在G.Amati、C.Carpineto和G.Romano编辑的《信息检索进展》中，《计算机科学讲义》第4425卷，第431-443页。施普林格-柏林/海德堡，2007年。

数字图书馆

[25]

R.E.Madsen、D.Kauchak和C.Elkan。使用狄利克雷分布对单词突发性进行建模。第22届国际机器学习会议论文集，ICML'05，第545-552页，美国纽约州纽约市，2005年。ACM公司。

数字图书馆

[26]

G.S.Manku、A.Jain和A.Das Sarma。检测网络爬网的近重复项。第16届万维网国际会议论文集，WWW'07，第141-150页，美国纽约州纽约市，2007年。ACM公司。

数字图书馆

[27]

R.Mihalcea和A.Csomai。维基！：将文档与百科全书知识联系起来。2007年CIKM第233-242页。

数字图书馆

[28]

D.R.H.Miller、T.Leek和R.M.Schwartz。一个隐马尔可夫模型信息检索系统。《第22届ACM SIGIR信息检索研究与开发国际年会论文集》，SIGIR’99，第214-221页，美国纽约州纽约市，1999年。ACM公司。

数字图书馆

[29]

D.Milne和I.H.Witten。学习与维基百科链接。在2008年CIKM’08中，第509-518页。

数字图书馆

[30]

D.S.摩尔。Cdrom统计的基本实践。W.H.Freeman&Co.，美国纽约州纽约市，第2版，1999年。

数字图书馆

[31]

K.Muthmann、W.M.Barczynski、F.Brauer和A.Löser。网络论坛的近重复检测。2009年国际数据库工程学报第38期；应用研讨会，IDEAS’09，第142-151页，美国纽约州纽约市，2009年。ACM公司。

数字图书馆

[32]

J.M.Ponte和W.B.Croft。信息检索的语言建模方法。《第21届ACM SIGIR信息检索研究与开发国际年会论文集》，SIGIR’98，第275-281页，美国纽约州纽约市，1998年。ACM公司。

数字图书馆

[33]

S.E.罗伯逊。IR中的概率排序原则，第281--286页。Morgan Kaufmann Publishers Inc.，美国加利福尼亚州旧金山，1997年。

数字图书馆

[34]

J.Seo和W.B.Croft。本地文本重用检测。SIGIR’08，第571-578页，美国纽约州纽约市，2008年。ACM公司。

数字图书馆

[35]

W.M.Shaw、R.Burgin和P.Howell。红外测试集的性能标准和评估：矢量空间和其他检索模型。信息处理与管理，33（1）：15-361997。

数字图书馆

[36]

E.Tsagkias、M.de Rijke和W.Weerkamp。链接在线新闻和社交媒体。第四届ACM网络搜索和数据挖掘（WSDM），香港，2011年2月。ACM公司。

数字图书馆

[37]

E.M.Voorhees和L.P.Buckland，编辑。第十三届文本审查会议论文集，TREC 2004，马里兰州盖瑟斯堡，2004年11月16日至19日，第500-2612004年特别出版物。国家标准与技术研究所（NIST）。

[38]

K.T.Wallenius。有偏抽样；非中心超几何概率分布。技术报告，斯坦福大学，1963年11月。

[39]

W.J.威尔伯。超几何文档模型的检索测试。美国社会科学杂志。，44:340--3511993年7月。

数字图书馆

[40]

Z.Xu和R.Akella。一种新的基于dirichlet复合多项式分布的概率检索模型。第31届ACM SIGIR信息检索研究与开发国际年会论文集，SIGIR’08，第427-434页，美国纽约州纽约市，2008年。ACM公司。

数字图书馆

[41]

H.Zaragoza、D.Hiemstra和M.Tipping。用于特定信息检索的语言模型的贝叶斯扩展。《第26届ACM SIGIR信息检索研究与开发国际年会论文集》，SIGIR’03，第4-9页，美国纽约州纽约市，2003年。ACM公司。

数字图书馆

[42]

C.翟和J.拉弗蒂。应用于特定信息检索的语言模型平滑方法的研究。《第24届ACM SIGIR信息检索研究与开发国际年会论文集》，SIGIR’01，第334-342页，美国纽约州纽约市，2001年。ACM公司。

数字图书馆

[43]

Q.Zhang、Y.Zhangs、H.Yu和X.Huang。基于序列匹配的高效部分重复检测。《第33届ACM SIGIR信息检索研究与开发国际会议论文集》，SIGIR’10，第675-682页，美国纽约州纽约市，2010年。ACM公司。

数字图书馆

引用人

查斯帕里T齐亚塔斯A齐利维斯P纳拉亚南S(2016)稀疏贝叶斯近似下参数字典的马尔可夫链蒙特卡罗推断IEEE信号处理汇刊10.1109/TSP.2016.253914364:12(3077-3092)在线发布日期：2016年6月1日
https://dl.acm.org/doi/10.109/TSP.2016.2539143
康明斯R派克J吕Y(2015)用于改进信息检索的Pólya Urn文档语言模型美国计算机学会信息系统汇刊10.1145/274623133:4(1-34)在线发布日期：2015年5月4日
https://dl.acm.org/doi/10.1145/2746231
吕Y翟C(2015)负查询生成：缩小查询可能性检索模型和相关性之间的差距信息检索期刊2007年10月10日/10791-015-9257-z18:4(359-378)在线发布日期：2015年6月6日
https://doi.org/10.1007/s10791-015-9257-z
显示更多引用者

索引术语

用于重新发布文章查找的超几何语言模型
1. 信息系统
  1. 信息检索
    1. 检索模型和排名

建议

基于词聚类和形态分解的立陶宛语统计语言模型

本文描述了我们对统计语言的研究立陶宛建模。改进稀疏n元模型的思想高度屈折的立陶宛语基于词聚类和形态学的复杂n-gram模型...
阅读更多信息
基于缓存的英语和高度受影响立陶宛语统计语言模型

本文研究了各种基于统计缓存的建立在三个语料库上的语言模型：英语、立陶宛语和立陶宛基底形状。缓存大小、类型的影响衰退函数，包括自定义语料库派生函数，以及...
阅读更多信息
信息检索的多元贝努利模型评估

虽然在信息检索中引入语言建模的开创性建议是基于多元伯努利模型，但目前主要的建模方法是以多项式模型为中心。基于…的检索语言建模。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

SIGIR’11：第34届国际ACM SIGIR信息检索研究与开发会议记录

2011年7月

1374页

国际标准图书编号：9781450307574

内政部：10.1145/2009916

一般主席：
马伟英
微软亚洲研究院，中国
,
聂建云
加拿大蒙特利尔大学
,
项目主席：
里卡多·贝扎·耶茨
雅虎！西班牙研究
,
Tat Seng Chua先生
新加坡国立大学
,
W.布鲁斯·克罗夫特
美国阿默斯特马萨诸塞大学

版权所有©2011 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

赞助商

SIGIR:ACM信息检索特别兴趣小组

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2011年7月24日

权限

请求对此文章的权限。

检查更新

作者标记

限定符

研究文章

会议

SIGIR’11号

赞助商：

SIGIR公司

SIGIR’11：第34届国际ACM SIGIR信息检索研究与开发会议

2011年7月24日至28日

中国北京

接受率

3983份提交文件的总体接受率为792份，占20%

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

7
引文总数
查看引文
315
总下载次数

下载量（最近12个月）三
下载次数（最近6周）0

其他指标

查看作者指标

引文

引用人

查斯帕里T齐亚塔斯A齐利维斯P纳拉亚南S(2016)稀疏贝叶斯近似参数字典的马尔可夫链蒙特卡罗推断IEEE信号处理汇刊10.1109/TSP.2016.253914364:12(3077-3092)在线发布日期：2016年6月1日
https://dl.acm.org/doi/10.109/TSP.2016.2539143
康明斯R派克J吕Y(2015)用于改进信息检索的Pólya Urn文档语言模型美国计算机学会信息系统汇刊10.1145/274623133:4(1-34)在线发布日期：2015年5月4日
https://dl.acm.org/doi/10.1145/2746231
吕Y翟C(2015)负查询生成：缩小查询可能性检索模型和相关性之间的差距信息检索期刊2007年10月10日/10791-015-9257-z18:4(359-378)在线发布日期：2015年6月6日
https://doi.org/10.1007/s10791-015-9257-z
卢S他B徐杰(2013)信息检索的超几何模型再认识信息检索技术10.1007/978-3-642-45068-6_6(62-73)网上发布日期：2013年
https://doi.org/10.1007/978-3-642-45068-6_6
吕Y翟C陈X黎巴嫩G王H扎基·M(2012)生成负查询的查询可能性第21届ACM信息和知识管理国际会议记录10.1145/2396761.2398520(1799-1803)在线发布日期：2012年10月29日
https://dl.acm.org/doi/10.1145/2396761.2398520
Tsagkias M公司布兰科R赫什W凯伦·JMaarek Y公司桑德森·M(2012)推断用户浏览行为的语言意图模型第35届ACM SIGIR信息检索研究与开发国际会议记录10.1145/2348283.2348330(335-344)在线发布日期：2012年8月12日
https://dl.acm.org/doi/10.1145/2348283.2348330
Bravo-Marquez F公司L'Huillier G公司Ríos S公司Velásquez J公司(2011)基于文档指纹和搜索结果记录的文本相似性元搜索引擎2011年IEEE/WIC/ACM网络智能和智能代理技术国际会议记录-第01卷10.1109/WI-IAT.2011.27(146-153)在线发布日期：2011年8月22日
https://dl.acm.org/doi/10.109/WI-IAT.2011.27

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子