跳到主要内容
10.1145/2009916.2009983高级会议文章/章节视图摘要出版物页面红外会议记录会议集合
研究论文

用于重新发布文章查找的超几何语言模型

出版:2011年7月24日 出版历史
  • 获取引文提醒
  • 摘要

    重新发布的文章查找的任务是识别在一个来源中发布的文章实例,并在另一个来源(通常是社交媒体来源)中或多或少逐字重新发布。我们将此任务作为一个特别的检索问题来处理,将源文章用作查询。我们的方法基于语言建模。考虑到在我们的设置中,查询与完整的新闻文章一样长,我们重新审视了unigram语言模型背后的假设。我们认为,在这种情况下,通过替换从文档中抽取单词的潜在生成假设,即文档的多项式建模,产生了不太准确的查询可能性估计。
    为了弥补这一差异,我们考虑不经替换的抽样分布:中心和非中心超几何分布。我们提出了两个建立在这些分布之上的检索模型:对数优势模型和贝叶斯模型,其中文档参数是使用Dirichlet复合多项式分布估计的。
    我们使用新闻文章和博客帖子语料库分析了新模型的行为,发现对于重新发布的文章查找任务,我们处理的查询长度接近要检索的文档的长度,基于与无替换采样相关的分布的模型优于基于多项式分布的传统模型。

    工具书类

    [1]
    O.Abdel-Hamid、B.Behzadi、S.Christoph和M.R.Henzinger。有效检测文本片段的来源。《第18届万维网会议论文集》,第61-70页,纽约,2009年。ACM公司。亨廷格·M·。
    [2]
    J.Allan,编辑。主题检测与跟踪:基于事件的信息组织。Kluwer学术出版社,马萨诸塞州诺维尔,美国,2002年。
    [3]
    G.阿马蒂。信息检索的频繁性和贝叶斯方法。M.Lalmas、A.MacFarlane、S.Rüger、A.Tombros、T.Tsikrika和A.Yavlinsky,《信息检索进展》编辑,《计算机科学讲义》第3936卷,第13-24页。施普林格-柏林/海德堡,2006年。
    [4]
    G.阿马蒂。信息提取的信息论方法。H.Larsen、G.Pasi、D.Ortiz-Arroyo、T.Andreasen和H.Christiansen,《灵活查询回答系统》编辑,《计算机科学讲义》第4027卷,第519-529页。施普林格-柏林/海德堡,2006年。
    [5]
    A.Barrón-Cedeno、P.Rosso和J.-M.Benedí。基于kullback-leibler距离缩小剽窃检测搜索空间。《第十届计算语言学与智能文本处理国际会议论文集》,CICLing’09,第523-534页,柏林,海德堡,2009年。斯普林格·弗拉格。
    [6]
    M.Bendersky和W.B.Croft。查找web上的文本重用。《第二届ACM网络搜索和数据挖掘国际会议论文集》,WSDM’09,第262-271页,美国纽约州纽约市,2009年。ACM公司。
    [7]
    F.Bravo Marquez、G.L’Huillier、S.Ríos和J.Velásquez。用于web文档相似性检索的超几何语言模型和类Zipf评分函数。字符串处理和信息检索编辑E.Chavez和S.Lonardi,《计算机科学讲义》第6393卷,第303-308页。施普林格柏林/海德堡,2010年。
    [8]
    A.布罗德。关于文件的相似性和包容性。1997年,《序列压缩与复杂性研究进展》,1997年,美国华盛顿特区。IEEE计算机学会。
    [9]
    H.-C.Chang、J.-H.Wang和C.-Y.Chiu。使用近重复检测方法从web中查找与事件相关的内容。2007年,在美国加利福尼亚州洛斯阿拉米托斯举行的IEEE/WIC/ACM网络智能国际会议上,第291-294页。IEEE计算机学会。
    [10]
    L.Egghe和R.Rousseau。信息检索中的对偶性与超几何分布。文献杂志,53(5):488--4961997年12月。
    [11]
    L.Egghe和R.Rousseau。利用拓扑方法进行信息检索的查全率和查准率的理论研究。信息处理。管理。,34:191--2181998年1月。
    [12]
    C.埃尔坎。使用dirichlet复合多项式分布的指数族近似对文档进行聚类。《第23届国际机器学习会议论文集》,ICML'06,第289-296页,美国纽约州纽约市,2006年。ACM公司。
    [13]
    A.雾。wallenius非中心超几何分布的计算方法。统计学中的通信——模拟与计算,37(2):258-2732008。
    [14]
    H.Garcia-Molina、L.Gravano和N.Shivakumar。dscam:跨多个数据库查找文档副本。并行和分布式信息系统,国际会议,1996年。
    [15]
    S.Geva和A.Trotman。Inex 2010 Link-The-Wiki Track,2010年。http://www.inex.otago.ac.nz/。
    [16]
    B.他和I.Ounis。组合用于查询扩展和自适应查询扩展的字段。信息处理与管理,43(5):1294--13072007。专利处理。
    [17]
    M.Henzinger先生。查找几乎重复的网页:大规模算法评估。在第29届ACM SIGIR信息检索研究与发展年度国际会议论文集中,SIGIR'06,第284-291页,美国纽约州纽约市,2006年。ACM公司。
    [18]
    D.Hiemstra和W.Kraaij。TREC-7第二十一名:即兴和跨语言赛道。第七届文本检索会议(TREC)会议记录,NIST特别出版物第500卷,第227-238页。美国国家标准与技术研究所,1999年。
    [19]
    D.Ikeda、T.Fujiki和M.Okumura。自动将新闻文章链接到博客条目。在2006年AAAI春季研讨会上。
    [20]
    N.L.Johnson、S.Kotz和N.Balakrishnan。离散多元分布。John Wiley&Sons,纽约,1997年。
    [21]
    J.Kim、K.Candan和J.Tatemura。基于内容重用对博客和新闻条目进行组织和标记。《信号处理系统杂志》,58:407-4212010。
    [22]
    J.W.Kim、K.S.Candan和J.Tatemura。博客和在线新闻文章中的高效重叠和内容重用检测。《第18届万维网国际会议论文集》,WWW'09,第81-90页,美国纽约州纽约市,2009年。ACM公司。
    [23]
    O.Kolak和B.N.Schilit。通过挖掘报价生成链接。《第十九届ACM超文本和超媒体会议论文集》,HT'08,第117-126页,美国纽约州纽约市,2008年。ACM公司。
    [24]
    C.麦克唐纳和I.欧尼斯。在专家搜索中使用相关反馈。在G.Amati、C.Carpineto和G.Romano编辑的《信息检索进展》中,《计算机科学讲义》第4425卷,第431-443页。施普林格-柏林/海德堡,2007年。
    [25]
    R.E.Madsen、D.Kauchak和C.Elkan。使用dirichlet分布建模单词burstiness。第22届国际机器学习会议论文集,ICML'05,第545-552页,美国纽约州纽约市,2005年。ACM公司。
    [26]
    G.S.Manku、A.Jain和A.Das Sarma。检测网络爬网的近重复项。第16届万维网国际会议论文集,WWW'07,第141-150页,美国纽约州纽约市,2007年。ACM公司。
    [27]
    R.Mihalcea和A.Csomai。维基!:将文档与百科全书知识联系起来。在CIKM’07,第233页至第242页,2007年。
    [28]
    D.R.H.Miller、T.Leek和R.M.Schwartz。一个隐马尔可夫模型信息检索系统。《第22届ACM SIGIR信息检索研究与开发国际年会论文集》,SIGIR’99,第214-221页,美国纽约州纽约市,1999年。ACM公司。
    [29]
    D.米尔恩和I.H.威滕。学习与维基百科链接。2008年CIKM,第509-518页。
    [30]
    D.S.摩尔。Cdrom统计的基本实践。W.H.Freeman&Co.,美国纽约州纽约市,第二版,1999年。
    [31]
    K.Muthmann、W.M.Barczynski、F.Brauer和A.Löser。网络论坛的近重复检测。2009年国际数据库工程学报第38期;应用研讨会,IDEAS’09,第142-151页,美国纽约州纽约市,2009年。ACM。
    [32]
    J.M.Ponte和W.B.Croft。信息检索的语言建模方法。《第21届ACM SIGIR信息检索研究与开发国际年会论文集》,SIGIR’98,第275-281页,美国纽约州纽约市,1998年。ACM公司。
    [33]
    S.E.罗伯逊。IR中的概率排序原则,第281--286页。Morgan Kaufmann Publishers Inc.,美国加利福尼亚州旧金山,1997年。
    [34]
    J.Seo和W.B.Croft。本地文本重用检测。SIGIR’08,第571-578页,美国纽约州纽约市,2008年。ACM公司。
    [35]
    W.M.Shaw、R.Burgin和P.Howell。红外测试集的性能标准和评估:矢量空间和其他检索模型。信息处理与管理,33(1):15-361997。
    [36]
    E.Tsagkias、M.de Rijke和W.Weerkamp。链接在线新闻和社交媒体。第四届ACM网络搜索和数据挖掘(WSDM),香港,2011年2月。ACM公司。
    [37]
    E.M.Voorhees和L.P.Buckland,编辑。第十三届文本检索会议记录,TREC 2004,马里兰州盖瑟斯堡,2004年11月16-19日,第500-2612004卷,特别出版物。国家标准与技术研究所(NIST)。
    [38]
    K.T.Wallenius。偏采样;非中心超几何概率分布。技术报告,斯坦福大学,1963年11月。
    [39]
    W.J.威尔伯。超几何文档模型的检索测试。美国社会科学杂志。,44:340--3511993年7月。
    [40]
    Z.Xu和R.Akella。一种新的基于dirichlet复合多项式分布的概率检索模型。第31届ACM SIGIR信息检索研究与开发国际年会论文集,SIGIR’08,第427-434页,美国纽约州纽约市,2008年。ACM公司。
    [41]
    H.Zaragoza、D.Hiemstra和M.Tipping。针对特殊信息检索的语言模型的贝叶斯扩展。《第26届ACM SIGIR信息检索研究与开发国际年会论文集》,SIGIR’03,第4-9页,美国纽约州纽约市,2003年。ACM公司。
    [42]
    C.Zhai和J.Lafferty。应用于即席信息检索的语言模型平滑方法研究。《第24届ACM SIGIR信息检索研究与开发国际年会论文集》,SIGIR’01,第334-342页,美国纽约州纽约市,2001年。ACM公司。
    [43]
    Q.Zhang、Y.Zhangs、H.Yu和X.Huang。基于序列匹配的高效部分重复检测。《第33届ACM SIGIR信息检索研究与开发国际会议论文集》,SIGIR’10,第675-682页,美国纽约州纽约市,2010年。ACM公司。

    引用人

    查看全部
    • (2016)稀疏贝叶斯近似下参数字典的马尔可夫链蒙特卡罗推断IEEE信号处理汇刊10.1109/TSP.2016.253914364:12(3077-3092)在线发布日期:2016年6月1日
    • (2015)用于改进信息检索的Pólya Urn文档语言模型美国计算机学会信息系统汇刊10.1145/274623133:4(1-34)在线发布日期:2015年5月4日
    • (2015)负查询生成:缩小查询可能性检索模型和相关性之间的差距信息检索期刊2017年10月10日至2017年10月11日-015-9257-z18:4(359-378)在线发布日期:2015年6月6日
    • 显示更多引用者

    索引术语

    1. 用于重新发布文章查找的超几何语言模型

      建议

      评论

      信息和贡献者

      问询处

      发布时间

      封面图片ACM会议
      SIGIR’11:第34届国际ACM SIGIR信息检索研究与开发会议记录
      2011年7月
      1374页
      国际标准图书编号:9781450307574
      内政部:10.1145/2009916
      如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

      赞助商

      出版商

      计算机协会

      美国纽约州纽约市

      出版历史

      出版:2011年7月24日

      权限

      请求对此文章的权限。

      检查更新

      作者标记

      1. 超几何的
      2. 语言模型
      3. 链接
      4. 多项式
      5. 在线新闻
      6. 社会化媒体

      限定符

      • 研究文章

      会议

      SIGIR’11号
      赞助商:

      接受率

      3983份提交文件的总体接受率为792份,占20%

      贡献者

      其他指标

      文献计量学和引文

      文献计量学

      文章指标

      • 下载次数(过去12个月)
      • 下载次数(最近6周)0

      其他指标

      引文

      引用人

      查看全部
      • (2016)稀疏贝叶斯近似下参数字典的马尔可夫链蒙特卡罗推断IEEE信号处理汇刊10.1109/TSP.2016.253914364:12(3077-3092)在线发布日期:2016年6月1日
      • (2015)用于改进信息检索的Pólya Urn文档语言模型美国计算机学会信息系统汇刊10.1145/274623133:4(1-34)在线发布日期:2015年5月4日
      • (2015)负查询生成:缩小查询可能性检索模型和相关性之间的差距信息检索期刊2007年10月10日/10791-015-9257-z18:4(359-378)在线发布日期:2015年6月6日
      • (2013)信息检索的超几何模型再认识信息检索技术10.1007/978-3-642-45068-6_6(62-73)网上发布日期:2013年
      • (2012)生成负查询的查询可能性第21届ACM信息和知识管理国际会议记录10.1145/2396761.2398520(1799-1803)在线发布日期:2012年10月29日
      • (2012)推断用户浏览行为的语言意图模型第35届ACM SIGIR信息检索研究与开发国际会议记录10.1145/2348283.2348330(335-344)在线发布日期:2012年8月12日
      • (2011)基于文档指纹和搜索结果记录的文本相似性元搜索引擎2011年IEEE/WIC/ACM网络智能和智能代理技术国际会议记录-第01卷10.1109/WI-IAT.2011.27(146-153)在线发布日期:2011年8月22日

      视图选项

      获取访问权限

      登录选项

      完全访问权限

      查看选项

      PDF格式

      以PDF文件查看或下载。

      PDF格式

      电子阅读器

      使用联机查看电子阅读器.

      电子阅读器

      媒体

      数字

      其他

      桌子

      分享

      分享

      共享此出版物链接

      在社交媒体上分享