跳到主要内容
10.1145/2484028.2484142acm会议文章/章节视图摘要出版物页面红外会议记录会议集合
短纸

文档的bag-of-repeats表示

发布时间:2013年7月28日出版历史

摘要

文档的n-gram表示可以通过放松单词的独立性假设和引入上下文来改进简单的bagof-word表示。然而,这需要增加非描述性的特征,并以指数方式增加向量空间模型的维数。

我们提出了避免这两个陷阱的新表示。它们基于字符串学的合理理论概念,可以使用后缀族中的数据结构算法在最佳渐近时间内进行计算。虽然最大重复在过去被用于类似的任务,但我们展示了另一类等价的重复——最大最大重复——是如何获得类似或更好的结果的,只具有一小部分特征。此类充当所有重复子字符串的最小生成基础。我们还报告了它们在主题建模中的使用,显示了更容易解释的模型。

工具书类

  1. A.Apostolico、O.Denas和A.Dress。用于比较子串分析的有效工具。生物技术杂志,149(3):120-62010年9月。谷歌学者谷歌学者交叉引用交叉引用
  2. D.布莱。概率主题模型。CACM,55(4):77-842012年11月。谷歌学者谷歌学者数字图书馆数字图书馆
  3. D.M.Blei和M.I.Jordan。建模带注释的数据。SIGIR,第127-134页,美国纽约州纽约市,2003年。ACM公司。谷歌学者谷歌学者数字图书馆数字图书馆
  4. D.M.Blei和J.D.Lafferty。使用多单词表达式可视化主题。arXiv,2009年。谷歌学者谷歌学者
  5. M.加勒。用最小语法问题搜索DNA中的紧凑层次结构。雷恩大学1号,2011年2月。谷歌学者谷歌学者
  6. M.Galle和J.-M.Renders。ECIR中Star-EM的新闻文章的完整和半批聚类。施普林格,2012年。谷歌学者谷歌学者数字图书馆数字图书馆
  7. D.古斯菲尔德。字符串、树和序列的算法:计算机科学和计算生物学。剑桥大学出版社,1997年1月。谷歌学者谷歌学者数字图书馆数字图书馆
  8. H.Lodhi、C.Saunders、J.Shawe-Taylor、N.Cristianini和C.Watkins。使用字符串内核的文本分类。机器学习研究杂志,2:419-4442002。谷歌学者谷歌学者数字图书馆数字图书馆
  9. T.Masada、A.Takasu、Y.Shibata和K.Oguri。具有最大子串的聚类文档。在企业信息系统中,第102卷,第19-34页。施普林格-柏林-海德堡,2012年。谷歌学者谷歌学者交叉引用交叉引用
  10. 尼古拉斯、C.卢梭、A.西格尔、P.西格尔、F.科斯特、P.杜兰德、S.坦普尔、A.-S.瓦林和F.马赫。在基因组序列上模拟局部重复。技术报告,INRIA,2008年。谷歌学者谷歌学者
  11. D.Okanohara和J.-I.Tsujii。具有所有子字符串功能的文本分类。在SDM中,第838-846页,2009年。谷歌学者谷歌学者交叉引用交叉引用
  12. S.J.Puglishi、W.F.Smyth和M.Yusufu。计算字符串中所有重复项的快速优化算法。PSC,第161-169页,2008年。谷歌学者谷歌学者
  13. C.van Rijsbergen,《信息检索》。巴特沃斯,1979年。谷歌学者谷歌学者数字图书馆数字图书馆
  14. H.M.Wallach先生。主题建模:超越纸上谈兵。在ICML中,第977-984页。ACM,2006年。谷歌学者谷歌学者数字图书馆数字图书馆
  15. X.Wang、A.McCallum和X.Wei。主题N-Grams:短语和主题发现,及其在信息检索中的应用。在ICDM中,第697-702页。IEEE,2007年10月。谷歌学者谷歌学者数字图书馆数字图书馆
  16. J.G.沃尔夫。通过优化和分布分析学习语法和意义。《语言习得的分类和过程》,1988年1月。谷歌学者谷歌学者

索引术语

  1. 文档的bag-of-repeats表示

    建议

    评论

    登录选项

    检查您是否可以通过登录凭据或您的机构访问本文。

    登录

    完全访问权限

    • 发布于

      封面图片ACM会议
      SIGIR’13:第36届国际ACM SIGIR信息检索研究与开发会议记录
      2013年7月
      1188页
      国际标准图书编号:9781450320344
      内政部:10.1145/2484028

      版权所有©2013 ACM

      如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或收取费用。从请求权限[电子邮件保护]

      出版商

      计算机协会

      美国纽约州纽约市

      出版历史

      • 发布时间:2013年7月28日

      权限

      请求有关此文章的权限。

      请求权限

      检查更新

      限定符

      • 短纸

      接受率

      2013年SIGIR纸张接受率73属于366提交,20%总体验收率792属于3,983提交,20%

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用eReader联机查看。

    电子阅读器