短纸

文档的bag-of-repeats表示

作者：
马蒂亚斯·加莱

法国梅兰施乐欧洲研究中心

法国梅兰施乐欧洲研究中心
查看个人资料

作者信息和声明

SIGIR’13：第36届国际ACM SIGIR信息检索研究与开发会议记录2013年7月第1053-1056页https://doi.org/10.1145/2484028.2484142

发布时间：2013年7月28日出版历史

SIGIR’13：第36届ACM SIGIR信息检索研究与发展国际会议论文集

第1053-1056页

摘要

文档的n-gram表示可以通过放松单词的独立性假设和引入上下文来改进简单的bagof-word表示。然而，这需要增加非描述性的特征，并以指数方式增加向量空间模型的维数。

我们提出了避免这两个陷阱的新表示。它们基于字符串学的合理理论概念，可以使用后缀族中的数据结构算法在最佳渐近时间内进行计算。虽然最大重复在过去被用于类似的任务，但我们展示了另一类等价的重复——最大最大重复——是如何获得类似或更好的结果的，只具有一小部分特征。此类充当所有重复子字符串的最小生成基础。我们还报告了它们在主题建模中的使用，显示了更容易解释的模型。

工具书类

A.Apostolico、O.Denas和A.Dress。用于比较子串分析的有效工具。生物技术杂志，149（3）：120-62010年9月。谷歌学者交叉引用
D.布莱。概率主题模型。CACM，55（4）：77-842012年11月。谷歌学者数字图书馆
D.M.Blei和M.I.Jordan。建模带注释的数据。SIGIR，第127-134页，美国纽约州纽约市，2003年。ACM公司。谷歌学者数字图书馆
D.M.Blei和J.D.Lafferty。使用多单词表达式可视化主题。arXiv，2009年。谷歌学者
M.加勒。用最小语法问题搜索DNA中的紧凑层次结构。雷恩大学1号，2011年2月。谷歌学者
M.Galle和J.-M.Renders。ECIR中Star-EM的新闻文章的完整和半批聚类。施普林格，2012年。谷歌学者数字图书馆
D.古斯菲尔德。字符串、树和序列的算法：计算机科学和计算生物学。剑桥大学出版社，1997年1月。谷歌学者数字图书馆
H.Lodhi、C.Saunders、J.Shawe-Taylor、N.Cristianini和C.Watkins。使用字符串内核的文本分类。机器学习研究杂志，2:419-4442002。谷歌学者数字图书馆
T.Masada、A.Takasu、Y.Shibata和K.Oguri。具有最大子串的聚类文档。在企业信息系统中，第102卷，第19-34页。施普林格-柏林-海德堡，2012年。谷歌学者交叉引用
尼古拉斯、C.卢梭、A.西格尔、P.西格尔、F.科斯特、P.杜兰德、S.坦普尔、A.-S.瓦林和F.马赫。在基因组序列上模拟局部重复。技术报告，INRIA，2008年。谷歌学者
D.Okanohara和J.-I.Tsujii。具有所有子字符串功能的文本分类。在SDM中，第838-846页，2009年。谷歌学者交叉引用
S.J.Puglishi、W.F.Smyth和M.Yusufu。计算字符串中所有重复项的快速优化算法。PSC，第161-169页，2008年。谷歌学者
C.van Rijsbergen，《信息检索》。巴特沃斯，1979年。谷歌学者数字图书馆
H.M.Wallach先生。主题建模：超越纸上谈兵。在ICML中，第977-984页。ACM，2006年。谷歌学者数字图书馆
X.Wang、A.McCallum和X.Wei。主题N-Grams：短语和主题发现，及其在信息检索中的应用。在ICDM中，第697-702页。IEEE，2007年10月。谷歌学者数字图书馆
J.G.沃尔夫。通过优化和分布分析学习语法和意义。《语言习得的分类和过程》，1988年1月。谷歌学者

索引术语

文档的bag-of-repeats表示
1. 信息系统
  1. 信息检索
    1. 文件表示法

建议

线性时间内上下文敏感重复的字母相关算法

重复序列（repeats）的识别是基因组序列分析的重要组成部分，有几十种算法可以搜索精确或近似的重复序列。最大和超最大（精确）重复的概念有。。。
阅读更多信息
广义最长重复的插入查询

由于字符串在许多子领域（包括计算生物学）中的应用，对字符串进行最长重复查询需要覆盖特定字符串位置点查询的最长重复子字符串。在本文中，我们扩展了点查询。。。
阅读更多信息
紧后缀向量和最大重复的在线构造

字符串的后缀向量是相当于后缀树的索引数据结构。Monostori等人于2001年首次引入该方法[K.Monostori]，《识别大型数字馆藏中重叠文档的高效计算方法》。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于
SIGIR’13：第36届国际ACM SIGIR信息检索研究与开发会议记录
2013年7月
1188页
国际标准图书编号：9781450320344
内政部：10.1145/2484028
总主席：
加雷斯·琼斯
爱尔兰都柏林城市大学
，
帕拉伊克·谢里丹
爱尔兰都柏林城市大学
，
课程主席：
黛安凯利
美国北卡罗来纳大学教堂山分校
，
马尔滕·德·里杰克
荷兰阿姆斯特丹大学
，
酒井忠雄
微软亚洲研究院，中国
版权所有©2013 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或收取费用。从请求权限[电子邮件保护]
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 发布时间：2013年7月28日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
文件表示法
最大重复次数
字符串学
限定符
- 短纸
会议

接受率
2013年SIGIR纸张接受率73属于366提交，20%总体验收率792属于3,983提交，20%
更多
资金来源
其他指标
查看文章指标

文章指标
- 7
  引文总数
  查看引文
- 290
  下载总量
- 下载次数（过去12个月）5
- 下载次数（最近6周）1
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

文档的bag-of-repeats表示

SIGIR’13：第36届ACM SIGIR信息检索研究与发展国际会议论文集

摘要

工具书类

引用人

索引术语

建议

线性时间内上下文敏感重复的字母相关算法

广义最长重复的插入查询

紧后缀向量和最大重复的在线构造

评论