基于搜索引擎建议和无监督次主题聚类的主要文档分类框架

基于搜索引擎建议和无监督次主题聚类的主要文档分类框架

陈昭、武志太郎、川端康熙
版权:© 2021|体积:15|问题:4|页:15
国际标准编号:1557-3958|EISSN公司:1557-3966|EISBN13:9781799859857|内政部:10.4018/IJCINI.20211001.oa42
引用文章引用文章

MLA公司

Zhao,Chen等,“使用搜索引擎建议和无监督次主题聚类识别主要文档的分类框架”IJCINI公司2021年第4期第15卷:第1-15页。http://doi.org/10.4018/IJCINI.20211001.oa42

亚太地区

Zhao,C.、Utsuro,T.和Kawada,Y.(2021)。使用搜索引擎建议和无监督次主题聚类识别主要文档的分类框架。国际认知信息学与自然智能杂志(IJCINI),15(4), 1-15. http://doi.org/10.4018/IJCINI.20211001.oa42

芝加哥

Zhao、Chen、Takehito Utsuro和Yasuhide Kawada。“使用搜索引擎建议和无监督次主题聚类识别主要文档的分类框架,”国际认知信息学与自然智能杂志(IJCINI)第4期:1-15。http://doi.org/10.4018/IJCINI.20211001.oa42

导出参考

门德利
最喜欢的完整发布下载

摘要

本文解决了从一小部分类似文档中自动识别出超出主题的文档的问题,这些文档预计会涉及一些常见主题。目标是从集合中删除噪声文档。提出了一种基于主题模型的分类框架,用于发现非主题文档。本文引入了带注释的{it搜索引擎建议}的新概念,其中本文将用于搜索页面的任何搜索查询作为该页面中内容的表示。本文采用词嵌入来创建单词和文档的分布式表示,并对搜索引擎建议进行相似性比较。结果表明,搜索引擎可以对文本内容进行高度准确的语义表示,并且与主题概率排序的基线技术相比,使用这种表示进行相关性度量的文档分析算法在主题内内容过滤方面具有令人满意的性能。