毕业年份

2017

文档类型

开放存取高级论文

学位名称

理学学士

部门

数学

读卡器1

塔利西亚·威廉姆斯

读卡器2

Tanja Srebotnjak公司

读卡器3

布莱克·亨特

权限信息

©2017 Dylan K.Baker版权所有

摘要

由于网上有丰富的书面信息,能够自动合成和提取文本语料库中有意义的信息是很有用的。我们提出了一种独特的方法来可视化文本语料库中文档之间的关系。通过使用潜在Dirichlet分配从语料库中提取主题,我们创建了一个图,其节点表示单个文档,其边权重表示文档中主题分布之间的距离。然后使用多维缩放技术缩放这些边长,以便将更多类似的文档聚集在一起。将该方法应用于多个数据集,我们证明了这些图在可视化地表示主题空间中的高维文档聚类方面是有用的。

源全文

https://www.math.hmc.edu网址/~数据库管理员/论文/

分享

硬币