主页 > 哈维_穆德 > HMC_学生 > HMC_这些 > 100
迪伦·贝克,哈维·穆德学院跟随
2017
开放存取高级论文
理学学士
数学
塔利西亚·威廉姆斯
Tanja Srebotnjak公司
布莱克·亨特
在中发布的工作的使用条款克莱蒙特奖学金.
©2017 Dylan K.Baker版权所有
由于网上有丰富的书面信息,能够自动合成和提取文本语料库中有意义的信息是很有用的。我们提出了一种独特的方法来可视化文本语料库中文档之间的关系。通过使用潜在Dirichlet分配从语料库中提取主题,我们创建了一个图,其节点表示单个文档,其边权重表示文档中主题分布之间的距离。然后使用多维缩放技术缩放这些边长,以便将更多类似的文档聚集在一起。将该方法应用于多个数据集,我们证明了这些图在可视化地表示主题空间中的高维文档聚类方面是有用的。
Baker,Dylan,“文档相似性网络:文本语料库中关系可视化的新技术”(2017年)。HMC高级论文. 100.https://schoolrship.claremont.edu/hmc_theses/100
https://www.math.hmc.edu网址/~数据库管理员/论文/
下载
自2017年6月14日起
应用统计共享空间,其他计算机科学公共资源,其他数学常识
高级搜索