混合目录

mixdir的目标是对高维类别进行聚类数据集。

它可以

算法的详细描述和可以在随附的纸张.如果你觉得这个包有用,请引用

C.Ahlmann Eltze和C.Yau,“MixDir:可扩展贝叶斯聚类高维分类数据”,2018 IEEE第五届国际数据科学和高级分析会议(DSAA),意大利都灵,2018年,第526-539页。

安装

安装.包(“mixdir”)

#或者从github获取最新版本
开发工具::安装github(“const-ae/mixdir”)

例子

蘑菇数据集。

#加载库和数据
图书馆(混合目录)
设置种子(1)

数据(“蘑菇”)
#高维数据集:8124个蘑菇和23个不同特征
蘑菇[1:10,1:5]
#>擦伤帽色帽形帽表面可食
#>1瘀伤棕色凸面光滑有毒
#>2块擦伤黄色凸起光滑可食用
#>3块擦伤白铃铛光滑可食用
#>4块擦伤白色凸起鳞片有毒
#>5无灰色凸面光滑可食用
#>6块瘀伤黄色凸起鳞片可食
#>7处瘀伤白色钟形光滑可食用
#>8块瘀伤白铃鳞片可食用
#>9块瘀伤白色凸起鳞片有毒
#>10块淤青黄铃铛光滑可食用

调用聚类函数混音器关于的子集数据:

#聚类为3个潜在类
结果<- 混音器(蘑菇[1:1000,1:5],n潜伏=)

分析结果

#前10种蘑菇的潜在类别
(结果$预分类,n个=10)
#>  [1] 3 1 1 3 2 1 1 1 3 1

#前10个蘑菇的软聚类
(结果$类_抢劫,n个=10)
#>               [,1]         [,2]         [,3]
#>[1,]3.103495e-07 1.055098e-05 9.999891e-01
#>[2],]9.998594e-01 4.683764e-06 1.359291e-04
#>【3,】9.998944e-01 3.111462e-06 1.025194e-04
#>[4,]5.778033e-04 7.114603e-08 9.994221e-01
#>[5,]3.662625e-07 9.999992e-01 4.183025e-07
#>【6】9.996461e-01 8.764031e-08 3.537838e-04
#>【7】9.998944e-01 3.111462e-06 1.025194e-04
#>【8】9.997331e-01 5.822320e-08 2.668420e-04
#>[9,]5.778033e-04 7.114603e-08 9.994221e-01
#>[10,]9.999999e-01 5.850067e-09 9.845112e-08
情势图::情势图(结果$类_抢劫,群集(_C)=错误的,
                  标签_颜色= 粘贴(“类别”,1:))


#潜在类别1的结构
#(擦伤、帽子颜色为黄色或白色、可食用等)
呜呜声::地图(结果$类别_ ob,1)
#>$擦伤
#>擦伤没有
#> 0.9998223256 0.0001776744
#>
#>$`cap-颜色`
#>棕色、灰色、红色、白色、黄色
#> 0.0001775934 0.0001819672 0.0001776373 0.4079822666 0.5914805356
#>
#>$`cap-形状`
#>钟状凸起平面凹陷
#> 0.3926736 0.4767291 0.1304197 0.0001776
#>
#>$`cap-曲面`
#>纤维鳞状光滑
#> 0.0568571 0.4871396 0.4560033
#>
#>$可食用
#>可食用有毒
#> 0.9998223174 0.0001776826

#每个类最具预测性的特征
查找预测功能(结果,前n个=)
#>列答案类概率
#>19瓶盖-黄色1 0.9993990
#>22帽形钟1 0.9990947
#>1处瘀伤1处0.7089533
#>48食用有毒3 0.9980468
#>15瓶盖-红色3 0.8462032
#>9帽-棕色3 0.6473043
#>5处擦伤2号0.9990364
#>11帽-灰色2 0.9978218
#>32帽形凹陷2 0.9936162
#例如:如果我只知道蘑菇有一个
#黄色帽子,那么我99%肯定它会在一班
预测(结果,c(c)(`帽子-颜色`=“黄色”))
#>          [,1]         [,2]         [,3]
#> [1,] 0.999399 0.0003004692 0.0003004907

#请注意,最具预测性的功能与最典型的功能不同
查找典型特征(结果,前n个=)
#>列答案类概率
#>1处擦伤1 0.9998223
#>43可食用1 0.9998223
#>19盖-黄色1 0.5914805
#>3处瘀伤3 0.9995546
#>27帽状凸起3 0.7460615
#>9帽-棕色3 0.6746224
#>44可食用2 0.9995310
#>5处擦伤,编号2 0.9713177
#>35帽面纤维2 0.7355413

降维

#定义要素
定义(_F)<- 查找定义特征(结果是蘑菇[1:1000,1:5],n个特征= )
打印(def_feat)
#>$个功能
#>[1]“帽子颜色”“擦伤”“可食用”
#>
#>$质量
#> [1] 74.35146

#绘制最重要的特征会给人留下直接的印象
#集群有何不同
绘图_特征(def_加热$功能,结果$类别_抢劫)
#>加载所需的命名空间:ggplot2
#>正在加载所需的命名空间:tidyr

基础模型

该软件包实现了一个变分推理算法来求解贝叶斯潜在类模型(LCM)。