混合目录
mixdir的目标是对高维类别进行聚类数据集。
它可以
- 处理丢失的数据
- 推断出合理数量的潜在类别(试一试
mixdir(select_latent=真)
)
- 具有70000多个观测值和60个观测值的聚类数据集特征
- 传播不确定性并产生软聚类
算法的详细描述和可以在随附的纸张.如果你觉得这个包有用,请引用
C.Ahlmann Eltze和C.Yau,“MixDir:可扩展贝叶斯聚类高维分类数据”,2018 IEEE第五届国际数据科学和高级分析会议(DSAA),意大利都灵,2018年,第526-539页。
安装
安装.包(“mixdir”)
#或者从github获取最新版本
开发工具::安装github(“const-ae/mixdir”)
例子
将蘑菇数据集。
#加载库和数据
图书馆(混合目录)
设置种子(1)
数据(“蘑菇”)
#高维数据集:8124个蘑菇和23个不同特征
蘑菇[1:10,1:5]
#>擦伤帽色帽形帽表面可食
#>1瘀伤棕色凸面光滑有毒
#>2块擦伤黄色凸起光滑可食用
#>3块擦伤白铃铛光滑可食用
#>4块擦伤白色凸起鳞片有毒
#>5无灰色凸面光滑可食用
#>6块瘀伤黄色凸起鳞片可食
#>7处瘀伤白色钟形光滑可食用
#>8块瘀伤白铃鳞片可食用
#>9块瘀伤白色凸起鳞片有毒
#>10块淤青黄铃铛光滑可食用
调用聚类函数混音器
关于的子集数据:
#聚类为3个潜在类
结果<- 混音器(蘑菇[1:1000,1:5],n潜伏=三)
分析结果
#前10种蘑菇的潜在类别
头(结果$预分类,n个=10)
#> [1] 3 1 1 3 2 1 1 1 3 1
#前10个蘑菇的软聚类
头(结果$类_抢劫,n个=10)
#> [,1] [,2] [,3]
#>[1,]3.103495e-07 1.055098e-05 9.999891e-01
#>[2],]9.998594e-01 4.683764e-06 1.359291e-04
#>【3,】9.998944e-01 3.111462e-06 1.025194e-04
#>[4,]5.778033e-04 7.114603e-08 9.994221e-01
#>[5,]3.662625e-07 9.999992e-01 4.183025e-07
#>【6】9.996461e-01 8.764031e-08 3.537838e-04
#>【7】9.998944e-01 3.111462e-06 1.025194e-04
#>【8】9.997331e-01 5.822320e-08 2.668420e-04
#>[9,]5.778033e-04 7.114603e-08 9.994221e-01
#>[10,]9.999999e-01 5.850067e-09 9.845112e-08
情势图::情势图(结果$类_抢劫,群集(_C)=错误的,
标签_颜色= 粘贴(“类别”,1:三))
#潜在类别1的结构
#(擦伤、帽子颜色为黄色或白色、可食用等)
呜呜声::地图(结果$类别_ ob,1)
#>$擦伤
#>擦伤没有
#> 0.9998223256 0.0001776744
#>
#>$`cap-颜色`
#>棕色、灰色、红色、白色、黄色
#> 0.0001775934 0.0001819672 0.0001776373 0.4079822666 0.5914805356
#>
#>$`cap-形状`
#>钟状凸起平面凹陷
#> 0.3926736 0.4767291 0.1304197 0.0001776
#>
#>$`cap-曲面`
#>纤维鳞状光滑
#> 0.0568571 0.4871396 0.4560033
#>
#>$可食用
#>可食用有毒
#> 0.9998223174 0.0001776826
#每个类最具预测性的特征
查找预测功能(结果,前n个=三)
#>列答案类概率
#>19瓶盖-黄色1 0.9993990
#>22帽形钟1 0.9990947
#>1处瘀伤1处0.7089533
#>48食用有毒3 0.9980468
#>15瓶盖-红色3 0.8462032
#>9帽-棕色3 0.6473043
#>5处擦伤2号0.9990364
#>11帽-灰色2 0.9978218
#>32帽形凹陷2 0.9936162
#例如:如果我只知道蘑菇有一个
#黄色帽子,那么我99%肯定它会在一班
预测(结果,c(c)(`帽子-颜色`=“黄色”))
#> [,1] [,2] [,3]
#> [1,] 0.999399 0.0003004692 0.0003004907
#请注意,最具预测性的功能与最典型的功能不同
查找典型特征(结果,前n个=三)
#>列答案类概率
#>1处擦伤1 0.9998223
#>43可食用1 0.9998223
#>19盖-黄色1 0.5914805
#>3处瘀伤3 0.9995546
#>27帽状凸起3 0.7460615
#>9帽-棕色3 0.6746224
#>44可食用2 0.9995310
#>5处擦伤,编号2 0.9713177
#>35帽面纤维2 0.7355413
降维
#定义要素
定义(_F)<- 查找定义特征(结果是蘑菇[1:1000,1:5],n个特征= 三)
打印(def_feat)
#>$个功能
#>[1]“帽子颜色”“擦伤”“可食用”
#>
#>$质量
#> [1] 74.35146
#绘制最重要的特征会给人留下直接的印象
#集群有何不同
绘图_特征(def_加热$功能,结果$类别_抢劫)
#>加载所需的命名空间:ggplot2
#>正在加载所需的命名空间:tidyr
基础模型
该软件包实现了一个变分推理算法来求解贝叶斯潜在类模型(LCM)。