教程>聚集性信息瓶颈

这个聚合信息瓶颈(AIB)算法通过迭代合并离散数据,贪婪地压缩离散数据导致数据和类标签尽量减少。

在这里,我们测试AIB的识别问题高斯混合的最佳量化。本案例中的数据是二维的:

由三组分高斯混合生成的随机数据(类别标签用颜色表示)。

我们将这些数据量化在一个固定的格子上(如下图),并为每个类构造直方图。

f1=量化(X1、D、K);f2=量化(X2,D,K);f3=量化(X3,D,K);Pcx(1,:)=vl_binum(Pcx,:),个(大小(f1)),f1);Pcx(2,:)=vl_binum(Pcx,:),个(大小(f2)),f2);Pcx(3,:)=vl_binum(Pcx,:),个(大小(f3)),f3);

接下来,我们应用AIB:

[父母,成本]=vl_aib(Pcx);

这为我们提供了每个列的父级列表在里面个人电脑,形成一棵合并树。我们现在可以“削减”这个树以获得任意数量的簇。

合并树的三个“剪切”,显示10个、3个和2个集群。这个灰色方块是树中没有任何数据点的节点它们被量化了。

请注意,生成的集群在中不必是连续的原始空间。