MDL4BMF

MDL4BMF:布尔矩阵分解的最小描述长度。矩阵分解是一种强大的数据挖掘工具,其中给定的数据矩阵由两个或多个因子矩阵的乘积逼近。在其他任务中,矩阵分解经常被用来分离全局结构和噪声。然而,这需要解决“模型顺序选择问题”,即确定因式分解的适当秩,也就是说,要回答细粒度结构在哪里停止,噪声从哪里开始。布尔矩阵分解(BMF)——数据、因子和矩阵乘积都是布尔的,近年来越来越受到数据挖掘界的关注。如解释能力强、技巧性强。然而,到目前为止,还没有一种方法可以为BMF选择正确的模型顺序。在本文中,我们建议使用最小描述长度(MDL)原则来完成这项任务。除了解决问题外,这种有充分依据的方法还有许多优点;例如,它是自动的,不需要似然函数,速度快,而且如实验所示,是非常精确的。我们给出了BMF的描述长度函数,使之适用于任何BMF算法。我们讨论如何构造一个合适的编码:从一个简单直观的方法开始,我们得到一个高效的基于数据模型的BMF编码。我们扩展了现有的BMF算法,使用MDL来识别最佳布尔矩阵分解,分析了问题的复杂性,并进行了广泛的实验评估以研究其行为。