高分辨厘米:闭合频繁项集的快速挖掘算法

[算法,bsd3型,数据挖掘-----------,图书馆,程序][建议标签]

闭合频繁项集是发生次数更多的模式事务数据库中定义的阈值。该程序是LCM2的Haskell实现Takeaki Uno和Hiroki Arimura提出的算法是此任务的最快算法。此实现可以使用多个线程。

[跳到自述]

模块

[索引]

HLCM公司

下载

hlcm-0.2.2.tar.gz标准[浏览]（Cabal源包）
程序包描述（如包装中所含）

维修人员角落

包装维护人员

亚历山大·特米尔

对于包维护者和黑客托管者

编辑程序包信息

候选人

没有候选人

版本[RSS（RSS）]	0.2.1,0.2.2
依赖关系	阵列(>=0.2),基础(>=3 && <4),字节删除,字节测试-csv,容器(>=0.3),哈斯克尔98,平行（>=2.2）[细节]
许可证	BSD-3条款
作者	亚历山大·特米尔（Alexandre Termier）、西蒙·马洛（Simon Marlow）、萨特南·辛格（Satnam Singh）
维护人员	Alexandre.Termier@imag.fr
类别	算法,数据挖掘
主页	http://membres-liglab.imag.fr/termier/HLCM/HLCM.html
已上传	通过亚历山大·德米尔在2010年6月16日T10:20:51Z
分配
反向依赖关系	1直接，0间接[细节]
可执行程序	基准hlcm，hlcm
下载	总计1826人（过去30天内有7人）
额定值	2.0（票数：1）[估算人贝叶斯平均]
您的评分	λ λ λ
状态	用户上传的文档生成状态未知[还没有报告]

hlcm-0.2.2自述文件

[返回包描述]

HLCM，Haskell中的并行闭合频繁项集挖掘器。（c） 2010年，亚历山大·特米尔介绍------------发现频繁项集包括发现以下模式在数据中经常重复。数据是一个事务列表，每个事务都由项目组成。用“超市”的比喻更容易理解：-商品是顾客购买的产品-交易是客户购买的产品清单。然后，交易数据库将是超市的采购清单。然后，常见的项目集将是客户经常一起购买的产品。找到这些可以获得有关数据的重要见解。在超市案例中，目标是更好地了解顾客的购买习惯。闭合频繁项集是频繁项集的子集，没有信息丢失。也就是说，知道关闭的频繁项集就足以重新计算所有频繁项集。基本上，在频繁项集中有很多冗余，这些冗余是在封闭的频繁项目集中消除。计算闭合频繁项集的算法比传统算法快几个数量级发现Apriori等频繁项集的算法，因此备受推荐。LCM是这些算法中速度最快的。它是2004年由Takeaki Uno和Hiroki Arimura提出的。HLCM允许Haskell用户从这个优秀的算法中获益，无论是作为一个库或作为独立程序。安装：--------------runhaskell安装程序配置--用户runhaskell安装程序版本建议但不是强制的：runhaskell Setup haddock--可执行文件（构建HTML文档）runhaskell安装程序安装您还可以将cabal与：cabal install hlcm一起使用（XXX VERIFY THIS）示例数据集：-----------------Data目录中提供了几个数据集。首先必须解压缩：cd数据tar xvzf数据集.tgz玩具数据集为：*simple.csv：包含3个可能来自杂货店的事务的csv文件*simple.num：与simple.csv相同，但项目由整数表示*mushroomexpanded.csv：一个关于蘑菇的数据集，其中的项是长字符串。更多信息请点击此处：http://archive.ics.uci.edu/ml/datasets/Mushroom有关如何挖掘这些数据集的示例，请参阅hlcm的haddock文档。基准测试并行运行时：-------------------------------HLCM的目的之一是在仅使用半隐式并行时成为Haskell RTS的真实基准。提供的基准数据集包括：*mushroom.dat：一个小型数据集，大约有8000个交易。6000的支持阈值提供的项目很少，而线程数为100应该会给处理器更多的工作。*connect.dat：一个复杂的数据集，大约有60000个事务。15000的支持阈值将在几分钟内运行，并允许很好地估计速度。可以在此处找到更多数据集：http://fimi.cs.helsinki.fi/data/HLCM可以通过任何预处理直接使用这些数据集。请注意，目前HLCM在加载数据文件方面效率不高，而且是按顺序加载的（这里没有并行性）。可以处理kosarak等大型数据集，但加载时间只需几分钟。您可以使用benchHLCM修改并行策略和参数。有关参数的解释，请参阅黑线鳕文档。