×

布尔因子分解作为布尔数据分类预处理方法的影响。 (英语) Zbl 1305.15036号

摘要:我们探讨了布尔矩阵分解在布尔数据分类中的数据预处理的应用。在我们之前的工作中,我们证明了将原始布尔属性替换为因子的预处理,即通过布尔矩阵分解从原始布尔属性中获得新的布尔属性,可以提高分类质量。本文的目的是探讨文献中提出的各种布尔因式分解方法如何影响分类质量的问题。特别是,我们比较了五种因子分解方法,给出了实验结果,并概述了未来研究的问题。

MSC公司:

15A23型 矩阵的因式分解
46层36 因素分类
62H25个 因子分析和主成分;对应分析
65楼30 其他矩阵算法(MSC2010)
68立方英尺 知识表示
68周25 近似算法

软件:

4.5条;UCI-毫升
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Asuncion,A.,Newman,D.J.:加州大学欧文分校UCI机器学习库信息与计算机科学学院(2007年)。http://www.ics.uci.edu/mlearn/MLRepository.html
[2] Belohlavek,R.,Vychodil,V.:通过矩阵分解的新方法发现二进制数据中的最佳因子。J.计算。系统。科学。76(1), 3-20 (2010) ·Zbl 1180.15026号 ·doi:10.1016/j.jcss.2009.05.002
[3] Belohlavek,R.,Trnecka,M.:布尔矩阵因式分解中的自下近似:几何和新算法(已提交,可在arXiv:1306.4905[cs.NA]上获得)·Zbl 1328.68295号
[4] Chung,Y.,Lee,S.Y.,Elston,R.C.,Park,T.:用于检测基因交互作用的基于奇数比的多维度约简方法。生物信息学23(1),71-76(2007)·doi:10.1093/bioinformatics/btl557
[5] Ganter,B.,Glodeanu,C.V.:顺序因子分析。勒克特。注释计算。科学。7278, 128-139 (2012) ·兹比尔1360.62304 ·doi:10.1007/978-3-642-29892-9_15
[6] Ganter,B.,Wille,R.:形式概念分析。数学基础。柏林施普林格(1999)·Zbl 0909.06001号 ·doi:10.1007/978-3-642-59830-2
[7] Geerts,F.、Goethals,B.、Mielikäinen,T.:平铺,数据库。摘自:《2004年会议录》,LNCS,第3245卷,第278-289页(2004)·Zbl 1110.68373号
[8] Kim,K.H.In:Dekker,M.(编辑):布尔矩阵理论与应用(1982)·Zbl 0495.15003号
[9] Kohavi,R.:关于精度估计和模型选择的交叉验证和引导的研究。程序。IJCAI,1137-1145(1995)
[10] T.M.米切尔:机器学习。McGraw-Hill(1997)·Zbl 0913.68167号
[11] Miettinen,P.、Mielikäinen,T.、Gionis,A.、Das,G.、Mannila,H.:离散基问题。IEEE传输。知识。《数据工程》20(10),1348-1362(2008)。(PKDD 2006的初步版本,第335-346页。)·doi:10.1109/TKDE.2008.53
[12] Outrata,J.通过FCA预处理机器学习的输入数据。载:《CLA 2010年会议记录》,第187-198页,西班牙塞维利亚
[13] Outrata,J.机器学习中数据预处理的布尔因子分析。摘自:ICMLA 2010年会议记录,第899-902页,美国华盛顿特区
[14] Outrata,J.,Vychodil,V.:计算由对象属性关系数据引起的galois连接不动点的快速算法。信息科学。185(1) (114127) ·Zbl 1239.68070号
[15] Quinlan,J.R.:C4.5:机器学习程序。摩根·考夫曼(1993)
[16] Ritchie,M.D.等人:多因素维度降低揭示了散发性乳腺癌雌激素代谢基因之间的高阶相互作用。《美国遗传学杂志》69,138-147(2001)·doi:10.1086/321276
[17] Tatti,N.、Mielikäinen,T.、Gionis,A.、Mannila,H.:二进制数据的维数是多少?程序。ICDM,603-612(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。