×

使用数据质量矩阵进行分类挖掘的数据准备。 (英语) Zbl 1159.90437号

摘要:数据挖掘旨在发现组织数据库中的模式。然而,大多数挖掘技术都不考虑数据库质量的知识。在这项工作中,我们展示了如何将数据质量领域的最新进展纳入分类挖掘,这些进展将数据库视为不精确制造过程的产物,其中缺陷/缺陷被捕获到质量矩阵中。我们开发了一种将数据质量矩阵纳入数据挖掘分类任务的通用方法。我们的工作与现有的数据准备技术不同,因为当其他方法检测和修复错误以确保与整个数据集的一致性时,我们的工作利用了数据如何产生/制造的先验知识。

MSC公司:

90B70型 组织理论、运筹学中的人力规划
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 巴鲁,D.P。;Tayi,G.K.,《数据质量增强资源分配方法》,ACM通信,32,3(1989)
[2] 巴鲁,D.P。;Tayi,G.K.,《提高数据仓库环境中的数据质量》,《ACM的通信》,42,1(1999)
[3] 巴鲁,D.P。;Wang,R.Y。;Pazer,H.L。;Tayi,G.K.,《信息制造系统建模以确定信息产品质量》,《管理科学》,44,4(1998)·Zbl 1004.90029号
[4] 贝里,M。;Linoff,G.,《掌握数据挖掘》(1999),威利
[5] Bilmes J.A.,1997年。关于EM算法及其在高斯混合模型和隐马尔可夫模型参数估计中的应用的温和教程。技术报告。伯克利大学,ICSI-TR-97-0212997。;Bilmes J.A.,1997年。关于EM算法及其在高斯混合模型和隐马尔可夫模型参数估计中的应用的温和教程。技术报告。伯克利大学,ICSI-TR-97-021997。
[6] Breiman,L.,Bagging预测器,机器学习,26,2(1996)·Zbl 0858.68080号
[7] Davidson,I.,2004年。一种针对稳定学习者的集成方法,具有性能边界。2004年,圣何塞,第19届AAAI会议。;Davidson,I.,2004年。一种针对稳定学习者的集成方法,具有性能边界。在:第19届AAAI会议,圣何塞,2004年。
[8] Davidson,I.、Grover,A.、Satyanarayana,A.、Tayi,G.K.,2004年。将数据质量矩阵纳入数据挖掘算法的通用方法。In:第十届ACM KDD会议-西雅图工业轨道。;Davidson,I.、Grover,A.、Satyanarayana,A.、Tayi,G.K.,2004年。一种将数据质量矩阵纳入数据挖掘算法的通用方法。在:第十届ACM KDD会议-西雅图工业轨道。
[9] 多明戈斯,P.,2000年。零损失和平方损失的统一偏差-方差分解。摘自:《第17届全国人工智能会议论文集》,2000年。;多明戈斯,P.,2000年。零损失和平方损失的统一偏差-方差分解。摘自:《第17届全国人工智能会议论文集》,2000年。
[10] Efron,B.,Bootstrap方法,年鉴统计,7,1-26(1979)·Zbl 0406.62024号
[11] Friedman,J.H.,《关于偏差、方差、0-1损失和维度诅咒》,数据挖掘和知识发现,155-77(1997)
[12] Gitlow,H.S.,《质量管理体系:实用指南》(2001),圣露西出版社,ISBN:157-4x44-2615
[13] Kohavi,R。;Wolpert,D.H.,零损失函数的偏差加方差分解,(第13届ICML会议记录(1996),Morgan Kaufmann)
[14] Langford,J.,2003年。分类实用预测理论教程。摘自:2003年8月21日至24日在华盛顿特区举行的第20届ICML会议上发布的教程。;Langford,J.,2003年。分类实用预测理论教程。摘自:2003年8月21日至24日在华盛顿特区举行的第20届ICML会议上发布的教程·Zbl 1222.68243号
[15] Langford,J.,Seeger,M.,2001年。平均分类器的边界。CMU技术报告CMU-CS-01-102。;Langford,J.,Seeger,M.,2001年。平均分类器的边界。CMU技术报告CMU-CS-01-102。
[16] Lee,Y。;皮皮诺,L。;斯特朗,D.M。;Wang,R.Y.,《过程嵌入式数据完整性》,《数据库管理杂志》,2004年1月至3月15日,第1期
[17] McAllester,D.A.,1999年。PAC-Baysian模型平均。摘自:《第十二届计算学习理论会议论文集》,加州圣克鲁斯,1999年。;麦卡利斯特,地方检察官,1999年。PAC-Baysian模型平均。摘自:《第十二届计算学习理论会议论文集》,加州圣克鲁斯,1999年·Zbl 0945.68157号
[18] Mitchell,T.,《机器学习》(1997),McGraw-Hill:McGraw-Hill 1997,ISBN:0070428077·兹比尔0913.68167
[19] Olafsson,S。;Lia,X。;Wu,S.,《运筹学与数据挖掘》,《欧洲运筹学杂志》,187,3(2008)·Zbl 1137.90776号
[20] Pierce,E.M.,用控制矩阵评估数据质量,ACM通信,47,2(2004)
[21] 罗素,S。;Norvig,P.,《人工智能:现代方法》(2002),ISBN:01360124
[22] Tan,P。;斯坦巴赫,M。;库马尔,V.,《数据挖掘导论》(2005),艾迪森·韦斯利,ISBN:0321321367
[23] Tayi,G.K。;Ballou,D.P.,《检查数据质量》,《ACM通信》,第41、2页(1998年)
[24] 这个电子Poli<http://colibase.bham.ac.uk>; 这个电子Poli<http://colibase.bham.ac.uk>
[25] Towell,G.,Shavlik,J.,Noordewier,M.,1990年。基于知识的人工神经网络对近似领域理论的改进。In:AAAI会议,1990年。;Towell,G.,Shavlik,J.,Noordewier,M.,1990年。基于知识的人工神经网络对近似领域理论的改进。摘自:1990年AAAI会议。
[26] 王,R。;Strong,D.,《超越准确性:数据质量对数据消费者意味着什么》,《管理信息系统杂志》,12,4,5-33(1996)
[27] Widmer,G。;Kubat,M.,《概念漂移和隐藏背景下的学习》,《机器学习杂志》,第23期,第1期(1996年)
[28] 温克勒,W.E.,1994年。记录链接的高级方法。在:调查研究方法部分的会议记录中。美国统计协会,第467-472页。;温克勒,W.E.,1994年。记录链接的高级方法。在:调查研究方法部分的会议记录中。美国统计协会,第467-472页。
[29] (Zhu,X.;Davidson,I.,《知识发现和数据挖掘:挖掘真实世界数据的挑战和现实》(2007),IDEAL出版社),国际标准图书编号:1599042525
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。