×

挖掘数据以查找高活动性的子集。 (英语) Zbl 1040.62096号

摘要:生物特征研究中的许多数据挖掘问题都与试图识别与其他案例截然不同的案例子集的特征有关。例如,在研究一个响应变量(Y)和一组预测变量之间的关系时,通常需要确定预测变量的值范围与高可能性(Y=1)(如果Y是伯努利变量)或高值(Y是连续变量)相关。
我们描述了一个准则(H)和一个递归分区方法(ARF),它们直接解决了这个问题。提出了一种计算算法,使ARF即使在非常大的数据集上也可以使用。ARF的基本版本可以推广到多个响应变量、\(Y_1、\ dots、Y_t\)和其他设置的情况。我们通过挖掘结构活动数据库、医院数据库以及其他一些真实和模拟数据集来说明ARF的有效性。最后,我们提出了数据挖掘的基本范式。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agresti,A.,《分类数据分析》(1990),John Wiley:John Wiley NY,USA·Zbl 0716.62001号
[2] Blake,C.L.,Merz,C.J.,1998年。UCI机器学习数据库库[网址:http://www.ics.uci.edu/mlearn/MLRepository.html;Blake,C.L.,Merz,C.J.,1998年。UCI机器学习数据库库[网址:http://www.ics.uci.edu/mlearn/MLRepository.html
[3] 布雷曼,L。;弗里德曼,J.H。;Olshen,R.A。;Stone,C.J.,《分类和回归树》(1984),查普曼和霍尔:查普曼&霍尔伦敦·Zbl 0541.62042号
[4] Cabrera,J。;McDougal,A.,《统计咨询》(2002),《施普林格:柏林施普林格》·Zbl 0985.62004号
[5] 洛杉矶克拉克。;Pregibon,D.,基于树的模型,(Chambers,J.;Hastie,T.J.,《S中的统计模型》(1992),沃兹沃斯:加州沃兹沃思,美国)
[6] 法耶兹,U.M。;Piatetsky-Shapiro,G。;Smyth,P。;Uthurusamy,R.,《知识发现和数据挖掘的进展》(1996),AAAI出版社:AAAI Press Menlo Park,CA,USA
[7] 弗里德曼,J.H.,1997年。数据挖掘和统计:有什么联系?,http://www-stat.stanford.edu/jhf/;弗里德曼,J.H.,1997年。数据挖掘和统计:有什么联系?,http://www-stat.stanford.edu/jhf公司/
[8] 弗里德曼,J.H。;Fisher,N.,《高维数据中的颠簸搜索》,Statist。计算。,9, 123-143 (1999)
[9] Gordon,L。;Schilling,M.S。;Waterman,M.S.,《长水头运行的极值理论》,J.Probab。理论与相关领域,72,279-287(1986)·Zbl 0587.60031号
[10] Hartigan,J.A.,《聚类算法》(1975),约翰·威利:约翰·威利,纽约·Zbl 0321.62069号
[11] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推断和预测》(2001),Springer:Springer New York·Zbl 0973.62007号
[12] 霍金斯博士。;Kass,G.V.,《自动交互检测》(Hawkins,D.M.,《多元分析主题》(1982),剑桥大学出版社:剑桥大学出版社)·Zbl 0487.6202号
[13] Lee,Y.S.,Buja,A.,1999年。基于树的回归和分类的数据挖掘标准,未发布,http://www.research.att.com/安德烈亚斯/;Lee,Y.S.,Buja,A.,1999年。基于树的回归和分类的数据挖掘标准,未发布,http://www.research.att.com/安德里亚斯/
[14] 摩根,J.N。;Sonquist,J.A.,《调查数据分析中的问题和建议》,J.Amer。统计师。协会,58,415-434(1963)·Zbl 0114.10103中
[15] 昆兰,J.R.,1993年。C4.5:加利福尼亚州圣马特奥市Morgan Kauffman的机器学习课程(http://www.rulequest.com/see5-info.html; 昆兰,J.R.,1993年。C4.5:加利福尼亚州圣马特奥市Morgan Kauffman的机器学习课程(http://www.rulequest.com/see5-info.html
[16] Schilling,M.S.,《最长距离的头脑》,《大学数学》。J.,21,196-207(1990)·Zbl 0995.60502号
[17] Tukey,J.W.,《数据分析的未来》,《数学年鉴》。统计人员。,第33页,第1-67页(1962年)·Zbl 0107.36401号
[18] Tukey,J.W.,《探索性数据分析》(1977年),艾迪森·韦斯利:艾迪森·韦斯利阅读,马萨诸塞州·Zbl 0409.62003号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。