×

统计声音模式发现教程。 (英语) Zbl 1464.62305号

摘要:统计上可靠的模式发现利用统计假设测试的严格性来克服阻碍模式发现的标准数据挖掘方法的许多问题。最重要的是,应用适当的统计测试可以精确控制错误发现的风险,这些错误发现是在样本数据中发现的模式,但不适用于提取样本的更广泛人群。统计测试也可以用于筛选出不太可能有用的模式,删除数据中关键模式的无信息变化。本教程介绍了支撑这一快速发展领域的关键统计和数据挖掘理论和技术。我们主要讨论两类常见的模式:表示条件和结果部分之间的统计相关性的依赖规则,以及表示集合元素之间相互依赖的依赖集。我们澄清了统计相关性的其他解释,并引入了适当的测试来评估不同情况下模式的统计重要性。我们还介绍了在评估大量模式时控制虚假发现可能性的特殊技术。这篇论文的目标受众广泛。它为任何希望进入或了解统计合理模式发现研究或实践的数据挖掘研究人员或从业者提供了必要的统计背景和最新技术的总结。它可以为任何具有数据科学一般背景的读者提供统计声音模式发现领域的一般介绍。

MSC公司:

62H15型 多元分析中的假设检验
62华氏35 多元分析中的图像分析
62兰特 大数据和数据科学的统计方面
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aggarwal C,Han J(2014)频繁模式挖掘。施普林格,查姆·Zbl 1297.68010号
[2] Aggarwal C,Yu P(2001)在线生成关联规则的新方法。IEEE Trans Knowl Data Eng 13(4):527-540
[3] Agrawal R,Imielinski T,Swami A(1993)挖掘大型数据库中项目集之间的关联规则。In:Buneman P,Jajodia S(eds)《1993年ACM SIGMOD国际数据管理会议论文集》,ACM出版社,纽约,第207-216页
[4] 阿格拉瓦尔,R。;Mannila,H。;Srikant,R。;香薰酮,H。;AI的Verkamo;法耶兹,UM(编辑);Piatetsky-Shapiro,G.(编辑);Smyth,P.(编辑);Uthurusamy,R.(编辑),关联规则的快速发现,307-328(1996),门罗公园
[5] Agresti A(1992)列联表精确推断调查。统计科学7(1):131-153·Zbl 0955.62587号
[6] Agresti A(2002)分类数据分析,第2版。概率统计中的威利级数。霍博肯·威利·Zbl 1018.6202号
[7] Agresti A,Hitchcock D(2005)分类数据分析的贝叶斯推断。统计方法应用14:297-330·Zbl 1124.62307号
[8] Agresti A,Min Y(2005)贝叶斯置信区间的频繁性能,用于比较\[2\x22]×2列联表中的比例。生物统计学61:515-523·Zbl 1077.62015年
[9] Albert J(1997)双向列联表中关联的贝叶斯检验和估计。美国统计协会杂志92:685-693·Zbl 0889.62047号
[10] Balcazar J(2010)关联规则的冗余、演绎方案和最小规模基础。对数方法计算科学6(2)。http://arxiv.org/abs/1002.4286 ·Zbl 1191.68488号
[11] Barnard G(1947)\[2\times 22\]×2表的显著性检验。生物特征34(1/2):123-138·Zbl 0029.15603号
[12] Bastide Y,Pasquier N,Taouil R,Stumme G,Lakhal L(2000)使用频繁闭项集挖掘最小非冗余关联规则。收录人:Lloyd J、Dahl V、Furbach U、Kerber M、Lau KK、Palamidessi C、Pereira L、Sagiv Y、Stuckey P(eds)《第一届计算逻辑国际会议论文集》(CL'00)。计算机科学讲师笔记,第1861卷。柏林施普林格,第972-986页·Zbl 0983.68511号
[13] Bay SD,Pazzani MJ(2001)《检测群体差异:挖掘对比集》。数据最小知识发现5(3):213-246·Zbl 0982.68048号
[14] Bayardo R、Agrawal R、Gunopulos D(2000),大型密集数据库中基于约束的规则挖掘。数据最小知识发现4(2/3):217-240
[15] Benjamini Y,Hochberg Y(1995)控制错误发现率:一种实用且强大的多重测试方法。J R Stat Soc,B系列57(1):289-300·Zbl 0809.62014号
[16] Benjamini Y,Hochberg Y(1997),加权多假设检验。扫描J统计24(3):407-418·Zbl 1090.62548号
[17] Y.本杰米尼。;Leshno,M。;Maimon,O.(编辑);Rokach,L.(编辑),《数据挖掘的统计方法》,565-87(2005),纽约
[18] Benjamini Y,Yekutieli D(2001)依赖性下多重测试中错误发现率的控制。Ann Stat 29(4):1165-1188·Zbl 1041.62061号
[19] Birch M(1964)《部分相关性的检测》,I:【2次22次】×2病例。J R Stat Soc Ser B(Methodol)杂志26(2):313-324·Zbl 0127.10208号
[20] Blanchard J,Guillet F,Gras R,Briand H(2005)使用信息理论度量来评估关联规则的兴趣度。收录:Han J、Wah B、Raghavan V、Wu X、Rastogi R(编辑)第五届IEEE数据挖掘国际会议论文集(ICDM’05)。美国华盛顿IEEE计算机协会,第66-73页
[21] Boulicaut JF,Bykowski A,Rigotti C(2000)通过自由集逼近频率查询。摘自:第四届欧洲数据挖掘和知识发现原则会议记录(PKDD'00)。计算机科学课堂讲稿,第1910卷。柏林施普林格,第75-85页
[22] Bourgon R、Gentleman R、Huber W(2010)独立滤波提高了高通量实验的检测能力。国家科学院院刊107(21):9546-9551
[23] 布林,S。;Motwani,R。;Silverstein,C。;Peckham,J.(编辑),《超越市场篮子:将关联规则推广到相关性》,265-276(1997),纽约
[24] Bruzzese D,Davino C(2003)关联规则的可视化后分析。J Vis Lang计算机14:621-635
[25] Carriere K(2001)低发病率和比例的正常近似值有多好?公共统计模拟计算30:327-337·兹比尔1008.62528
[26] Cheng J,Ke Y,Ng W(2008)有效消除冗余关联规则。数据最小知识发现16(2):221-249
[27] Cobb G,Chen YP(2003)马尔可夫链蒙特卡罗在群落生态学中的应用。美国数学周一110:265-288·Zbl 1187.05069号
[28] Cooley R、Mobasher B、Srivastava J(1997)《Web挖掘:万维网上的信息和模式发现》。摘自:第九届IEEE人工智能工具国际会议论文集,IEEE,Los Alamitos,pp 558-567
[29] Corani G、Benavoli A、Demsar J(2016)《比较竞争算法:贝叶斯与频率学家假设测试》。摘自:欧洲机器学习和数据库知识发现原理与实践会议教程(ECML-PKDD 2016)。http://ipg.idsia.ch/tutorials/2016/bayesian-tests-ml/
[30] Dehaspe,L。;香薰酮,H。;Díeroski,S.(编辑);Lavrać,N.(编辑),关系关联规则的发现,189-212(2001),柏林
[31] 董刚,李杰(1999)新兴模式的有效挖掘:发现趋势和差异。摘自:第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集,ACM,纽约,第43-52页
[32] Edgington E(1995)《随机试验》,第3版。Marcel Dekker Inc,纽约·Zbl 0893.62036号
[33] Feller W(1968)《概率论及其应用导论》,第一卷,第三版。纽约威利·Zbl 0155.23101号
[34] Finos K、Salmaso L(2007)使用数据驱动权重的FDR和FWE控制方法。J Stat Plan推断137:3859-3870·Zbl 1124.62042号
[35] Fisher R(1925)研究人员的统计方法。奥利弗和博伊德,爱丁堡
[36] Freedman D、Pisani R、Purves R(2007)《统计》,第4版。伦敦诺顿公司·Zbl 1353.62003年
[37] Ge Y,Dudoit S,Speed TP(2003),基于重采样的微阵列数据分析多重测试。测试:离J跨度Soc Stat Oper Res 12(1):1-44·Zbl 1056.62117号
[38] Gionis A、Mannila H、Mielikäinen T、TsaparasP(2007)通过互换随机性评估数据挖掘结果。ACM Trans Knowl发现数据1(3):14:1-14:32
[39] Goeman JJ,Solari A(2011)探索性研究的多重测试。统计科学26(4):584-597·Zbl 1331.62369号
[40] Goeman JJ,Solari A(2014)基因组学中的多重假设检验——生物统计学教程。《统计医学》33(11):1946-1978
[41] Goethals B,Muhonen J,Toivonen H(2005)挖掘不可推导的关联规则。收件人:Kargupta H、Srivastava J、Kamath C、Goodman A(eds)2005年SIAM数据挖掘国际会议论文集,SIAM,第239-249页
[42] Haber M(1980)在\[2\次\]×2表上进行的X平方检验的一些连续性修正的比较。美国统计协会杂志75(371):510-515·Zbl 0455.62046号
[43] Hahsler M,Hornik K,Reutter T(2006)挖掘关联规则的概率数据建模含义。摘自:Spiliopoulou M,Kruse R,Borgelt C,Nürnberger A,Gaul W(eds)从数据和信息分析到知识工程。Gesellschaft füR Klassifikation第29届年会论文集,分类、数据分析和知识组织研究,柏林斯普林格,第598-605页
[44] Hämäläinen W(2010a)高效搜索二进制数据中具有统计意义的依赖规则。芬兰赫尔辛基大学计算机科学系博士论文,系列出版物A,报告A-2010-2
[45] Hämäläinen W(2010b)Statapriori:搜索统计意义重大关联规则的有效算法。知识信息系统:国际J(KAIS)23(3):373-399
[46] Hämäläinen W(2011)统计相关性规则的高效搜索方法。基金信息113(2):117-150(生物信息学统计和关系学习专刊)·Zbl 1435.62206号
[47] Hämäläinen W(2012)翠鸟:一种有效的算法,用于搜索具有统计显著性度量的正负依赖规则。知识信息系统:国际J(KAIS)32(2):383-414
[48] Hämäläinen W(2016)依赖规则挖掘中Fisher精确测试紧密快速近似的新上界。计算统计数据分析93:469-482·Zbl 1468.62072号
[49] Hämäläinen W,Webb G(2013)《统计声音模式发现》。摘自:欧洲机器学习和数据库知识发现原理与实践会议教程(ECML-PKDD 2013)。网址:http://www.cs.joensu.fi/whamalai/ecmlpkdd13/sspdtutorial.html
[50] Hämäläinen W,Webb G(2014)《统计声音模式发现》。摘自:第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集(KDD14),ACM,纽约,1976年
[51] Hämäläinen W,Webb GI(2017)似是而非的规则:一种有效的统一方法,用于消除关联规则挖掘中的误导和无信息模式。收件人:Chawla N,Wang W(编辑)2017年SIAM数据挖掘国际会议论文集,SIAM,第309-317页
[52] Hanhijärvi S(2011)模式发现中的多重假设检验。收录:Elomaa T、Hollmén J、Mannila H(编辑)第14届发现科学国际会议论文集。人工智能课堂讲稿,第6926卷。斯普林格。柏林,第122-134页
[53] Hanhijärvi S、Ojala M、Vuokko N、Puolamäki K、Tatti N、Mannila H(2009)告诉我一些我不知道的事情:迭代数据挖掘的随机化策略。摘自:第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集,ACM,纽约州纽约市,第379-388页
[54] Herrera F,Carmona CJ,González P,Del Jesus MJ(2011)子群发现综述:基础和应用。知识信息系统29(3):495-525
[55] Hochberg Y(1988)用于多个显著性检验的更清晰的Bonferroni程序。生物医学75:800-802·Zbl 0661.62067号
[56] Holm S(1979)一种简单的顺序拒绝多次试验程序。扫描J统计6:65-70·Zbl 0402.62058号
[57] Howard JV(1998)《2乘22×2表:从贝叶斯观点的讨论》。统计科学13(4):351-367·Zbl 1059.62526号
[58] Hu S,Rao J(2007)利用微阵列数据进行癌症分类中改进基因选择的统计冗余测试。癌症信息3:29-41
[59] Hubbard R,Bayarri M(2003)经典统计测试中证据度量与误差度量的混淆。美国统计57(3):171-178
[60] Jabbar M、Shazan M、Zaíane O(2016)学习具有统计学意义的对比集。收录:Khoury R,Drummond C(eds)《人工智能进展:第29届加拿大人工智能会议论文集》。人工智能课堂讲稿,第9673卷。查姆施普林格,237-242
[61] Jamil T、Ly A、Morey R、Love J、Marsman M、Wagenmakers EJ(2017)《列联表的默认Gunel和Dickey Bayes因子》。Behav Res方法49:638-652
[62] Jin Z,Li J,Liu L,Le TD,Sun B,Wang R(2012)使用部分关联发现因果规则。收录人:Zaki M、Siebes A、Yu J、Goethals B、Webb G、Wu X(编辑)第十二届IEEE数据挖掘国际会议论文集(ICDM 2012),IEEE计算机学会,洛斯阿拉米托斯,第309-318页
[63] Johnson D(1999)统计显著性检验的重要性。《野生管理杂志》63:763-772
[64] Kim E,Helal S,Cook D(2010)人类活动识别和模式发现。IEEE普及计算9(1):48-53
[65] Komiyama J、Ishihata M、Arimura H、Nishibayashi T、Minato S(2017)《带多重测试校正的统计新兴模式挖掘》。摘自:第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集(KDD’17),ACM,纽约,第897-906页
[66] Lallich S,Vaillant B,Lenca P(2005)关联规则兴趣度评估的参数化度量。摘自:Janssen J,Lenca P(eds)《第十一届应用随机模型和数据分析研讨会论文集》(ASMDA’05),ASMDA国际学会,第220-229页
[67] 拉利奇,S。;Teytaud,O。;普拉多姆,E。;Guillet,F.(编辑);Hamilton,H.(编辑),《关联规则兴趣:测量和统计验证》,第43期,251-275(2007),柏林
[68] Lecoutre B,Lecouter MP,Poitevineau J(2001),科学界意义测试的使用、滥用和误用:贝叶斯选择是否不可避免?国际统计版次69(3):399-417·兹比尔1213.62076
[69] Lee P(2012)《贝叶斯统计:导论》,第4版。奇切斯特·威利·兹比尔1258.62028
[70] Legendre P,Legendre-L(1998)《数值生态学》。爱思唯尔科学,阿姆斯特丹·Zbl 1033.92036号
[71] 莱曼E(1993)费希尔、内曼·皮尔逊的假设检验理论:一个理论还是两个?美国统计协会杂志88:1242-1249·Zbl 0805.62023号
[72] Lehmann E,Romano J(2005)《检验统计假设》,第3版。统计中的文本。纽约州施普林格·2018年6月17日
[73] Li G,Hamilton H(2004)基本关联规则。收录:Berry M、Dayal U、Kamath C、Skillicorn D(编辑)第四届SIAM国际数据挖掘会议记录,SIAM,费城,第166-177页
[74] 李杰(2006)论最优规则发现。IEEE Trans Knowl Data Eng 18(4):460-471
[75] Li J,Le T,Liu L,Liu J,Jin Z,Sun B,Ma S(2016)《从观察研究到因果规则挖掘》。ACM跨智能系统技术7(2):14:1-14:27
[76] 李伟,韩杰,裴杰(2001)CMAR:基于多类关联规则的准确高效分类。In:Cercone N,Lin T,Wu X(编辑)2001年IEEE数据挖掘国际会议论文集,IEEE,Los Alamitos,pp 369-376
[77] Lichman M(2013)UCI机器学习库。http://archive.ics.uci.edu/ml
[78] Lindgren B(1993)《统计理论》,第4版。查普曼和霍尔,博卡拉顿·Zbl 0853.62003号
[79] 刘斌,徐伟,马毅(1999)修剪和总结发现的联想。摘自:第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集(KDD’99),ACM出版社,纽约,第125-134页
[80] Liu G,Zhang H,Wong L(2011)关联规则挖掘中的假阳性控制。VLDB Endow程序5(2):145-156
[81] Llinares López F,Sugiyama M,Papaxantos L,Borgwardt K(2015)通过置换测试快速且记忆有效的重要模式挖掘。摘自:第21届ACM SIGKDD知识发现和数据挖掘国际会议论文集,ACM,纽约,第725-734页
[82] Mantel N(1980)评估肿瘤活动的实验室证据。生物计量学36:381-399
[83] Megiddo N,Srikant R(1998)发现预测关联规则。In:Agrawal R,Stolorz P(eds)《第四届数据库和数据挖掘知识发现国际会议论文集》,AAAI出版社,剑桥,第274-278页
[84] Meinshausen N,Maathuis MH,Bhlmann P(2011)相关多重测试中Westfall-Young置换程序的渐近最优性。安统计39(6):3369-3391·Zbl 1246.62124号
[85] Meo R(2000)依赖值理论。ACM Trans数据库系统25(3):380-406
[86] Miller R、Galecki A、Shmookler-Reis R(2001)基因阵列表达实验的解释、设计和分析。J Gerontol Ser A,生物科学与医学科学56:B52-B57
[87] Minato S,Uno T,Tsuda K,Terada A,Sese J(2014)基于频繁项目集枚举的组合假设快速统计评估方法。在:Calders T,Esposito F,Hüllermeier E,Meo R(编辑)欧洲机器学习和数据库知识发现会议记录,第二部分。人工智能课堂讲稿,第8725卷。柏林施普林格,第422-436页
[88] Morishita S,Nakaya A(2000)相关关联规则的并行分枝定界图搜索。在第五届ACM SIGKDD知识发现和数据挖掘国际会议(KDD'00)上,Zaki M,Ho CT(eds)大型并行数据挖掘,大型并行KDD系统研讨会的修订论文。计算机科学课堂讲稿,第1759卷。伦敦施普林格,第127-144页
[89] Morishita S,Sese J(2000)带统计度量剪枝的交叉项集格。摘自:第十九届ACM SIGMOD-SIGACT-SIGART数据库系统原理研讨会论文集(PODS'00),ACM出版社,纽约,第226-236页
[90] Neyman J,Pearson E(1928)《关于统计推断中某些测试标准的使用和解释:第二部分》。生物特征20A(3/4):263-294
[91] Nijssen S,Kok J(2006)多类相关模式挖掘。收录:Bonchi F,Boulicaut JF(eds)第四届归纳数据库知识发现国际研讨会论文集。计算机科学课堂讲稿,第3933卷。柏林施普林格,第165-187页·Zbl 1178.68206号
[92] Nijssen S,Guns T,Raedt LD(2009)ROC空间中的相关项集挖掘:一种约束编程方法。第15届ACM SIGKDD知识发现和数据挖掘会议论文集(KDD’09)。纽约ACM出版社,第647-656页
[93] Novak P、Lavrac N、Webb G(2009)《监督描述性规则发现:对比集、新兴模式和子组挖掘的统一调查》。J机器学习研究10:377-403·Zbl 1235.68178号
[94] Pasquier N,Bastide Y,Taouil R,Lakhal L(1999)发现关联规则的频繁闭项集。收录:第七届数据库理论国际会议论文集(ICDT'99)。计算机科学课堂讲稿,第1540卷。柏林施普林格,第398-416页·Zbl 0983.68511号
[95] Pearson E(1947)在解释\[2乘22×2表中分类的数据时,说明了统计检验的选择。生物特征34(1/2):139-167·Zbl 0029.27406号
[96] Piatetsky-Shapiro,G。;Frawley,W.(编辑),强规则的发现、分析和呈现,229-248(1991),剑桥
[97] Rempala GA,Yang Y(2013)关于基因表达数据多重测试中强控制的置换程序。Stat及其接口6(1):79-89·Zbl 1327.62354号
[98] Rigoutsos I,Floratos A(1998),生物序列中的组合模式发现:TEIRESIAS算法。生物信息学14(1):55-67
[99] Roeder K,Wasserman L(2009),基因组显著性水平和加权假设检验。《科学统计》24(4):398-413·Zbl 1329.62435号
[100] Rosenthal R,Rubin D(1983),集合调整的p值。精神公牛94(3):540-541
[101] Šídák ZK(1967)多元正态分布均值的矩形置信区。美国统计协会杂志62:626-633·Zbl 0158.17705号
[102] Silverstein C,Brin S,Motwani R(1998)《超越市场篮子:将关联规则推广到依赖规则》。数据最小知识发现2(1):39-68
[103] Smyth P,Goodman R(1992)从数据库中归纳规则的信息论方法。IEEE Trans Knowl Data Eng 4(4):301-316
[104] Terada A,Okada-Hatakeyama M,Tsuda K,Sese J(2013a)组合规则的统计意义。国家科学院院刊110(32):12996-13001·Zbl 1292.92013年
[105] Terada A,Tsuda K,Sese J(2013b)组合调控发现的快速Westfall-Young置换程序。收件人:Li GZ、Kim S、Hughes M、McLachlan G、Sun H、Hu X、Ressom H、Liu B、Liebman M(eds)《2013年IEEE生物信息学和生物医学国际会议论文集》,IEEE计算机学会,第153-158页
[106] Terada A,Kim H,Sese J(2015)全基因组关联研究的高速Westfall-Young置换程序。摘自:第六届ACM生物信息学、计算生物学和健康信息学会议记录(BCB'15),ACM,纽约,第17-26页
[107] Upton G(1982)\[2倍22×2比较试验的替代试验比较。J R Stat Soc Ser A(通用)145(1):86-105
[108] Villata R,Oblinger D(2000)分类中评估指标之间距离偏差的量化。收录于:Langley P(ed)《第十七届机器学习国际会议论文集》(ICML'00),Morgan Kaufmann Publishers Inc.,旧金山,第1087-1094页
[109] 弗瑞肯,J。;Tatti,N。;Aggarwal,C.(编辑);Han,J.(编辑),《有趣的模式》,105-134(2014),瑞士·Zbl 1298.68248号
[110] Webb G(2006)发现重要规则。摘自:第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集(KDD’06),ACM出版社,纽约,第434-443页
[111] Webb G(2007)发现重要模式。马赫数学习68(1):1-33·Zbl 1470.68195号
[112] Webb G(2008)分层临界值:发现重要模式的强大直接调整方法。马赫学习71(2-3):307-323·Zbl 1470.68196号
[113] Webb G(2010)自足项目集:一种筛选项目之间潜在有趣关联的方法。Trans Knoll Discov数据4:3:1-3:20
[114] Webb G(2011)Filtered-top-k关联发现。WIRE数据最小已知Discov 1(3):183-192
[115] Webb G,Vreeken J(2014)高效发现最有趣的关联。Trans-Knowl发现数据8(3):15:1-15:31
[116] Webb G,Zhang S(2005)K-最优规则发现。数据最小知识发现10(1):39-79
[117] Westfall PH,Young SS(1993),基于重采样的多重测试:p值调整的示例和方法。纽约威利·Zbl 0850.62368号
[118] Wilks S(1935)列联表中独立性的似然检验。数学年鉴6(4):190-196
[119] Wu X,Zhang C,Zhang-S(2004)正关联规则和负关联规则的高效挖掘。ACM传输信息系统22(3):381-405
[120] 姚勇,钟恩(1999)与规则相关的定量测量分析。摘自:钟N,周L(eds)第三届亚太地区知识发现和数据挖掘方法会议论文集(PAKDD’99)。计算机科学课堂讲稿,第1574卷。伦敦施普林格,第479-488页
[121] Yates F(1984)\[2倍22×2列联表的显著性检验。J R Stat Soc Ser A(通用)147(3):426-463·Zbl 0573.62050号
[122] Yule G(1903)统计学中属性关联理论的注释。生物特征2:121-134
[123] Yule G(1912)关于测量两个属性之间关联的方法。J R统计Soc 75:579-652
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。