×

归纳蒙德里安共形预测因子的组合。 (英语) Zbl 1482.68207号

总结:众所周知,将不同机器学习(ML)算法的预测进行集成可以提高准确性。本文提出了一种将共形预测器(CP)与不同的底层ML算法相结合的方法,该方法保留了它们的关键属性,即有效性。讨论了不同的组合方法,并在一个化学信息学问题上评估了它们的性能。为了处理数据集的大小、高维性和强不平衡性,本文应用了一种特殊类型的CP:归纳蒙德里安共形预测器。我们提出并评估了一种启发性的方法,与统计假设检验的方法一起学习组合CP以提高预测质量。我们还探索了使用校准集恢复组合后有效性的通用非参数方法。在真实数据集上,几个组合预测值始终优于基本CP。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62G15年 非参数容差和置信区域

关键词:

集合模型精确有效性
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alves,G.和Yu,Y.-K.(2014)。通过结合相关P值对统一P值进行准确度评估。《公共科学图书馆·综合》,9(3),e91225。https://doi.org/10.1371/journal.pone.0091225。 ·doi:10.1371/journal.pone.0091225
[2] Balasubramanian,V.、Gouripeddi,R.、Panchanathan,S.、Vermillion,J.、Bhaskaran,A.和Siegel,R.(2009年9月)。基于支持向量机的冠状动脉药物洗脱支架术后并发症风险的保形预测因子。2009年第36届心脏病学计算机年会(CinC),(第5-8页)。
[3] Balasubramanian,V.N.、Chakraborty,S.和Panchanathan,S.(2015)。信息融合的保形预测。数学与人工智能年鉴,74(1),45-65。https://doi.org/10.1007/s10472-013-9392-4。 ·Zbl 1331.68180号 ·doi:10.1007/s10472-013-9392-4
[4] Brown,M.B.(1975年)。一种结合非依赖性单侧显著性检验的方法(corr:V32 p955)。生物统计学,31(4),987-992。ISSN 0006341X,15410420·Zbl 0318.62030号 ·doi:10.2307/2529826
[5] Dask开发团队。(2016). 动态任务调度库。http://dask.pydata.org/en/latest/cite.html。2018年8月11日访问。
[6] Davidov,O.(2011)。使用基于顺序的方法组合p值。计算统计与数据分析,55(7),2433-2444。https://doi.org/10.1016/j.csda.2011.01.024。 ·Zbl 1328.62262号 ·doi:10.1016/j.csda.2011.01.024
[7] Fisher,R.A.(1932年)。研究工作者的统计方法(第4版)。爱丁堡:Oliver&Boyd·JFM 58.1161.04标准
[8] Fisher,R.A.(1948年)。问题14:结合独立的显著性检验。美国统计学家,2(5),30-30。
[9] Gammerman,A.和Vovk,V.(2007年)。机器学习中的对冲预测(讨论)。《计算机杂志》,50(2),151-163。https://doi.org/10.1093/comjnl/bxl065。 ·doi:10.1093/comjnl/bxl065
[10] Hollander,M.和Wolfe,D.A.(1999)。非参数统计方法。,纽约州纽约市概率与统计系列:Wiley·Zbl 0997.62511号
[11] Ivina,O.、Nouretdinov,I.和Gammerman,A.(2012)。空气污染问题中的有效预测和置信估计。人工智能进展,1(3),235-243。https://doi.org/10.1007/s13748-012-0018-6。ISSN 2192-6360·doi:10.1007/s13748-012-0018-6
[12] Ji,G.R.,Dong,Z.,Wang,D.F.,Han,P.,&Xu,D.P.(2008)。基于算法随机性理论的风电场风速保角预测。2008年机器学习和控制论国际会议(第1卷,第131-135页)。https://doi.org/10.109/ICMLC.2008.4620392。
[13] Jones,E.、Oliphant,T.和Peterson,P.等人(2001年)。SciPy:Python的开源科学工具,2001年。统一资源定位地址网址:http://www.scipy.org/,[在线;2017-04-09]。
[14] Kluyver,T。;拉根·凯利,B。;佩雷斯,F。;格兰杰,B。;Bussonnier,M。;弗雷德里克·J。;凯利,K。;哈姆里克,J。;灌浆,J。;科尔雷,S。;伊万诺夫,P。;阿维拉,D。;阿卜杜拉,S。;Willing,C。;Loizides,F.(编辑);Schmidt,B.(编辑),Jupyter笔记本——可复制计算工作流程的出版格式,87-90(2016),阿姆斯特丹
[15] Lambrou,A.、Papadopoulos,H.和Gammerman,A.(2009年)。进化保形预测在乳腺癌诊断中的应用。2009年第九届国际生物医药信息技术与应用会议(第1-4页)。https://doi.org/10.109/ITAB.2009.5394447。
[16] 里卡德拉克沙马尔戈兰·福克曼。(2010). 流媒体船舶数据中分布无关异常检测的保角预测。《新型数据流模式挖掘技术第一次国际研讨会论文集》,StreamKDD’10,(第47-55页),纽约州纽约市。ACM公司。国际标准图书编号978-1-4503-0226-5。https://doi.org/10.1145/1833280.1833287。 ·Zbl 1331.68186号
[17] Linusson,H.、Norinder,U.、Boström,H.,Johansson,U.和Löfström,T.(2017)。关于聚合共形预测因子的校准。在A.Gammerman、V.Vovk、Z.Luo、H.Papadopoulos(编辑)的《保角和概率预测及应用第六次研讨会论文集》中。机器学习研究论文集(第60卷,第154-173页)。斯德哥尔摩,13-16。PMLR公司。http://proceedings.mlr.press/v60/linusson17a.html。
[18] Littell,R.C.和Folks,J.L.(1973)。Fisher组合独立检验方法的渐近最优性2。美国统计协会杂志,68(341),193-194。https://doi.org/10.1080/01621459.1973.10481362。 ·Zbl 0259.62022号 ·doi:10.1080/01621459.1973.10481362
[19] Loughin,T.M.(2004)。对独立测试中组合p值的方法进行系统比较。计算统计与数据分析,47(3),467-485·兹比尔1430.62048 ·doi:10.1016/j.csda.2003.11.020
[20] McKinney,W.(2010年)。python中用于统计计算的数据结构。S.van der Walt&J.Millman(编辑),《科学会议第九条蟒蛇会议记录》(第51-56页)。
[21] Pesarin,F.(2001)。多元排列测试:在生物统计学中的应用。纽约:Wiley。国际标准图书编号9780471496700·Zbl 0972.62037号
[22] Poole,W.、Gibbs,D.L.、Shmulevich,I.、Bernard,B.和Knijnenburg,T.A.(2016)。将相关p值与Brown方法的经验改编相结合。生物信息学,32(17),i430-i436。https://doi.org/10.1093/bioinformatics/btw438。 ·doi:10.1093/bioinformatics/btw438
[23] Pratt,J.W.(1959年)。Wilcoxon符号秩过程中关于零和关系的备注。美国统计协会杂志,54,655-667·Zbl 0086.35101号 ·doi:10.1080/01621459.1959.10501526
[24] Shabbir,A.、Verdoolaege,G.、Vega,J.和Murari,A.(2015)。基于信息流形保角预测的ELM状态分类。IEEE等离子体科学汇刊,43(12),4190-4199。https://doi.org/10.1109/TPS.2015.2489689。ISSN 0093-3813·doi:10.1109/TPS.2015.2489689
[25] Shafer,G.和Vovk,V.(2008年)。保角预测教程。机器学习研究杂志,9,371-421。编号1532-4435·Zbl 1225.68215号
[26] Stouffer,E.A.、Suchman,S.A.、DeVinney,L.C.、Star,S.A.和Williams,R.M,Jr.(1949)。美国士兵:军队生活中的调整。普林斯顿:普林斯顿大学出版社。
[27] Toccaceli,P.,Nouretdinov,I.,Gammerman,A.(2016)。化合物活性预测的保角预测因子。A.Gammerman,Z.Luo,J.Vega,&V.Vovk,(编辑),《In:第五届保角和概率预测应用国际研讨会论文集》,2016年COPA,西班牙马德里,2016年4月20日至22日(第51-66页)。查姆:斯普林格国际出版公司。国际标准图书编号978-3-319-33395-3。https://doi.org/10.1007/978-3-319-33395-3_4。
[28] Toccaceli,P.、Nouretdinov,I.和Gammerman,A.(2017年)。化合物生物活性的保形预测。《数学与人工智能年鉴》,81(1),105-123。https://doi.org/10.1007/s10472-017-9556-8。ISSN 1573-7470·doi:10.1007/s10472-017-9556-8
[29] Van Der Walt,S.、Colbert,S.C.和Varoquaux,G.(2011年)。numpy数组:一种高效数值计算的结构。科学与工程计算,13(2),22-30。https://doi.org/10.109/MCSE.2011.37。 ·doi:10.1109/MCSE.2011.37
[30] Varoquaux,G.、Buitink,L.、Louppe,G.,Grisel,O.、Pedregosa,F.和Mueller,A.(2015)。Scikit-learn:机器学习而不学习机器。GetMobile,19(1),29-33。https://doi.org/10.1145/2786984.2786995。 ·doi:10.1145/2786984.2786995
[31] Vovk,V.(2015)。交叉一致性预测因子。数学与人工智能年鉴,74(1),9-28。https://doi.org/10.1007/s10472-013-9368-4。ISSN 1573-7470·Zbl 1331.68195号 ·doi:10.1007/s10472-013-9368-4
[32] Vovk,V.、Gammerman,A.和Shafer,G.(2005)。随机世界中的算法学习。新泽西州塞考克斯:施普林格纽约公司·Zbl 1105.68052号
[33] Wilcoxon,F.(1945年)。通过排名方法进行个人比较。生物统计公报,1(6),80-83·doi:10.2307/3001968
[34] Zaykin,D.V.、Zhivotovsky,L.A.、Czika,W.、Shao,S.和Wolfinger,R.D.(2007年)。在大规模基因组学实验中结合p值。药物统计,6(3),217-226。https://doi.org/10.1002/pst.304。ISSN 1539-1612·doi:10.1002/pst.304
[35] Zaykin,D.V.、Zhivotovsky,L.A.、Westfall,P.H.和Weir,B.S.(2002)。组合p值的截断乘积法。遗传流行病学,22(2),170-185。https://doi.org/10.1002/gepi.0042。ISSN 1098-2272·doi:10.1002/epi.0042网址
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。