×

稀疏核深层堆叠网络。 (英语) Zbl 1505.62422号

摘要:本文介绍了有监督的深度学习方法稀疏核深度叠加网络(SKDSN),它通过结合一组数据驱动的正则化和变量选择步骤来扩展传统的核深度堆叠网络(KDSN),以提高高维设置中的预测性能。在模型拟合之前,使用遗传算法结合随机相关系数进行变量预选,考虑输入和结果变量之间的非线性相关性。在模型拟合过程中,内部变量选择基于在基于模型的优化框架内调整的排序特征排序。进一步的正则化步骤包括(L_1)惩罚核回归和丢失。我们的仿真研究表明,与传统的KDSN相比,SKDSN的预测精度有所提高。对SKDSN的运行时分析表明,随机傅立叶变换的维数极大地影响了计算效率,并且可以通过应用基于子采样的集成策略来提高SKDSN的速度。数值实验表明,后一种策略进一步提高了预测性能。将SKDSN应用于三个生物医学数据集,证实了模拟研究的结果。SKDSN在R包的新版本中实现kernDeepStackNet.

MSC公司:

62-08 统计问题的计算方法
62G08号 非参数回归和分位数回归
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Arevalo J、Cruz-Roa A、Arias V、Romero E、Gonzalez FA(2015)《基底细胞癌图像分析的无监督特征学习框架》。Artif Intell Med艺术智能医学64(2):131-145
[2] Bengio Y,Delalleau O(2011)《论深层建筑的表现力》。在Kivinen J、Szepesvari C、Ukkonen E(eds)《第22届国际ALT会议算法学习理论会议论文集》,Espoo,Finnland。柏林施普林格·Zbl 1348.68183号
[3] Breiman L(1996)装袋预测值。马赫数学习24(2):123-140·Zbl 0858.68080号
[4] Breiman L(2001)《随机森林》。马赫数学习45(1):5-32·Zbl 1007.68152号
[5] Bühlmann P,Hothorn T(2007)Boosting algorithms:正则化、预测和模型拟合。《统计科学》22(4):477-505·Zbl 1246.62163号
[6] Chawla NV、Moore TE、Hall LO、Bowyer KW、Kegelmeyer WP、Springer C(2003)《分布式学习与袋装性能》。图案识别信24(1-3):455-471
[7] Chen L,Cai C,Chen V,Lu X(2015)利用双峰深信度网络进行细胞信号系统的跨谱学习。生物信息学31(18):1-8
[8] Clevert DA、Unterthiner T、Hochreiter S(2016)《指数线性单位(ELUS)快速准确的深度网络学习》。在:第四届学习表征国际会议(ICLR)。计算与生物学习协会(CBLS),波多黎各
[9] Deng L,Yu D(2014)深度学习:方法和应用。Now Publishers,波士顿·Zbl 1315.68208号
[10] Deng L,Tur G,He X,Hakkani-Tür D(2012)核深凸网络和端到端学习在口语理解中的应用。收件人:Sarikaya R,Liu Y(编辑)IEEE口语技术研讨会(SLT),第210-215页
[11] Friedman JH(2001)贪婪函数近似:梯度提升机。《统计年鉴》29(5):1189-1232·Zbl 1043.62034号
[12] Gebelein H(1941)Das statistische Problem der Korrelational Variations-und Eigenwertproblem und sein Zusammenhang mit der Ausgleichsrechnung。ZAMM J应用数学力学21(6):364-379
[13] Glrot X,Bengio Y(2010)《理解深度前馈神经网络训练的困难》。参见:Teh YW,Titterington M(eds)《第13届人工智能和统计国际会议论文集》,美国新泽西州AISTATS,第249-256页
[14] Goldstein A,Kapelner A,Bleich J,Pitkin E(2015)《黑匣子里的窥视:用个体条件期望图可视化统计学习》。J计算图统计24(1):44-65
[15] Goodfellow I,Bengio Y,Courville A(2016)深度学习。麻省理工学院出版社,剑桥·兹比尔1373.68009
[16] Guyon I,Elisseeff A(2003)变量和特征选择简介。J Mach学习研究3:1157-1182·Zbl 1102.68556号
[17] Guyon I,Gunn S,Ben-Hur A,Dror G(2005)NIPS 2003特征选择挑战的结果分析。收录:Saul LK、Weiss Y、Bottou L(eds)《神经信息处理系统进展》。麻省理工学院出版社,第17卷,第545-552页
[18] Hastie T、Tibshirani R、Friedman J(2008)《统计学习的要素》。斯普林格统计学系列,第二版。斯普林格,斯坦福
[19] Higham NJ(2002)计算最近相关矩阵是一个金融问题。IMA J数字分析22(3):329-343·Zbl 1006.65036号
[20] Hinton GE、McClelland JL、Rumelhart DE(1986)分布式表示。摘自:Rumelhart DE、McClelland JL、PDP研究小组C(eds)《并行分布式处理:认知微观结构的探索》。麻省理工学院出版社,英国剑桥,第1卷,第77-109页
[21] Hoffmann T,Schölkopf B,Smola AJ(2008)机器学习中的内核方法。《统计年鉴》36(3):1171-1220·Zbl 1151.30007号
[22] Hofner B、Mayr A、Robinzonov N、Schmid M(2014)《R中基于模型的增强:使用R包mboost的实践教程》。计算统计29(1):3-35·Zbl 1306.65069号
[23] Huang PS,Deng L,Hasegawa-Johnson M,He X(2013)核深凸网络的随机特征,温哥华,卡纳达。领域:声学、语音和信号处理(ICASSP)。IEEE,美国纽约,第3143-3147页
[24] Huang PS,Avron H,Sainath TN等人(2014)意大利佛罗伦萨TIMIT上的内核方法匹配深度神经网络。参加:国际声学、语音和信号处理会议(ICASSP)。IEEE,美国皮斯卡塔韦,第205-209页
[25] Jones DR,Schonlau M,Welch WJ(1998),昂贵黑盒函数的高效全局优化。全球优化杂志13(4):455-492·Zbl 0917.90270号
[26] Krige DG(1951)威特沃特斯兰德一些基本矿山估价问题的统计方法。《化学金属最低社会保障杂志》52(6):119-139
[27] Krizhevsky A(2009)从微小图像中学习多层特征。多伦多计算机科学大学硕士论文。http://www.cs.toronto.edu/kriz/学习功能-2009-TR.pdf
[28] Lecun Y,Bottou L,Bengio Y,Haffner P(1998)基于梯度的学习应用于文档识别。收录于:《美国电气与电子工程师协会论文集》,第2278-2324页
[29] Leung MKK,Xiong HY,Lee LJ,Frey BJ(2014)《组织调控剪接编码的深度学习》。生物信息学30(12):i121-i129
[30] Lichman M(2013)UCI机器学习库
[31] Lopez-Paz D,Hennig P,Schölkopf B(2013)随机相关系数。收录:Burges CJC、Bottou L、Welling M、Ghahramani Z、Weinberger KQ(eds)《神经信息处理系统进展》。Curran Associates,Inc,第26卷,第1-9页
[32] Lopez-Ibanez M、Dubois-Lacoste J、Perez Caceres L、Birattari M、Stuetzle T(2016)IRACE包:自动算法配置的迭代竞赛。运营研究展望3:43-58
[33] Nelsen RB(2006)《连接词导论》,第2版。斯普林格,波特兰·Zbl 1152.62030
[34] Pepe M(2003)《医学检验分类和预测的统计评估》。牛津大学出版社·Zbl 1039.62105号
[35] Picheny V、Ginsbourger D、Richet Y、Caplin G(2012),基于分位数的含噪计算机实验优化,精度可调。技术计量学55(1):2-13
[36] Quang D,Chen Y,Xie X(2015)DANN:注释遗传变异致病性的深度学习方法。生物信息学31(5):761-763
[37] R核心团队(2017)R:统计计算的语言和环境。R统计计算基金会,维也纳
[38] Rahimi,A。;Recht,B。;Platt,JC(编辑);Koller,D.(编辑);辛格,Y.(编辑);Roweis,ST(编辑),《大型内核机器的随机特征》,第20期,1177-1184(2008),Red Hook
[39] Renyi A(1959)关于依赖性度量。数学与科学学报洪10(3):441-451·兹比尔0091.14403
[40] Ribeiro MT、Singh S、Guestrin C(2016)我为什么要信任你?”:解释任何分类器的预测。摘自:第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集。美国纽约ACM,第1135-1144页
[41] Robnik-Sikonja M,Kononenko I(2003),救济和相关的理论和实证分析。马赫学习J 53(1-2):23-69·Zbl 1076.68065号
[42] Robnik-Sikonja M,Savicky P(2018)CORElearn:分类、回归和特征评估。R包版本1(52)
[43] Roustant O,Ginsbourger D,Deville Y(2012)DiceKriging,DiceOptim:两个R包,用于通过基于Kriging-based元建模和优化的计算机实验分析。J Stat Softw杂志51(1):1-55
[44] Schirra LR,Lausser L,Kestler HA(2016)分类中作为生物标志物发现手段的选择稳定性。Wilhelm AF,Kestler HA(eds)大型复杂数据分析。查姆施普林格,第79-89页
[45] Scrucca L(2013)GA:R.J Stat Softw中的遗传算法包53(4):1-37
[46] Shawe-Taylor J,Cristianini N(2004),模式分析的核方法。剑桥大学出版社·Zbl 0994.68074号
[47] Srivastava N、Hinton G、Krizhevsky A(2014)《辍学:防止神经网络过度拟合的简单方法》。J Mach学习研究15(1):1929-1958·Zbl 1318.68153号
[48] Stein M(1987)使用拉丁超立方体采样的模拟的大样本特性。技术计量学29(2):143-151·Zbl 0627.62010号
[49] Steinwart I,Christmann A(2008)支持向量机。纽约州施普林格·Zbl 1203.68171号
[50] Tsallis C,Stariolo DA(1996)广义模拟退火。物理A 233(1-2):395-406
[51] Wager S,Wang S,Liang P(2013)退学培训作为适应性正规化。收录:Burges CJC、Bottou L、Welling M、Ghahramani Z、Weinberger KQ(eds)《神经信息处理系统进展》。Curran Associates,Inc,第26卷,第351-359页
[52] Wahde M(2008)《生物启发优化方法:简介》。WIT出版社,Ashurst Lodge·Zbl 1155.90005
[53] Wan L、Zeiler M、Zhang S等(2013)使用DropConnect对神经网络进行正则化。摘自:第30届机器学习国际会议论文集,第28卷。JMLR:W&CP,美国亚特兰大
[54] Welchowski T,Schmid M(2016)《核深度叠加网络中参数估计和模型选择的框架》。Artif Intell Med艺术智能医学70:31-40
[55] Youden WJ(1950)诊断测试评级索引。癌症3(1):32-35
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。