文件Zbl 07504740-zbMATH打开

关于\（x^p/（1-x）\）的反导数及其在优化神经网络分类损失函数中的应用。（英语） Zbl 07504740号

安。数学。Artif公司。智力。 90，编号4，425-452（2022）.

摘要：神经网络中的监督学习意味着优化突触权重W公司这样输出年(x个;W公司)用于输入x个尽可能接近相应的目标t吨来自训练数据集。这种优化意味着最小化损失函数（{mathcal{L}}（mathbf{W}）年-t吨虽然经典的交叉熵损失假设误差呈三角形分布，但最近的研究表明，通过拟合用于初始化反向传播学习算法的幂函数的指数（q），广义幂误差损失函数可以适应更真实的误差分布。这种方法可以显著提高性能，但计算损失函数需要对函数（f（y）：=（y^{q-1}/（1-y））进行反导数，该函数以前只针对自然（q\in\mathbb{N}）确定。在这项工作中，我将这种方法推广到有理数（q=n/2^m），其中分母是2的幂。我给出了反导数的闭式表达式和相应的损失函数。实验表明，最佳指数（q）通常是非自然的，并且在学习过程中，最佳拟合输出误差分布不断变化，在学习收敛过程中通常从大（q>1）减小到小（q<1）。这些结果提出了新的自适应学习方法，其中损失函数可以在学习过程中不断适应输出误差分布。

MSC公司：

68泰克	人工智能
26A42型	Riemann、Stieltjes和Lebesgue型积分
33B20型	不完整的β和γ函数（误差函数、概率积分、菲涅耳积分）
68T05型	人工智能中的学习和自适应系统
68吨10	模式识别、语音识别
92秒20	生物研究、人工生命和相关主题中的神经网络

关键词：

监督学习;分类;交叉熵;功率误差损失函数;深度学习;不完全β函数;超几何函数

软件：

马克西玛;Matlab公司;PyTorch公司;github;凯拉斯;TensorFlow公司;ImageNet公司;掌中宽带;CIFAR公司;亚当;PRMLT公司;AlexNet公司;效率网

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Abadi，M.，Barham，P.，Chen，J.，Cheng，Z.，Davis，A.，Dean，J.、Devin，M.、Ghemawat，S.、Irving，G.、Isard，M.等人：Tensorflow:大规模机器学习系统。摘自：第12届USENIX操作系统设计与实现研讨会（OSDI 16），第265-283页（2016年）
[2]	AlAhmad，R。；Almefleh，H.，涉及不完全β函数的反导数和积分及其应用，奥斯汀。数学杂志。分析。申请。，17, 2, 11 (2020) ·Zbl 1463.33002号
[3]	Y.本吉奥。；Simard，P。；Frasconi，P.，学习具有梯度下降的长期依赖性是困难的，IEEE Trans。神经网络。，5, 2, 157-166 (1994) ·doi:10.1109/72.279181
[4]	Bishop，C.，模式识别和机器学习（2006），纽约：Springer，纽约·Zbl 1107.68072号
[5]	Bryson，AE公司；Ho，YC，《应用最优控制：优化、估计和控制》（1969），纽约：布莱斯德尔，纽约
[6]	Chollet，F.：凯拉斯。https://github.com/fchollet/keras (2015)
[7]	盖，T。；Thomas，J.，《信息理论的要素》（1991），纽约：威利出版社，纽约·兹比尔0762.94001 ·doi:10.1002/0471200611
[8]	费雷拉，C。；洛佩兹，J。；Perez Sinusia，E.，不完全β函数在基本函数方面的统一表示，电子。事务处理。数字。分析。，48, 450-461 (2018) ·兹比尔1406.33002 ·doi:10.1553/etnavol48s450
[9]	Gers，F。；施密杜贝尔，J。；Cummins，F.，《学会遗忘：LSTM的连续预测》，神经计算。，12, 10, 2451-2471 (2000) ·doi:10.1162/089976600300015015
[10]	Glrot，X.，Bengio，Y.：理解训练深度前馈神经网络的困难。参见：Teh，Y.，Titterington，M.（eds.）《第13届国际人工智能与统计会议论文集》，《机器学习研究论文集》第9卷，第249-256页。JMLR研讨会和会议记录，意大利撒丁岛恰拉古纳度假村（2010）
[11]	Good，I.，《信息论中的一些术语和符号》，IEE-第C部分：专著，103，3，200-204（1956）
[12]	Goodfellow，I.，Bengio，Y.，Courville，A.：深度学习。麻省理工学院出版社。http://www.deeplearningbook.org (2016) ·Zbl 1373.68009号
[13]	He，K.，Zhang，X.，Ren，S.，Sun，J.：深入研究整流器：在图像网络分类方面超越人类水平的表现。摘自：IEEE计算机视觉国际会议（ICCV）会议记录（2015）
[14]	He，K.，Zhang，X.，Ren，S.，Sun，J.：用于图像识别的深度残差学习。摘自：2016年IEEE计算机视觉和模式识别会议，2016年CVPR，美国内华达州拉斯维加斯，2016年6月27日至30日，第770-778页。IEEE计算机学会。doi:10.1109/CVPR.2016.90（2016）
[15]	Hochreiter，S。；Schmidhuber，J.，长短期记忆，神经计算。，9, 8, 1735-1780 (1997) ·doi:10.1162/neco.1997.9.8.1735
[16]	Ioffe，S.，Szegedy，C.：批量规范化：通过减少内部协变量的转移来加速深层网络训练。收录：Bach，F.，Blei，D.（eds.）《第32届机器学习国际会议论文集》，《机器学习研究论文集》第37卷，第448-456页。法国里尔PMLR（2015）
[17]	Janocha，K.，Czarnecki，W.：关于分类中深层神经网络的损失函数。arXiv:1702.05659（2017）
[18]	Kingma，D.，Ba，J.：亚当：一种随机优化方法。In:Bengio，Y.，LeCun，Y.（编辑）《国际学习代表大会（ICLR）第三届会议记录》，arXiv:1412.6980v9（2015）
[19]	Knoblauch，A.，幂函数误差初始化可以提高分类神经网络中反向传播学习的收敛性，神经计算。，33, 8, 2193-2225 (2021) ·Zbl 1522.68466号 ·doi:10.1116/neco_a_01407
[20]	Krizhevsky，A.：从微小图像中学习多层特征。多伦多大学计算机科学系技术代表（2009年）
[21]	Krizhevsky，A.，Sutskever，I.，Hinton，G.：深度卷积神经网络的Imagenet分类。发表于：Pereira，F.、Burges，C.、Bottou，L.、Weinberger，K.（编辑）《神经信息处理系统进展》。https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-paper.pdf，第25卷。Curran Associates，Inc.（2012年）
[22]	Krotov，D.，Hopfield，J.：用于模式识别的密集联想存储器。arXiv:1606.01164（2016）
[23]	Linnainmaa，S.，累积舍入误差的泰勒展开，BIT数字。数学。，16, 2, 146-160 (1976) ·Zbl 0332.65024号 ·doi:10.1007/BF01931367
[24]	Mathematika:12.3.1版。Wolfram Research，Inc.，伊利诺伊州香槟市（2021年）。https://www.wolfram.com/mathematica网站
[25]	MATLAB：版本9.7.0.1247435（R2019b）。马萨诸塞州纳蒂克市MathWorks公司（2019年）
[26]	Maxima:Maxima，一个计算机代数系统。版本5.43.2（2020）。http://maxima.sourceforge.net/。另请参阅www.integra-calculator.com
[27]	Palm，G.，《新奇、信息与惊喜》（2012），柏林：施普林格出版社，柏林·Zbl 1257.94002号 ·doi:10.1007/978-3-642-29075-6
[28]	Parker，D.：学习逻辑：用硅铸造人脑皮层。技术代表Tr-47，经济和管理科学计算研究中心。麻省理工学院剑桥分校（1985）
[29]	Paszke，A.、Gross，S.、Massa，F.、Lerer，A.、Bradbury，J.、Chanan，G.、Killeen，T.、Lin，Z.、Gimelshein，N.、Antiga，L.、Desmaison，A.、Kopf，A.，Yang，E.、DeVito，Z.，Raison，M.、Tejani，A.、Chilamkurthy，S.，Steiner，B.、Fang，L.，Bai，J.，Chintala，S.：Pytorch：命令式，高性能深度学习库。收录：Wallach，H.、Larochelle，H.，Beygelzimer，A.、d'AlchéBuc，F.、Fox，E.、Garnett，R.（编辑）《神经信息处理系统进展》32。http://papers.neurips.cc/paper/9015-pytorch-an-imperative-style-high-performance-deep-learning-library.pdf第8024-8035页。Curran Associates，Inc.（2019年）
[30]	Ronneberger，O.，Fischer，P.，Brox，T.：U-Net：生物医学图像分割的卷积网络。收录于：医学图像计算和计算机辅助干预（MICCAI），LNCS，第9351卷，第234-241页。柏林施普林格出版社（2015）
[31]	Ruder，S.：梯度下降优化算法概述。arXiv:1609.04747（2016）
[32]	Rumelhart博士。；辛顿，G。；Williams，R.，《通过反向传播错误学习表征》，《自然》，3236088533-536（1986）·Zbl 1369.68284号 ·数字对象标识代码：10.1038/323533a0
[33]	Rumelhart，D.，McClelland，J.，Group，P.R.（编辑）：并行分布式处理，认知微观结构探索，第1卷。基金会。麻省理工学院出版社，剑桥（1986）
[34]	Schmidhuber，J.，《神经网络中的深度学习：概述》，神经网络。，61, 85-117 (2015) ·doi:10.1016/j.neunet.2014.09.003
[35]	Shannon，C.，Weaver，W.：传播的数学理论。伊利诺伊大学出版社，厄本纳/芝加哥（1949）·兹比尔0041.25804
[36]	Smith，S.，《数字信号处理科学家和工程师指南》（1997），圣地亚哥：加州技术出版社，圣地亚戈
[37]	北斯里瓦斯塔瓦。；辛顿，G。；Krizhevsky，A。；Sutskever，I。；Salakhuttinov，R.，《辍学：防止神经网络过度拟合的简单方法》，J.马赫。学习。1929-1958年第15号、第56号决议（2014年）·兹比尔1318.68153
[38]	Tan，M.，Le，Q.：效率网：重新思考卷积神经网络的模型缩放。收录于：Chaudhuri，K.，Salakhutdinov，R.（编辑）《第36届机器学习国际会议论文集》，《机器学习研究论文集》第97卷，第6105-6114页。PMLR（2019年）
[39]	Tenne，N.，不完全伽马函数和不完全β函数的一致渐近展开，数学。计算。，29, 132, 1109-1114 (1975) ·Zbl 0313.33002号 ·doi:10.1090/S0025-5718-1975-0387674-2
[40]	Werbos，P.J.：超越回归：行为科学中预测和分析的新工具。哈佛大学博士论文（1974年）

此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配，并且可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	综述，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

关于\（x^p/（1-x）\）的反导数及其在优化神经网络分类损失函数中的应用。（英语） Zbl 07504740号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

关于\（x^p/（1-x）\）的反导数及其在优化神经网络分类损失函数中的应用。 （英语） Zbl 07504740号

MSC公司：

关键词：

软件：

参考文献：

关于\（x^p/（1-x）\）的反导数及其在优化神经网络分类损失函数中的应用。（英语） Zbl 07504740号