跳到内容
得到许可的 未经许可 需要身份验证 发布人:德古意特出版社 2020年10月30日

互信息估计在预测五肽结构稳定性中的应用

  • A.I.米哈尔斯基 电子邮件徽标 , I.V.彼得罗夫 , V.V.Tsurko公司 , A.A.阿纳什基纳 A.N.涅克拉索夫

摘要

提出了一种新的非参数互信息估计方法。该方法适用于分类和回归问题中的信息特征选择。该方法在稳定短肽分类问题上的性能得到了验证。

MSC 2010年:92-04;62-07;62G07年

资金报表:这项工作得到了RFBR(项目编号20–04–01085)的支持。

工具书类

[1]H.Almuallim和T.G.Dietterich,学习与许多无关的特征。程序。第九届全国人工智能大会AAAI出版社,1991年,第547-552页。在谷歌学者中搜索

[2]P.Comon,独立成分分析。一个新概念。信号处理36(1994), 287–314.10.1016/0165-1684(94)90029-9在谷歌学者中搜索

[3]D.Darmon,从数据中对随机动力系统进行最优预测的信息论模型选择。物理学。审查E97(2018),第3203206号。10.1103/物理修订版E.97.032206在谷歌学者中搜索公共医学

[4]L.Ein-Dor、O.Zuk和E.Domany,需要数千个样本来生成一个可靠的基因列表,以预测癌症的预后。程序。国家。阿卡德。科学。美国103(2006),第15期,5923–5928。10.1073/pnas.0601231103在谷歌学者中搜索公共医学公共医学中心

[5]I.T.Jolliffe,主成分分析Springer–Verlag,纽约,1986年。10.1007/978-1-4757-1904-8在谷歌学者中搜索

[6]I.Kononenko,估算属性:RELIEF的分析和扩展。程序。第7届欧洲。机器学习的困惑, 1994.10.1007/3-540-57868-4_57在谷歌学者中搜索

[7]A.Kraskov、H.Stoogbauer和P.Grassberger,《估计相互信息》。物理学。审查E69(2004),第6号,066138。10.1103/物理版次E.69.066138在谷歌学者中搜索公共医学

[8]O.F.Lange和H.Grubmuller,生物分子动力学的广义关联。蛋白质62(2006), 1053–1061.10.1002/保护20784在谷歌学者中搜索公共医学

[9]A.N.Nekrasov,蛋白质序列的熵:整体方法。J.生物分子结构。发电机.20(2002), 87–92.10.1080/07391102.2002.10506825在谷歌学者中搜索公共医学

[10]A.N.Nekrasov,蛋白质序列信息结构分析:蛋白质结构域组织分析的新方法。J.生物分子结构。发电机.21(2004),第5期,615–623。10.1080/07391102.2004.10506952在谷歌学者中搜索公共医学

[11]A.N.Nekrasov、L.G.Alekseeva、R.A.Pogosyan、D.A.Dolgikh、M.P.Kirpichnikov、A.G.de Brevern和A.A.Anashkina,多肽链合理设计的最小稳定区块集。生物化学160(2019), 88–92.2016年10月10日/j.bichi.2019.02.006在谷歌学者中搜索公共医学

[12]A.N.Nekrasov、A.A.Anashkina和A.A.Zinchenko,蛋白质结构组织的新范式。生物信息系统的理论方法(2014), 1–22.在谷歌学者中搜索

[13]B.Scholkopf、R.Herbrich和A.J.Smola,广义表示定理。印度海军(2001), 416–426.10.1007/3-540-44581-1_27在谷歌学者中搜索

[14]铃木(T.Suzuki)、杉山(M.Sugiyama)、卡纳莫利(T.Kanamori)和塞斯(J.Sese),相互信息估计揭示了刺激和生物过程之间的全球关联。BMC生物信息学10(2009), 552.10.1186/1471-2105-10-S1-S52在谷歌学者中搜索公共医学公共医学中心

[15]G.D.Tourassi、E.D.Frederick、M.K.Markey和C.E.Jr.Floyd,计算机辅助诊断中特征选择的互信息准则的应用。医学物理学28(2001),第12期,2394–2402。10.1118/1.1418724在谷歌学者中搜索公共医学

[16]V.Tsurko和A.Michalskii,使用经验数据选择信息特征的对比方法。Avtomatika i Telemekhanika公司12(2016),136-154(俄语)。在谷歌学者中搜索

[17]V.Vapnik和R.Izmailov,统计推断问题及其严格解决方案。统计学习与数据科学LNAI(2015),第9047号,第33–75页。10.1007/978-3-319-17091-6_2在谷歌学者中搜索

附录A.互信息的非参数估计

替代表示法(1.5)变成功能性的J型e(电子)(ŵ,λ),我们得到

J型e(电子)(w个^,λ)=12n个2=1n个j个=1n个=1n个αK(K)(x个,j个,x个,)21n个=1n个=1n个αK(K)(x个,,x个,)+λ2=1n个αK(K)(x个,,x个,)2+C.

第一个被加数被转换为

12n个2=1n个j个=1n个=1n个αK(K)(x个,j个,x个,)2=12n个2=1n个j个=1n个=1n个=1n个αK(K)(x个,j个,x个,)αK(K)(x个,j个,x个,)=12n个2=1n个=1n个αα=1n个j个=1n个K(K)(x个,j个,x个,)K(K)(x个,j个,x个,)=12=1n个=1n个ααH(H)

哪里H(H)=1n个2=1n个j个=1n个K(K)(x个,j个,x个,)K(K)(x个,j个,x个,).

第二次汇总转换为形式

1n个=1n个=1n个αK(K)(x个,,x个,)=1n个=1n个α=1n个K(K)(x个,,x个,)==1n个α小时

哪里小时=1n个=1n个K(K)(x个,,x个,).

计算最后一个总和

λ2=1n个αK(K)(x个,,x个,)2=λ2=1n个αK(K)(x个,,x个,),=1n个αK(K)(x个,,x个,)λ2=1n个=1n个ααK(K)(x个,,x个,),K(K)(x个,,x个,)=λ2=1n个=1n个ααK(K)(x个,,x个,).

计算使用希尔伯特空间中标量乘积与再生核的性质K(K)(z(z),t吨)即<K(K)(z(z),u个),K(K)(t吨,u个) > =K(K)(z(z),t吨). 用元素表示矩阵K(K)ij公司=K(K)(x个,,x个j个,j个),由K(K),我们最终得到了表达式

J型e(电子)(α,λ)=12αT型H(H)ααT型小时+λ2αT型K(K)α+C.

后一个函数的最小值是在向量处获得的

α=(H(H)+λK(K))1小时.
收到:2019-10-18
修订过的:2020-07-09
认可的:2020-09-18
在线发布:2020-10-30
印刷出版:2020-10-27

©2020 Walter de Gruyter GmbH,柏林/波士顿

于2014年6月28日从下载https://www.degruyter.com/document/doi/10.1515/rnam-2020-0022/html
滚动到顶部按钮