×

一种新的基于Shannon熵的分离指标和分类技术。 (英语) 兹比尔1523.62077

摘要:目的是使用Shannon熵测度来开发分类技术和一个指数,用于估计有限混合模型中各组的分离。这些度量可以应用于机器学习技术,如判别分析、聚类分析、探索性数据分析等。如果我们知道组的数量,并且我们有来自每个组的训练样本(监督学习),则该指数用于度量组的分离。这里使用一些熵度量来对这些组中的新个体进行分类。如果我们不确定组的数量(无监督学习),可以使用该指数根据熵(信息/不确定性)标准确定最佳组数量。它还可以用于确定最佳变量,以分离组。在所有情况下,我们假设我们有绝对连续的随机变量,并且我们使用基于概率密度函数的香农熵。提出了理论、参数和非参数技术,以在实践中获得这些熵测度的近似值。还提供了在具有许多变量的结肠癌鉴别研究中基因选择的应用。

MSC公司:

62号05 可靠性和寿命测试
62克07 密度估算
62B10型 信息理论主题的统计方面
90B25型 运筹学中的可靠性、可用性、维护和检查
94甲17 信息的度量,熵
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 艾哈迈迪,J。;Di Crescenzo,A。;Longobardi,M.,关于双变量寿命的动态互信息,Adv Appl Probab,47,1157-1174(2015)·Zbl 1355.94022号 ·doi:10.1239/aap/1449859804
[2] 阿龙,美国。;北巴尔凯。;诺特曼,DA;吉什,K。;伊巴拉,S。;麦克,D。;Levine,AJ,通过寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示的广泛基因表达模式,PNAS,96,6745-6750(1999)·doi:10.1073/pnas.96.12.6745
[3] 阿雷瓦利略,JM;Navarro,H.,探索基因表达微阵列数据与最大可预测最小冗余生物标记物选择和分类的相关性,计算机生物医学,43,1437-1443(2013)·doi:10.1016/j.compbiomed.2013.07.005
[4] 巴拉克里希南,N。;Buono,F。;Longobardi,M.,《关于有序统计矩的累积熵》,Methodol Comput Appl Probab,24,345-359(2022)·Zbl 1493.62251号 ·doi:10.1007/s11009-021-09850-0
[5] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用于评估混合模型中簇数的NEC标准的改进》,Pattern Recogn Lett,20,267-272(1999)·Zbl 0933.68117号 ·doi:10.1016/S0167-8655(98)00144-5
[6] 布里特,J。;哈雷莫斯,P.,经典和量子延森的性质?香农分歧,《物理学评论A》,79,283-304(2009)·doi:10.103/物理版本A.79.052311
[7] Buono,F。;Longobardi,M.,《不确定性的双重测量:邓外差》,熵,22,582(2020)·doi:10.3390/e22050582
[8] Celeux,G。;Soromenho,G.,评估混合模型中簇数的熵准则,J Classif,13195-212(1996)·Zbl 0861.62051号 ·doi:10.1007/BF01246098
[9] 盖子,TM;托马斯,JA,《信息理论的要素》(2006),美国新泽西州霍博肯:威利,霍博肯,新泽西州,美国·Zbl 1140.94001号
[10] Di Crescenzo,A。;Longobardi,M.,基于熵的过去寿命分布不确定性测量,《应用概率杂志》,39,434-440(2002)·Zbl 1003.62087号 ·doi:10.1239/jap/1025131441
[11] Di Crescenzo,A。;Longobardi,M.,《关于加权残差和过去熵》,《科学数学杂志》,64,2,255-266(2006)·Zbl 1106.62114号
[12] Di Crescenzo A,Paolillo L,Suárez-Llorens A(2021)概率密度函数诱导分布的随机比较、微分熵和变熵。doi:10.48550/arXiv.2103.1108
[13] Grandvalet Y,Bengio Y(2005)《熵最小化半监督学习》。Proc Adv Neural Inf过程系统529-536
[14] J.墨尔本。;Talukdar,S。;巴班,S。;Madiman,M。;Salapaka,MV,混合物的微分熵:新边界和应用,IEEE Trans-Inf理论,68,2123-2146(2022)·Zbl 1497.62025号 ·doi:10.1109/TIT.2022.3140661
[15] 莫斯科特区。;Khandani,AK,高斯混合微分熵的任意紧界,IEEE Trans-Inf理论,623340-3354(2016)·Zbl 1359.94343号 ·doi:10.1109/TIT.2016.2553147
[16] Rao,M。;陈,Y。;维穆里,B。;Wang,F.,累积剩余熵:一种新的信息度量,IEEE Trans-Inf理论,501220-1228(2004)·Zbl 1302.94025号 ·doi:10.1109/TIT.2004.828057
[17] Rényi A(1961)关于信息和熵的度量。摘自:第四届伯克利数学、统计和概率研讨会论文集第547-561页·Zbl 0106.33001号
[18] 香农,CE,通信数学理论,贝尔系统技术杂志,27279-423(1948)·Zbl 1154.94303号 ·doi:10.1002/j.1538-7305.1948.tb01338.x
[19] Sylvia M(2019)colonCA:exprSet for Alon等人(1999)结肠癌数据。R软件包版本1.28.0
[20] Tsallis,C.,玻尔兹曼-吉布斯统计的可能推广,J Stat Phys,52479-487(1988)·Zbl 1082.82501号 ·doi:10.1007/BF01016429
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。