×

高斯核的双重随机归一化对异方差噪声具有鲁棒性。 (英语) 兹比尔1468.62431

摘要:许多数据分析技术的一个基本步骤是构建描述数据点之间相似性的亲和矩阵。当数据点位于欧氏空间中时,一种普遍的方法是通过高斯核以成对距离形成亲和矩阵,然后进行某种归一化(例如,行-随机归一化或其对称变体)。我们证明了主对角线为零(即无自循环)的高斯核的双重随机归一化对异方差噪声具有鲁棒性。也就是说,双随机归一化的优点在于它可以自动解释具有不同噪声方差的观测值。具体地说,我们证明了在一个合适的高维环境中,异方差噪声在空间的任何特定方向上都不会太集中,由此产生的(双随机)噪声亲和矩阵以速率(m^{-1/2})收敛到其干净的对应矩阵,其中(m\)是环境维。我们从数值上证明了这一结果,并表明,相比之下,流行的行-随机和对称正规化在异方差噪声下表现出不利的行为。此外,我们还提供了具有内在异方差的模拟和实验单细胞RNA序列数据的示例,其中探索性分析的双重随机归一化优势显而易见。

MSC公司:

62兰特 大数据和数据科学的统计方面
62G35型 非参数稳健性
62页第10页 统计学在生物学和医学中的应用;元分析
第92天20分 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Z.Allen-Zhu、Y.Li、R.Oliveira和A.Wigderson,《矩阵缩放的更快算法》,《IEEE第58届计算机科学基础年会论文集》,IEEE,华盛顿特区,2017年,第890-901页。
[2] R.B.Bapat和T.E.S.Raghavan,非负矩阵和应用,百科全书数学。申请。64,剑桥大学出版社,英国剑桥,1997年·Zbl 0879.15015号
[3] M.Beauchemin,关于图割和谱聚类的亲和矩阵归一化,模式识别快报。,68(2015),第90-96页。
[4] M.Belkin和P.Niyogi,用于降维和数据表示的拉普拉斯特征映射,神经计算。,15(2003年),第1373-1396页·Zbl 1085.68119号
[5] J.Beínasseíni,多项式分布特征值不等式的新推导,J.Math。分析。申请。,393(2012),第697-698页·Zbl 1308.60020号
[6] T.Berry和J.Harlim,可变带宽扩散内核,应用。计算。哈蒙。分析。,40(2016年),第68-96页·Zbl 1343.94020号
[7] M.M.Bronstein、J.Bruna、Y.LeCun、A.Szlam和P.Vandergheynst,《几何深度学习:超越欧几里德数据》,IEEE信号处理。Mag.,34(2017),第18-42页。
[8] J.B.Brown、P.J.Chase和A.O.Pittenger,迭代缩放中的阶独立性和因子收敛,线性代数应用。,190(1993),第1-38页·Zbl 0776.60087号
[9] A.Buades、B.Coll和J.-M.M.Morel,图像去噪的非局部算法,载于《2005年IEEE计算机学会计算机视觉和模式识别会议论文集》(CVPR'05),第2卷,IEEE,华盛顿特区,2005年,第60-65页·Zbl 1108.94004号
[10] Y.Cao,A.Zhang,和H.Li,宏基因组数据中细菌组成矩阵的多样本估计,预印本,https://arxiv.org/abs/1706.02380, 2017.
[11] R.N.Cochran和F.H.Horne,快速扫描波长动力学实验的统计加权主成分分析,分析化学。,49(1977年),第846-853页。
[12] R.R.Coifman和S.Lafon,扩散图,应用。计算。哈蒙。分析。,21(2006),第5-30页·Zbl 1095.68094号
[13] R.R.Coifman和M.Maggioni,扩散小波,应用。计算。哈蒙。分析。,21(2006),第53-94页·邮编1095.94007
[14] M.Cuturi,《Sinkhorn distances:Lightspeed computation of optimal transport》,摘自《2013年神经信息处理系统进展》,NeurIPS,加州圣地亚哥,2013年,第2292-2300页。
[15] M.Defferrard、X.Bresson和P.Vandergheynst,《带快速局部化谱滤波的图上卷积神经网络》,《2016年神经信息处理系统进展》,NeurIPS,加州圣地亚哥,第3844-3852页。
[16] N.El Karoui,关于信息加噪声核随机矩阵,Ann.Statist。,38(2010),第3191-3216页·Zbl 1200.62056号
[17] N.El Karoui和H.-T.Wu,图连接拉普拉斯方法可以对噪声鲁棒,Ann.Statist。,44(2016),第346-372页·Zbl 1350.60036号
[18] A.Foi,剪辑噪声图像:异方差建模和实际去噪,信号处理。,89(2009),第2609-2629页·Zbl 1197.94051号
[19] A.Foi,《MR成像中的噪声估计和去除:方差稳定方法》,载于《2011年IEEE国际生物医学成像研讨会论文集:从纳米到宏观》,IEEE,华盛顿特区,2011年,第1809-1814页。
[20] S.Fortunato,《图形中的社区检测》,Phys。众议员,486(2010),第75-174页。
[21] N.Habib,Y.Li,M.Heidenreich,L.Swiech,I.Avraham-Davidi,J.J.Trombetta,C.Hession,F.Zhang,A.Regev,DIV-SEQ:单核RNA-SEQ揭示了罕见成年新生神经元的动力学,《科学》,353(2016),第925-928页。
[22] C.Hafemeister和R.Satija,使用正则化负二项回归对单细胞RNA-SEQ数据进行归一化和方差稳定,基因组生物学。,20(2019),第1-15页。
[23] D.K.Hammond、P.Vandergheynst和R.Gribonval,通过谱图理论研究图上的小波,应用。计算。哈蒙。分析。,30(2011年),第129-150页·Zbl 1213.42091号
[24] M.Hein、J.-Y.Audibert和U.Von Luxburg,《从图到流形——图的弱和强点态一致性》,计算学习理论国际会议,Springer,纽约,2005年,第470-485页·Zbl 1095.68097号
[25] W.Hoeffing,有界随机变量和的概率不等式,《瓦西里·霍夫丁文集》,Springer,纽约,1994年,第409-426页·Zbl 0807.01034号
[26] R.A.Horn和C.R.Johnson,《矩阵分析》,第二版,英国剑桥大学出版社,2012年。
[27] M.Idel,矩阵和正映射的矩阵标度和Sinkhorn范式综述,预印本,https://arxiv.org/abs/1609.06349, 2016.
[28] T.Kim、X.Zhou和M.Chen,《揭开单细胞UMI数据中的“脱落”的神秘面纱》,预印本,https://www.biorxiv.org/content/10.1101/2020.03.31.018911v1, 2020.
[29] Y.Kluger、R.Basri、J.T.Chang和M.Gerstein,微阵列数据的光谱双聚类:共聚类基因和条件,《基因组研究》,13(2003),第703-716页。
[30] P.A.Knight,Sinkhorn Knopp算法:收敛与应用,SIAM J.矩阵分析。申请。,30(2008),第261-275页,https://doi.org/10.1137/060659624。 ·Zbl 1166.15301号
[31] B.Landa和Y.Shkolnisky,可操纵图Laplacian及其在图像数据集过滤中的应用,SIAM J.Imaging Sci。,11(2018),第2254-2304页,https://doi.org/10.1137/18M1169394。 ·Zbl 1452.68253号
[32] G.C.Linderman、M.Rachh、J.G.Hoskins、S.Steinerberger和Y.Kluger,用于改进单细胞RNA-SEQ数据可视化的基于快速插值的T-SNE,《自然方法》,16(2019),第243-245页。
[33] L.V.D.Maaten和G.Hinton,使用T-SNE可视化数据,J.Mach。学习。Res.,9(2008),第2579-2605页·Zbl 1225.68219号
[34] E.Z.Macosko、A.Basu、R.Satija、J.Nemesh、K.Shekhar、M.Goldman、I.Tirosh、A.R.Bialas、N.Kamitaki、E.M.Martersteck等,《使用纳米液滴对单个细胞进行高度平行的全基因组表达谱分析》,《细胞》,161(2015),第1202-1214页。
[35] H.B.Mann和A.Wald,《随机极限与序关系》,《数学年鉴》。《统计学》,14(1943),第217-226页·Zbl 0063.03774号
[36] N.F.Marshall和R.R.Coifman,双随机内核的流形学习,IMA J.Appl。数学。,84(2019),第455-482页·Zbl 1472.68148号
[37] F.G.Meyer和X.Shen,图的特征向量的扰动Laplacian:在图像去噪中的应用,应用。计算。哈蒙。分析。,36(2014),第326-334页·Zbl 1357.05088号
[38] B.Nadler、S.Lafon、R.R.Coifman和I.G.Kevrekidis,动力学系统的扩散图、光谱聚类和反应坐标,应用。计算。哈蒙。分析。,21(2006),第113-127页·Zbl 1103.60069号
[39] A.Y.Ng、M.I.Jordan和Y.Weiss,《关于谱聚类:分析和算法》,载于《2002年神经信息处理系统进展》,NeurIPS,加利福尼亚州圣地亚哥,2002年,第849-856页。
[40] J.Pang和G.Cheung,图像去噪的图-拉普拉斯正则化:连续域分析,IEEE Trans。图像处理。,26(2017),第1770-1785页·Zbl 1409.94475号
[41] J.Salmon、Z.Harmany、C.-A.Deledale和R.Willett,《利用非局部PCA降低泊松噪声》,J.Math。成像视觉。,48(2014),第279-294页·Zbl 1365.94050号
[42] P.Sarkar和P.J.Bickel,规范化在随机块模型谱聚类中的作用,Ann.Statist。,43(2015),第962-990页·Zbl 1320.62150号
[43] U.Shaham、K.Stanton、H.Li、R.Basri、B.Nadler和Y.Kluger,《SpectralNet:使用深度神经网络的光谱聚类》,学习表征国际会议,2018年,https://openreview.net/forum?id=HJ_aoCyRZ。
[44] J.Shi和J.Malik,标准化切割和图像分割,IEEE Trans。模式分析。机器。智力。,22(2000),第888-905页。
[45] D.I.Shuman、S.K.Narang、P.Frossard、A.Ortega和P.Vandergheynst,图上信号处理的新兴领域:将高维数据分析扩展到网络和其他不规则领域,IEEE信号处理。Mag.,30(2013),第83-98页。
[46] A.Singer,从图到流形Laplacian:收敛速度,应用。计算。哈蒙。分析。,21(2006),第128-134页·兹比尔1095.68102
[47] A.Singer、Y.Shkolnisky和B.Nadler,信号去噪非局部邻域滤波器的扩散解释,SIAM J.成像科学。,2(2009),第118-139页,https://doi.org/10.1137/070712146。 ·Zbl 1175.62102号
[48] R.Sinkhorn和P.Knopp,关于非负矩阵和双随机矩阵,太平洋数学杂志。,21(1967),第343-348页·Zbl 0152.01403号
[49] O.Tamuz、T.Mazeh和S.Zucker,《纠正大量光度光曲线中的系统效应》,《皇家天文学会月刊》,356(2005),第1466-1470页。
[50] F.Tang、C.Barbacioru、Y.Wang、E.Nordman、C.Lee、N.Xu、X.Wang,J.Bodeau、B.B.Tuch、A.Siddiqui、K.Lao和M.A.Surani,单细胞mRNA-Seq全转录组分析,《自然方法》,6(2009),第377-382页。
[51] I.Tirosh,B.Izar,S.M.Prakadan,M.H.Wadsworth,D.Treacy,J.J.Trombetta,A.Rotem,C.Rodman,C.Lian,G.Murphy等人,《通过单细胞RNA-seq解剖转移性黑色素瘤的多细胞生态系统》,《科学》,352(2016),第189-196页。
[52] F.W.Townes、S.C.Hicks、M.J.Aryee和R.A.Irizarry,基于多项式模型的单细胞RNA-SEQ特征选择和降维,基因组生物学。,20(2019),第1-16页。
[53] N.G.Trillos、M.Gerlach、M.Hein和D.Slepčev,发现随机几何图上的图Laplacian向Laplace-Beltrami算子的谱收敛的误差估计。计算。数学。,20(2020年),第827-887页·Zbl 1447.62141号
[54] A.-C.Villani、R.Satija、G.Reynolds、S.Sarkizova、K.Shekhar、J.Fletcher、M.Griesbeck、A.Butler、S.Zheng、S.Lazo等人,《单细胞RNA-SEQ揭示了新型人类血液树突状细胞、单核细胞和祖细胞》,《科学》,356(2017),eaah4573。
[55] U.Von Luxburg,光谱聚类教程,统计计算。,17(2007),第395-416页。
[56] F.Wang、P.Li、A.C.Koönig和M.Wan,通过学习双随机数据相似矩阵改进聚类,知识信息。系统。,32(2012年),第351-382页。
[57] R.Zass和A.Shashua,《硬聚类和概率聚类的统一方法》,载于《第十届IEEE国际计算机视觉会议论文集》(ICCV'05),第1卷,IEEE,华盛顿特区,2005年,第294-301页。
[58] R.Zass和A.Shashua,谱聚类的双重随机归一化,《2007年神经信息处理系统进展》,NeurIPS,加州圣地亚哥,第1569-1576页。
[59] L.Zelnik-Manor和P.Perona,自校正谱聚类,《神经信息处理系统的进展》,2005年,NeurIPS,加利福尼亚州圣地亚哥,第1601-1608页。
[60] M.J.Zhang、V.Ntranos和D.Tse,《在单细胞RNA-seq实验中确定测序深度》,《自然通讯》。,11 (2020), 774.
[61] G.X.Zheng,J.M.Terry,P.Belgrader,P.Ryvkin,Z.W.Bent,R.Wilson,S.B.Ziraldo,T.D.Wheeler,G.P.McDermott,J.Zhu等人,《单细胞大规模并行数字转录图谱》,《自然通讯》。,8 (2017), 14049.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。