×

支持向量机分类的离群值映射。 (英语) Zbl 1185.62112号

摘要:支持向量机是一种应用广泛的分类技术。它们计算效率高,即使对于高维数据也能提供出色的预测。此外,由于加入了核函数,支持向量机非常灵活。后者允许建模非线性,但也可以处理非数值数据,如蛋白质串。然而,支持向量机可能会因包含异常值或标记错误的观测值等不干净数据而受到很大影响。尽管文献中已经提出了几种异常值检测方案,但异常值与非异常值的选择通常是临时的,并且不能在数据中提供太多见解。在稳健的多元统计中,离群值映射是评估所考虑数据质量的常用工具。它们提供了描述几种异常值的数据的可视化表示。本文提出了一种用于支持向量机分类的离群值映射。将多元统计中的Stahel-Donoho离群测度推广到任意核空间。支持向量机的修剪版本定义为修剪具有最大outliness的样本部分。基于该分类器,可以在任意类型的高维核空间中构建可视化数据的离群值映射。离群值图在4个生物示例上进行了说明,表明其在探索性数据分析中的应用。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
62页第10页 统计学在生物学和医学中的应用;元分析

软件:

ROBPCA公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alon,U.、Barkai,N.、Notterman,D.A.、Gish,K.、Ybara,S.、Mack,D.和Levine,A.J.(1999)。寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类揭示了广泛的基因表达模式。程序。国家。阿卡德。科学。96 6475-6750.
[2] Chiaretti,S.、Li,X.、Gentleman,R.、Vitale,A.、Vignetti,M.、Mandelli,F.、Ritz,J.和Foa,R.(2004)。成人T细胞急性淋巴细胞白血病的基因表达谱确定了对治疗和生存有不同反应的患者的不同亚群。血液103 2771-2778。
[3] Christmann,A.和Steinwart,I.(2004)。模式识别凸风险最小化方法的鲁棒性。J.马赫。学习。第5号决议1007-1034·Zbl 1222.68348号
[4] Donoho,D.L.(1982)。多元位置估计的分解性质。资格证明文件。哈佛大学。
[5] Furey,T.S.、Cristianini,N.、Duffy,D.、Bednarski,W.、Schummer,M.和Haussler,D.(2000)。使用微阵列表达数据支持向量机分类和癌症组织样本验证。生物信息学16 906-914。
[6] Jaakkola,T.、Diekhans,M.和Haussler,D.(2000年)。用于检测远程蛋白质同源性的判别框架。J.计算。生物学7 95-114。
[7] Guyon,I.、Weston,J.、Barnhill,S.和Vapnik,V.(2002)。使用支持向量机进行癌症分类的基因选择。马赫。学习。46 389-422. ·Zbl 0998.68111号 ·doi:10.1023/A:1012487302797
[8] Hubert,M.和Engelen,S.(2004年)。生物科学中的稳健PCA和分类。生物信息学20 1728-1736。
[9] Hubert,M.、Rousseeuw,P.J.和Vanden Branden,K.(2005)。ROBPCA:稳健主成分分析的新方法。技术计量47 64-79·doi:10.1198/00401700400000563
[10] Kadota,K.、Tominaga,D.、Akiyama,Y.和Takahashi,K.(2003)。检测微阵列数据中的离群样本:离群值对样本分类的影响的关键评估。化学生物信息。期刊3 30-45。
[11] Leslie,C.、Eskin,E.和Noble,W.S.(2002年)。光谱核:支持向量机蛋白质分类的字符串核。2002年太平洋生物计算研讨会论文集(R.B.Altman、A.K.Dunker、L.Hunter、K.Lauerdale和T.E.Klein编辑)564-575。新泽西州哈肯萨克,世界科学。
[12] Leslie,C.、Eskin,E.、Weston,J.和Noble,W.S.(2003年)。支持向量机蛋白质分类的字符串核不匹配。《神经信息处理系统进展》(S.Becker、S.Thrun和K.Obermayer,eds.)15 1441-1448。麻省理工学院出版社,马萨诸塞州剑桥。
[13] Li,L.,Darden,T.A.,Weinberg,C.R.,Levine,A.J.和Pedersen,L.G.(2001)。使用遗传算法/k最近邻法对基因表达数据进行基因评估和样本分类。梳子。化学。高通量屏幕。4 727-739.
[14] Liao,L.和Noble,W.S.(2002)。结合两两序列相似性和支持向量机进行远程蛋白质同源性检测。《第六届国际计算分子生物学会议论文集》(T.Lengauer,ed.)225-232。ACM出版社,纽约。
[15] Malossini,A.、Blanzieri,E.和Ng,R.T.(2006年)。通过数据扰动检测微阵列中的潜在标记错误。生物信息学22 2114-2121。
[16] Maronna,R.和Yohai,V.(1995年)。Stahel-Donoho稳健多元估计的行为。J.Amer。统计师。协会90 330-341·Zbl 0820.62050号 ·doi:10.2307/2291158
[17] Pochet,N.、De Smet,F.、Suykens,J.A.K.和De Moor,B.(2004)。微阵列数据分类的系统基准:评估非线性和降维的作用。生物信息学20 3185-3195。
[18] Pollack,J.D.、Li,Q.和Pearl,D.K.(2005)。古生菌、细菌和真核生物磷酸甘油酸激酶蛋白系统发育分析的分类实用性:贝叶斯分析的见解。分子系统学。进化。35 420-430.
[19] Rousseeuw,P.J.和Van Zomeren,B.C.(1990)。揭示多元异常值和杠杆点。J.Amer。统计师。协会85 633-639。
[20] Saigo,H.、Vert,J.、Ueda,N.和Akutsul,T.(2004)。使用字符串对齐核进行蛋白质同源性检测。生物信息学20 1682-1689。
[21] Schölkopf,B.和Smola,A.(2002年)。用内核学习。麻省理工学院出版社,马萨诸塞州剑桥·Zbl 1019.68094号
[22] Stahel,W.A.(1981年)。稳健的Schätzungen:无限小的最优性。苏黎世理工大学博士论文·兹比尔0531.62036
[23] Steinwart,I.和Christmann,A.(2008年)。支持向量机。纽约州施普林格·兹比尔1203.68171
[24] Vapnik,V.(1998)。统计学习理论。纽约威利·Zbl 0935.62007号
[25] West,M.、Blanchette,C.、Dressman,H.、Huang,E.、Ishida,S.、Spang,R.、Zuzan,H.,Marks,J.R.和Nevins,J.R.(2001)。利用基因表达谱预测人类乳腺癌的临床状况。程序。国家。阿卡德。科学。98 11462-11467.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。