×

定义学习曲线的重力:最近邻异常检测器的一个特征。 (英语) Zbl 1412.68193号

总结:机器学习中的传统智慧认为,所有算法都应该遵循学习曲线的轨迹,俗称“数据越多越好”。我们称之为“学习曲线的引力”,并假设没有任何学习算法是“引力挑战”的。与传统观点相反,本文提供了理论分析和经验证据,证明最近邻异常检测器是一种抗引力算法。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
68吨10 模式识别、语音识别
68单位05 计算机图形;计算几何(数字和算法方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal,C.C.和Sathe,S.(2015)。离群集合的理论基础和算法。SIGKDD探索,17(1),24-47·数字对象标识代码:10.1145/2830544.2830549
[2] Bandaragoda,T.、Ting,K.M.、Albrecht,D.、Liu,F.和Wells,J.(2014)。使用最近邻集合通过隔离进行有效的异常检测。2014年IEEE数据挖掘国际会议论文集,增量分类、概念漂移和新颖性检测研讨会(第698-705页)。
[3] Banko,M.和Brill,E.(2001年)。扩展到非常非常大的语料库以进行自然语言消歧。计算语言学协会第39届年会论文集,计算语言学协会,ACL'01(第26-33页)。
[4] Bay,S.和Schwabacher,M.(2003)。利用随机性和简单的剪枝规则在近线性时间内挖掘基于距离的离群值。第九届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第29-38页)。
[5] Bifet,A.、Frank,E.、Holmes,G.和Pfahringer,B.(2010年)。数据流的精确集合:使用堆叠组合受限锄头树。在JMLR研讨会和会议记录中。第二届亚洲机器学习会议(第13卷,第225-240页)。
[6] Breunig,M.M.、Kriegel,H.P.、Ng,R.T.和Sander,J.(2000)。LOF:识别基于密度的局部异常值。2000年ACM SIGMOD国际数据管理会议记录,ACM(第93-104页)。
[7] Duarte,J.和Gama,J.(2014)。来自高速数据流的自适应模型规则的集合。JMLR研讨会和会议记录。第三届大数据国际研讨会(第36卷,第198-213页)。算法、系统、编程模型和应用:流和异构源挖掘。
[8] Evans,D.、Jones,A.J.和Schmidt,W.M.(2002)。近邻距离分布的渐近矩。《数学、物理和工程科学学报》,458(2028),2839-2849·Zbl 1054.60010号
[9] Fukunaga,K.(1990年)。统计模式识别导论(第二版)。圣地亚哥:学术出版社·Zbl 0711.62052号
[10] Halevy,A.、Norvig,P.和Pereira,F.(2009年)。数据的不合理有效性。IEEE智能系统,24(2),8-12·doi:10.1109/MIS.2009.36
[11] Hall,M.、Frank,E.、Holmes,G.、Pfahringer,B.、Reutemann,P.和Witten,I.H.(2009)。weka数据挖掘软件:更新。SIGKDD探索,11(1),10-18·数字对象标识代码:10.1145/1656274.1656278
[12] Hand,D.J.和Till,R.J.(2001)。多类别分类问题roc曲线下面积的简单概括。机器学习,45(2),171-186·Zbl 1007.68180号 ·doi:10.1023/A:1010920819831
[13] Lichman,M.(2013)。UCI机器学习库。存档.ics.uci.edu/ml
[14] Liu,F.、Ting,K.M.和Zhou,Z.H.(2008)。隔离林。第八届IEEE数据挖掘国际会议论文集(第413-422页)。
[15] Masud,M.、Gao,J.、Khan,L.、Han,J.和Thurasingham,B.(2011年)。时间约束下概念驱动数据流中的分类和新类检测。IEEE知识与数据工程汇刊,23(6),859-874·doi:10.1109/TKDE.2010.61
[16] Pandya,D.、Upadhyay,S.和Harsha,S.(2013年)。基于apf-knn的声发射数据固有模态函数滚动轴承故障诊断。应用专家系统,40(10),4137-4145·doi:10.1016/j.eswa.2013.01.033
[17] Pang,G.、Ting,K.M.和Albrecht,D.(2015)。LeSiNN:通过识别最不相似的最近邻来检测异常。2015年IEEE国际数据挖掘研讨会(ICDMW)(第623-630页)。
[18] Silverman,B.W.(1986)。统计和数据分析的密度估计。伦敦:查普曼和霍尔·Zbl 0617.62042号 ·doi:10.1007/978-1-4899-3324-9
[19] Sugiyama,M.和Borgwardt,K.(2013年)。通过采样实现基于距离的快速离群点检测。神经信息处理系统进展,26,467-475。
[20] Wells,J.R.、Ting,K.M.和Washio,T.(2014)。LiNearN:一种新的最近邻密度估计方法。模式识别,47(8),2702-2720·Zbl 1339.68239号 ·doi:10.1016/j.patcog.2014.01.013
[21] Zhou,G.T.、Ting,K.M.、Liu,F.T.和Yin,Y.(2012)。基于内容的多媒体信息检索的相关特征映射。模式识别,45(4),1707-1720·doi:10.1016/j.patcog.2011.09.016
[22] Zimek,A.、Gaudet,M.、Campello,R.J.和Sander,J.(2013)。高效和有效的无监督离群值检测集合的子采样。在第19届ACM SIGKDD知识发现和数据挖掘国际会议的会议记录中,ACM(第428-436页)。
[23] Zitzler,E.、Laumanns,M.和Bleuler,S.(2004)。进化多目标优化教程。在X.Gandibleux、M.Sevaux、K.Sörensen和V.T'Kindt(编辑)《多目标优化的元启发式》(第3-37页)中。柏林,海德堡:施普林格·Zbl 1134.90491号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。