×

统计欺诈检测:综述。 (英语) Zbl 1013.62115号

摘要:随着现代技术和全球通信高速公路的发展,欺诈行为急剧增加,导致全球每年损失数十亿美元。虽然预防技术是减少欺诈的最佳方法,但欺诈者具有适应性,并且在一定时间内通常会找到规避此类措施的方法。如果我们要在欺诈预防失败后抓住欺诈者,那么检测欺诈的方法至关重要。统计和机器学习为欺诈检测提供了有效的技术,并已成功应用于检测洗钱、电子商务信用卡欺诈、电信欺诈和计算机入侵等活动。我们描述了统计欺诈检测可用的工具以及欺诈检测技术最常用的领域。

MSC公司:

62页99 统计学的应用
第62页第25页 统计学在社会科学中的应用

软件:

4.5条;FAIS公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] ALESKEROV,E.、FREISLEBEN,B.和RAO,B.(1997)。CARDWATCH:基于神经网络的数据库挖掘系统,用于信用卡欺诈检测。《金融工程计算智能》,IEEE/IAFE 220-226会议录。IEEE,新泽西州皮斯卡塔韦。
[2] 艾伦·T(2000)。医疗补助欺诈统计学家一生中的一天。统计数据29 20-22。
[3] 安德森·D、弗里沃德·T和瓦尔德斯·A(1995)。下一代入侵检测专家系统(NIDES):总结。技术报告SRI-CSL-95-07,计算机科学实验室,SRI International,Menlo Park,CA。
[4] ANDREWS,P.P.和PETERSON,M.B.编辑(1990年)。刑事情报分析。加利福尼亚州卢米斯市帕尔默企业。
[5] ARTíS,M.、Ay USO,M.和GUILLéN,M.(1999)。模拟西班牙市场上不同类型的汽车保险欺诈行为。保险数学与经济学24 67-81·兹伯利0927.62108 ·doi:10.1016/S0167-6687(98)00038-9
[6] BARAO,M.I.和TAWN,J.A.(1999)。具有离群值的短序列极值分析:海平面和田径记录。申请。统计师。48 469-487. ·Zbl 0964.62036号 ·doi:10.1111/1467-9876.00166
[7] BLUNT,G.和HAND,D.J.(2000年)。英国信用卡市场。伦敦帝国学院数学系技术报告。
[8] BOLTON,R.J.和HAND,D.J.(2001)。用于欺诈检测的无监督分析方法。9月5日至7日,英国爱丁堡第七届信用评分和信用控制会议。
[9] BRAUSE,R.、LANGSDORF,T.和HEPP,M.(1999)。用于信用卡欺诈检测的神经数据挖掘。第11届IEEE人工智能工具国际会议论文集103-106。IEEE计算机学会出版社,马里兰州银泉出版社。
[10] BREIMAN,L.、FRIEDMAN,J.H.、OLSHEN,R.A.和STONE,C.J.(1984)。分类和回归树。加利福尼亚州贝尔蒙特市沃兹沃斯·Zbl 0541.62042号
[11] BROCKETT,P.L.,XIA,X.和DERRIG,R.A.(1998年)。使用Kohonen的自组织功能图揭露汽车人身伤害索赔欺诈行为。风险与保险杂志65 245-274。
[12] BURGE,P.和SHAWE-TAy LOR,J.(1997)。使用自适应协议检测手机欺诈。在AAAI欺诈检测和风险管理AI方法研讨会上9-13。加利福尼亚州门罗公园AAAI出版社。
[13] 购买SE,M.,GEORGE,S.L.,EVANS,S.,GELLER,N.L。,
[14] RANSTAM,J.、SCHERRER,B.、LESAFFRE,E.、MURRAY,G.、。,
[15] EDLER,L.、HUTTON,J.、COLTON,T.、LACHENBRUCH,P。
[16] 和VERMA,B.L.(1999)。生物统计学在预防、检测和治疗临床试验欺诈中的作用。医学统计18 3435-3451。
[17] CAHILL,M.H.、LAMBERT,D.、PINHEIRO,J.C.和SUN,D.X。
[18] .在现实世界中检测欺诈。在《海量数据集手册》(J.Abello,P.M.Pardalos和M.G.C.Resende,eds.)中。多德雷赫特·克鲁沃·兹比尔1010.68064
[19] CHAN,P.K.、FAN,W.、PRODROMIDIS,A.L.和STOLFO,S.J。
[20] .信用卡欺诈检测中的分布式数据挖掘。IEEE智能系统14(6)67-74。
[21] CHAN,P.和STOLFO,S.(1998年)。面向非均匀类和成本分布的可扩展学习:信用卡欺诈检测案例研究。第四届知识发现和数据挖掘国际会议论文集164-168。加利福尼亚州门罗公园AAAI出版社。
[22] CHARTIER,B.和SPILLANE,T.(2000)。利用神经网络进行洗钱检测。《神经网络的商业应用》(P.J.G.Lisboa、a.Vellido和B.Edisbury编辑)159-172。新加坡世界科学。
[23] CHHIKARA,R.S.和MCKEON,J.(1984年)。训练样本错位的线性判别分析。J.Amer。统计师。协会79 899-906。JSTOR公司:·Zbl 0547.62042号 ·doi:10.2307/2288722
[24] CLARK,P.和NIBLETT,T.(1989年)。CN2归纳算法。机器学习3 261-285。
[25] COHEN,W.(1995)。快速有效的规则归纳。第12届机器学习国际会议论文集115-123。Morgan Kaufmann,加利福尼亚州帕洛阿尔托。
[26] CORTES,C.、FISHER,K.、PREGIBON,D.和ROGERS,A。
[27] 汉考克:一种从数据流中提取签名的语言。第六届ACM SIGKDD知识发现和数据挖掘国际会议论文集9-17。纽约ACM出版社。
[28] CORTES,C.和PREGIBON,D.(1998年)。千兆矿业。第四届知识发现和数据挖掘国际会议记录174-178。加利福尼亚州门罗公园AAAI出版社。
[29] CORTES,C、PREGIBON,D.和VOLINSKY,C.(2001)。利益群体。计算机课堂讲稿。科学。2189 105-114. ·Zbl 1029.68692号
[30] COX,K.C.、EICK,S.G.和WILLS,G.J.(1997)。可视化数据挖掘:识别电话欺诈。数据挖掘和知识发现1 225-231。
[31] CSIDS(1999)。思科安全入侵检测系统技术概述。可在http://www.wheelgroup.com/warp/public/cc/cisco/mkt/security/nrange/tech/trant_tc.htm。网址:
[32] 邓宁,D.E.(1997)。Cyberspace攻击和对策。《互联网围城》(D.E.Denning和P.J.Denning编辑)29-55。纽约ACM出版社。
[33] DORRONSORO,J.R.、GINEL,F.、SANCHEZ,C.和CRUZ,C.S。
[34] .信用卡操作中的神经欺诈检测。IEEE神经网络汇刊8 827-834。
[35] FANNING,K.、COGGER,K.O.和SRIVASTAVA,R.(1995)。检测管理欺诈:一种神经网络方法。国际会计、金融和管理智能系统杂志4 113-126。
[36] FAWCETT,T.和PROVOST,F.(1997a)。自适应欺诈检测。数据挖掘和知识发现1 291-316。
[37] FAWCETT,T.和PROVOST,F.(1997年b)。将数据挖掘和机器学习结合起来,实现有效的欺诈检测。AAAI欺诈检测和风险管理AI方法研讨会14-19。加利福尼亚州门罗公园AAAI出版社。
[38] FAWCETT,T.和PROVOST,F.(1999)。活动监控:注意行为中有趣的变化。第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集53-62。纽约ACM出版社。
[39] FORREST,S.、HOFMEy R,S.,SOMAy AJI,A.和LONGSTAFF,T。
[40] UNIX进程的自我意识。1996年IEEE安全与隐私系统会议记录120-128。IEEE计算机学会出版社,马里兰州银泉。
[41] GHOSH,S.和REILY,D.L.(1994)。用神经网络检测信用卡欺诈。第27届夏威夷系统科学国际会议论文集(J.F.Nunamaker和R.H.Sprague,eds.)3 621-630。IEEE计算机学会出版社,加利福尼亚州洛斯阿拉米托斯。
[42] GLASGOW,B.(1997)。保险业的风险和欺诈。AAAI欺诈检测和风险管理AI方法研讨会20-21。加利福尼亚州门罗公园AAAI出版社。
[43] GOLDBERG,H.和SENATOR,T.E.(1995年)。通过整合和链接形成重组数据库以进行知识发现。第一届知识发现和数据挖掘国际会议论文集136-141。加利福尼亚州门罗公园AAAI出版社。
[44] GOLDBERG,H.和SENATOR,T.E.(1997)。断裂检测系统。AAAI欺诈检测和风险管理AI方法研讨会22-28。加利福尼亚州门罗公园AAAI出版社。
[45] GOLDBERG,H.和SENATOR,T.E.(1998)。FinCEN AI系统:在现金交易的大型数据库中查找金融犯罪。《代理技术:基础、应用和市场》(N.Jennings和M.Wooldridge编辑)283-302。柏林施普林格。
[46] GREEN,B.P.和CHOI,J.H.(1997年)。通过神经网络技术评估管理欺诈风险。审计16 14-28。
[47] HAND,D.J.(1981)。歧视和分类。奇切斯特威利·Zbl 0587.62119号
[48] HAND,D.J.(1997)。分类规则的构建和评估。奇切斯特·威利·Zbl 0997.62500号
[49] HAND,D.J.和BLUNT,G.(2001年)。寻找信用卡数据中的宝石。IMA管理数学杂志12 173-200·Zbl 0996.91546号 ·doi:10.1093/imaman/12.2.173
[50] HAND,D.J.,BLUNT,G.,KELLY,M.G.和ADAMS,N.M。
[51] 数据挖掘的乐趣和利润(与讨论)。统计师。科学。15 111-131.
[52] HAND,D.J.和HENLEY,W.E.(1997年)。消费信贷评分中的统计分类方法:综述。J.罗伊。统计师。Soc.序列号。A 160 523-541。
[53] 哈西比,K.(2000)。用神经网络检测支付卡欺诈。《神经网络的商业应用》(P.J.G.Lisboa、A.Vellido和B.Edisbury编辑)。世界科学,新加坡。
[54] HE,H.,GRACO,W.和YAO,X.(1999)。遗传算法和k近邻法在医疗欺诈检测中的应用。计算机课堂讲稿。科学。1585 74-81. 柏林施普林格。
[55] HE,H.X.,WANG,J.C.,GRACO,W.和HAWKINS,S.(1997)。神经网络在医疗欺诈检测中的应用。专家系统与应用程序13 329-336。
[56] 希尔·T·P(1995)。有效数字定律的统计推导。统计师。科学。10 354-363. ·兹比尔0955.60509
[57] Hy NNINEN,J.(2000)。手机欺诈经验。网络安全研讨会。赫尔辛基科技大学报告Tik-110.501。
[58] 詹金斯,第(2000)页。与欺诈者打交道要聪明。《金融时报》,9月23日。
[59] JENSEN,D.(1997)。人工智能技术用于欺诈检测的前瞻性评估:案例研究。在AAAI欺诈检测和风险管理AI方法研讨会34-38。加利福尼亚州门罗公园AAAI出版社。
[60] JU,W.-H.和VARDI,Y.(2001)。一种用于计算机入侵检测的混合高阶马尔可夫链模型。J.计算。图表。统计师。10 277-295. JSTOR公司:·doi:10.1198/10618600152628068
[61] KIRKLAND,J.D.,SENATOR,T.E.,HAy DEN,J.J.,Dy BALA,T。,
[62] GOLDBERG,H.G.和SHy R,P.(1998年)。NASD法规高级检测系统(ADS)。在第十五届全国人工智能会议(AAAI-98)和第十届人工智能创新应用会议(IAAI-98,1055-1062)的会议记录中。加利福尼亚州门罗公园AAAI出版社。
[63] KOSORESOW,A.P.和HOFMEy R,S.A.(1997年)。通过系统干调用跟踪进行入侵检测。IEEE软件14 35-42。
[64] KUMAR,S.和SPAFFORD,E.(1994年)。误用入侵检测的模式匹配模型。在第17届全国计算机安全会议论文集11-21。
[65] 拉赫·布鲁赫(1966)。初始样本被错误分类时的判别分析。技术计量学8 657-662。JSTOR公司:·doi:10.2307/1266637
[66] 拉赫·布鲁赫,P.A.(1974年)。初始样本被错误分类时的判别分析。二: 非随机误分类模型。技术计量16 419-424。JSTOR公司:·Zbl 0287.62031号 ·doi:10.2307/1267672
[67] LANE,T.和BRODLEY,C.E.(1998年)。用于异常检测的时间序列学习和数据简化。第五届ACM计算机和通信安全会议(CCS-98)会议记录150-158。纽约ACM出版社。
[68] LEE,W.和STOLFO,S.(1998年)。入侵检测的数据挖掘方法。德克萨斯州圣安东尼奥第七届USENIX安全系统会议记录79-93。加州伯克利USENIX协会。
[69] LEONARD,K.J.(1993)。使用专家系统检测信用卡欺诈。计算机与工业工程25 103-106。
[70] 利普曼,R.,弗里德,D.,格拉夫,I.,海恩斯,J。,
[71] 肯达尔·K·、麦克劳恩·D·、韦伯·D·和韦斯特·S·。,
[72] Wy SCHOGROD,D.、CUNNINGHAM,R.和ZISSMAN,M。
[73] 评估入侵检测系统:1998年DARPA离线入侵检测评估。未发表的手稿,麻省理工学院林肯实验室。
[74] MAJOR,J.A.和RIEDINGER,D.R.(1992年)。EFD:用于检测欺诈的混合知识/统计系统。国际智能系统杂志7 687-703。
[75] MARCHETTE,D.J.(2001)。计算机入侵检测和网络监控:统计观点。纽约州施普林格·Zbl 1063.62160号
[76] MCCARTHY,J.(2000)。现象数据挖掘。通信ACM 43 75-79。
[77] MCLACHLAN,G.J.(1992)。判别分析与统计模式识别。威利,纽约·Zbl 1108.62317号
[78] 移动欧洲(2000)。新的IP世界,新的危险。欧洲移动,3月。
[79] 莫里奥(Y.MOREAU)、普雷内尔(B.PRENEEL)、伯尔吉(P.BURGE)、沙韦·塔伊·洛尔(J.SHAWE-TAy LOR)、。,
[80] STOERMANN,C.和COOKE,C.(1996)。移动通信中欺诈检测的新技术。在格林纳达举行的ACTS移动峰会上。
[81] MOREAU,Y.、VERRELST,H.和VANDEWALLE,J.(1997)。使用监督神经网络检测手机欺诈:第一个协议。第七届人工神经网络国际会议(ICANN’97)论文集1065-1070。柏林施普林格。
[82] MURAD,U.和PINKAS,G.(1999年)。识别重叠欺诈的无监督分析。数据挖掘和知识发现原理。人工智能课堂讲稿1704 251-261。柏林施普林格。
[83] 神经技术(2000)。减少电信欺诈和流失。英国彼得菲尔德神经技术有限公司报告。
[84] NIGRINI,M.J.(1999)。我有你的电话号码。《会计学杂志》,5月79-83日。
[85] NIGRINI,M.J.和MITTERMAIER,L.J.(1997)。使用本福德定律作为分析程序的辅助工具。审计:实践与理论杂志16 52-67。
[86] NORTEL(2000)。北电网络欺诈解决方案。欺诈入门,第2.0版。北电网络公司。
[87] PAK,S.J.和ZDANOWICZ,J.S.(1994)。对美国商品贸易数据库及其在转让定价合规和执行中的使用进行统计分析。税务管理,5月11日。
[88] PATIENT,S.(2000年)。减少在线信用卡欺诈。Web开发人员杂志。可在网址://www。webdevelopersjournal.com/articles/card_fraud.html网址:
[89] PRESS,S.J.和TANUR,J.M.(2001)。科学家的主体性和贝叶斯方法。威利,纽约·兹伯利0973.01088
[90] PROVOST,F.和FAWCETT,T.(2001)。针对不精确环境的稳健分类。机器学习42 203-210·Zbl 0969.68126号 ·doi:10.1023/A:100760115854
[91] QU,D.、VETTER,B.M.、WANG,F.、NARAy AN,R.、WU,S.F.、。,
[92] HOU,Y.F.、GONG,F.和SARGOR,C.(1998年)。链路状态路由协议的统计异常检测。第六届网络议定书国际会议记录第62-70页。IEEE计算机学会出版社,加利福尼亚州洛斯阿拉米托斯。
[93] QUINLAN,J.R.(1990年)。从关系中学习逻辑定义。机器学习5 239-266。
[94] 昆兰·J·R(1993)。C4.5:机器学习程序。Morgan Kaufmann,加利福尼亚州圣马特奥·Zbl 0900.68112号
[95] RIPLEY,B.D.(1996)。模式识别和神经网络。剑桥大学出版社·Zbl 0853.62046号
[96] ROBINSON,M.E.和TAWN,J.A.(1995年)。优秀田径记录的统计数据。申请。统计师。44 499-511.
[97] ROSSET,S.、MURAD,U.、NEUMANN,E.、IDAN,Y.和PINKAS,G.(1999)。发现电信欺诈规则-挑战和解决方案。第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集409-413。纽约ACM出版社。
[98] Ry AN,J.、LIN,M.和MIIKULAINEN,R.(1997)。利用神经网络进行入侵检测。AAAI欺诈检测和风险管理AI方法研讨会72-79。加利福尼亚州门罗公园AAAI出版社。
[99] SCHONLAU,M.,DUMOUCHEL,W.,JU,W.-H.,KARR,A.F。,
[100] THEUS,M.和VARDI,Y.(2001)。计算机入侵:检测伪装。统计师。科学。16 58-74. ·Zbl 1059.62758号 ·doi:10.1214秒/9998929476
[101] SENATOR,T.E.(2000)。大型监管机构中发现知识的持续管理和应用:NASD监管高级检测系统(ADS)的使用和影响的案例研究。第六届ACM SIGKDD知识发现和数据挖掘国际会议论文集44-53。纽约ACM出版社。
[102] SENATOR,T.E.,GOLDBERG,H.G.,WOOTON,J.,COT TINI,M.A.,UMAR KHAN,A.F.,KLINGER,C.D.,LLA MAS,W.M.,MARRONE,M.P.和WONG,R.W.H.(1995)。金融犯罪执法网络AI-System(FAIS)从大额现金交易报告中识别潜在洗钱行为。AI杂志16 21-39。SHAWE-TAy LOR,J.、HOWKER,K.、GOSSET,P.、Hy LAND,M.、VERRELST,H.、MOREAU,Y.、STOERMANN,C.和
[103] BURGE,P.(2000)。移动通信中用于分析和欺诈检测的新技术。在神经网络的商业应用中(P.J.G.Lisboa,A.Vellido和B.Edisbury编辑)113-139。新加坡世界科学。
[104] SHIEH,S.-P.W.和GLIGOR,V.D.(1991)。一种面向模式的入侵检测模型及其应用。1991年IEEE计算机学会安全与隐私研究论文集327-342。IEEE计算机学会出版社,马里兰州银泉出版社。
[105] SHIEH,S.-P.W.和GLIGOR,V.D.(1997)。关于入侵检测的面向模式模型。IEEE知识与数据工程汇刊9 661-667。
[106] 史密斯·R·L(1997)。评论M.E.Robinson和J.A.Tawn的“杰出田径记录统计”。申请。统计师。46 123-128.
[107] STOLFO,S.J.、FAN,D.W.、LEE,W.、PRODROMIDIS,A.L.和CHAN,P.K.(1997年A)。使用元学习检测信用卡欺诈:问题和初步结果。AAAI欺诈检测和风险管理AI方法研讨会83-90。加利福尼亚州门罗公园AAAI出版社。
[108] STOLFO,S.、FAN,W.、LEE,W.,PRODROMIDIS,A.L.和CHAN,P.(1999)。欺诈和入侵检测的基于成本的建模:JAM项目的结果。DARPA信息生存能力会议和第二届博览会论文集130-144。IEEE计算机出版社,纽约。
[109] STOLFO,S.J.,PRODROMIDIS,A.L.,TSELEPIS,S.,LEE,W。,
[110] FAN,D.W.和CHAN,P.K.(1997年b)。JAM:用于在分布式数据库上进行元学习的Java代理。在AAAI欺诈检测和风险管理AI方法研讨会上,91-98。加利福尼亚州门罗公园AAAI出版社。
[111] TANIGUCHI,M.、HAFT,M..、HOLLMéN,J.和TRESP,V。
[112] .使用神经和概率方法在通信网络中进行欺诈检测。在1998年IEEE声学、语音和信号处理国际会议论文集(ICASSP’98)2 1241-1244中。IEEE计算机学会出版社,马里兰州银泉。
[113] 美国国会(1995年)。控制洗钱的信息技术。技术评估办公室,OTA-ITC-630报告,美国政府印刷办公室,华盛顿特区。
[114] WASSERMAN,S.和FAUST,K.(1994)。社会网络分析:方法和应用。剑桥大学出版社。
[115] WEBB,A.R.(1999)。统计模式识别。阿诺德,伦敦·Zbl 0968.68540号
[116] 惠勒,R.和艾肯,S.(2000年)。多个欺诈检测算法。基于知识的系统13(2/3)93-99。
[117] 专利(Gopinathan等人,1998年)。(截至本文撰写之时,对关键词“欺诈检测”进行专利搜索可获得80项专利。)特别是,它们的广泛变量列表,旨在总结过去的活动,以便应用神经网络,说明了将欺诈检测问题转化为符合标准建模技术的问题所必需的问题工程。对一类(或多类)欺诈检测问题进行准确定义是有用的,它考虑到了使统计欺诈检测变得困难的各种特征。如果这种特征已经存在于统计学中,机器学习和数据挖掘社区将从中受益。汤姆·福塞特(Tom Fawcett)和我对此一无所知,试图定义一类“活动监控”问题,并举例说明几个常见的例子(福塞特和普罗沃斯特(Provost),1999年)。早些时候,我们定义了“叠加欺诈”(Fawcett和Provost,1997a),试图统一类似形式的无线电话欺诈、电话卡欺诈、信用卡欺诈、某些计算机入侵等,其中欺诈性使用叠加在合法使用之上,并可以应用类似的解决方法。然而,这两者都没有抓住所有重要特征。由于以下几个原因,对这类问题的描述很重要。首先,不同的欺诈检测问题是相当相似的——了解不同技术的成功推广程度很重要。相似性是表面的吗?是否存在必须考虑的问题或数据的深层次特征?[例如,分类问题(Perlich,
[118] Provost和Simonoff,2001年)。]此外,为了成功检测欺诈,必须组合各种建模技术,例如,时间模式可能成为估计类成员概率系统的特征,而类成员概率的估计值可以用于时间证据收集。此外,采用不同求解方法的sy-steds应在同等基础上进行比较。在任何子问题上看似成功并不一定意味着在更大的问题上取得成功。最后,将来自多个学科的研究人员与许多互补技术集中在一组共同的、非常重要的问题上是有益的。将来自多个学科的知识和想法并置,将使他们所有人受益,并将通过对共同感兴趣的问题的精确表述来促进。当然,我并不是说研究必须同时(立即)解决所有这些标准,我也不是强烈批评以前在欺诈检测方面的工作:我们都必须将如此复杂的问题的一部分抽象出来,以便在其他方面取得进展。然而,重要的是,研究人员将解决整个问题作为最终目标。我们都应该仔细考虑部分解决方案是否可扩展。欺诈检测是一个真实、重要的问题,涉及许多真实、有趣的子问题。博尔顿和汉德对最新技术的回顾表明,有很大的空间进行有用的研究。然而,研究界应该确保工作朝着解决更大问题的方向发展,无论是通过开发解决更大部分的技术,还是通过有原则地促进技术的组合。
[119] ). 即使在机器学习中,这类问题也是新颖的。没有一种工具(神经网络等)能够立即适用于所有这些问题。算法必须设计为适合数据。这意味着企业的一个重要部分是沉浸在数据中并对其进行探索。我的经验是,好的预测算法不会在没有数据指导的情况下,从可用的算法中进行选择。此外,该过程是一个连续的知情修订过程。例如,如果一个算法的虚警率太高,则必须
[120] 。仍然是一个暂时的主题,必须解决欺诈检测工具对欺诈者不断变化的行为的适应性问题,以确保欺诈检测系统的持续有效性:随着新的检测策略的引入,欺诈者将相应地改变其行为。虽然独立于特定账户的欺诈指标可能需要不同的策略,但行为模型可以帮助实现这一点。我们接受Breiman的观点,即我们描述的许多方法都是在狭隘的统计界之外开发的。然而,我们并不打算“统计学”一词仅仅指他最近的文章中基于随机数据模型的统计学(Breiman,
[121] ). 相反,我们的意图是钱伯斯的“更大的统计数据”(钱伯斯,1993),“与从数据中学习有关的每件事”当然,布雷曼提出的观点,即我们所描述的工具并不是由传统统计学家开发的,某种程度上是对统计学家的指控
[122] 我们赞同Provost关于全面审视问题重要性的结论。很容易抽象出一个组件问题,然后将其解决方案定义得过高,这一级别可能对整个问题有用或相关。相反,人们很容易被误导,把注意力集中在子问题的外围或无关方面。学术研究人员经常在其他情况下受到批评。当然,事实是许多ARONIS,J.和PROVOST,F.(1997)。使用广角第一标记传播提高数据挖掘算法的效率。第三届知识发现和数据挖掘国际会议论文集119-122。加利福尼亚州门罗公园AAAI出版社。
[123] 布莱曼,L.(2001)。统计建模:两种文化(讨论)。统计师。科学。16 199-231. ·Zbl 1059.62505号 ·doi:10.1214/ss/1009213726
[124] 钱伯斯,J.M.(1993)。或多或少的统计数据:未来研究的选择。统计师。计算。3 182-184.
[125] FAWCETT,T.和PROVOST,F.(2002)。欺诈检测。《知识发现和数据挖掘手册》(W.Kloesgen和J.Zy tkow,eds.)。牛津大学出版社。
[126] FELLEMAN,H.编辑(1936年)。美国人民最喜爱的诗歌。纽约,双日。
[127] 戈皮纳坦,K.M.,比亚福尔,L.S.,弗格森,W.M。,
[128] LAZARUS,M.A.、PATRIA,A.K.和JOST,A.(1998年)。使用预测模型进行欺诈检测。美国专利5819226,10月6日。
[129] HAND,D.J.(1996)。分类和计算机:转移焦点。在COMPSTAT-96:计算统计学论文集(A.Prat,ed.)77-88中。海德堡物理。
[130] HAND,D.J.(1998)。打破误解——统计学及其与数学的关系(通过讨论)。统计学家47 245-250,284-286。
[131] KELLY,M.G.、HAND,D.J.和ADAMS,N.M.(1999)。种群变化对分类器性能的影响。第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集(S.Chaudhuri和D.Madigan,eds.)367-371。纽约ACM出版社。
[132] PERLICH,C.、PROVOST,F.和SIMONOFF,J.S.(2001年)。树归纳与逻辑回归:学习曲线分析。机器学习研究杂志·Zbl 1093.68088号 ·doi:10.1162/153244304322972694
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。