基于机器学习的信用卡交易欺诈检测研究综述

doi:10.3778/j.issn.1002-8331.2302-0129

摘要/摘要

摘要：机器学习在信用卡交易检测中有其特殊性，面对的环境更为复杂。由于有人的智力介入，战胜信用卡交易欺诈，其挑战性比人脸识别、无人驾驶等工程问题的难度更高，照搬工程学科的机器学习方法往往会失败。综述了2000年以来基于机器学习的信用卡欺诈检测研究历程，辨析了该领域的研究范畴、应用场景、技术流派等相关概念及其联系；解构了机器学习欺诈识别的一般性研究架构，从特征工程、模型算法、评价指标三个环节归纳总结了领域内研究的最新进展；从数据集是否具备标签角度，着重列举了面向欺诈识别的有监督的、无监督和半监督三类主流机器学习模型，讨论了这些模型的出发点、核心思想、求解方法以及优缺点；还分析了强化学习模型模拟欺诈者与机构之间的动态博弈过程；探讨了机器学习面临的海量数据、样本偏斜和概念漂移三大难点问题，并汇集整理了缓解这些问题的最新进展；总结了面向欺诈检测的机器学习研究目前存在的局限、争议和挑战，并为未来的研究方向提供趋势分析与建议。

关键词: 信用卡欺诈识别, 机器学习, 数据挖掘, 样本偏斜, 概念漂移

摘要：机器学习在信用卡交易检测方面有其独特性，面临着更复杂的环境。由于人类智能的介入，机器学习在欺诈检测方面遇到了比人脸识别和无人驾驶更困难的挑战，如果只应用工程学科的过程，就会导致失败。本文描述了2000年以来信用卡反欺诈研究的历史；确定了面向检测的机器学习领域的定义、范围、技术流、应用程序和其他关键概念及其相互联系；分析了欺诈检测的一般架构，并从特征工程、模型/算法和评估指标方面总结了交易欺诈检测研究的最新进展；讨论了信用卡交易欺诈的各种检测算法，列举了它们的初衷、核心思想、解决方法、优缺点和相关扩展；重点介绍了欺诈识别的无监督、有监督和半监督学习模型，以及级联和聚合模型等各种组合；解决了三大挑战，即海量数据、样本偏差和概念漂移，并编译了最新的进展来缓解这些问题。本文总结了机器学习在信用卡欺诈识别中的局限性、争议和挑战，并对未来的研究方向提供了趋势分析和建议。

关键词： 信用欺诈检测，机器学习，数据挖掘，样本倾斜，概念漂移

蒋洪迅, 江俊毅, 梁循. 基于机器学习的信用卡交易欺诈检测研究综述[J] ●●●●。计算机工程与应用, 2023, 59(21): 1-25.

姜洪勋、姜俊毅、梁勋。基于机器学习的信用卡交易欺诈检测研究综述[J]。计算机工程与应用，2023,59（21）：1-25。

参考文献

[1] VAN VLASSELAER V，BRAVO C，CAELEN O，et al.APATE:一种基于网络扩展的自动信用卡交易欺诈检测新方法[J]。决策支持系统，2015，75:38-48。
[2] CARNEIROA N，FIGUEIRA G，COSTA M.基于数据挖掘的电子尾信用卡欺诈检测系统[J]。决策支持系统，2017,95:91-101。
[3] BHATTACHARYYA S，JHA S，THARAKUNNEL K，等.信用卡欺诈的数据挖掘：一项比较研究[J]。决策支持系统，2011,50（3）：602-613。
[4] 张晓伟，韩永中，徐伟，等.基于深度学习结构的信用卡欺诈检测新特征工程方法[J]。信息科学，2021557:302-316。
[5] 2021年欺诈事实[EB/OL]。（2021）https://www.ukfinance.org.uk/system/files/Fraud%20The%20Facts%202021-%20FINAL.pdf。
[6] DAL POZZOLO A，CAELEN O，LE BORGNE Y A，等.从从业者的角度看信用卡欺诈检测的经验教训[J]。应用专家系统，2014,41（10）：4915-4928。
[7] 李振聪，黄敏，刘国杰，等.一种处理信用卡欺诈检测中重叠类不平衡问题的动态加权熵混合方法[J]。专家系统与应用，2021175:10。
[8] CARCILLO F，LE BORGNE Y A，CAELEN O，等.信用卡欺诈检测中非监督学习与监督学习的结合[J]。信息科学，2021557:317-331。
[9] BOLTON R J，HAND D J。统计欺诈检测：综述[J]。统计科学，2002,17（3）：235-249。
[10] NGAI E W T，HU Y，WONG Y H，等.数据挖掘技术在财务欺诈检测中的应用：一个分类框架和文献综述[J]。决策支持系统，2011，50（3）：559-569。
[11] 韦斯特J，BHATTACHARYA M.智能金融欺诈检测：综合评述[J]。计算机与安全，2016年，57:47-66。
[12] CHOI D，LEE K.物联网环境下金融欺诈检测的人工智能方法：调查与实现[J]。安全与通信网络，2018（4）：1-15。
[13] BASIT A，ZAFAR M，LIU X，等.基于人工智能的钓鱼攻击检测技术综述[J]。电信系统，2021,76（1）：139-154。
[14] AL-HASHEDI K G，MAGALINGAM P.应用数据挖掘技术的金融欺诈检测：2009年至2019年的综合综述[J]。《计算机科学评论》，2021,40:23。
[15] GIANINI G，FOSSI L G，MIO C，等.基于博弈论的方法管理信用卡欺诈检测规则库[J]。未来一代计算机系统——国际Escience杂志，2020102:549-561。
[16] 波特D.基于知识的系统开发的可重用分析和设计组件[J]。人工智能课堂讲稿，1992599:373-391。
[17] VATSA V，SURAL S，MAJUMDAR A K.信用卡欺诈检测的游戏理论方法[C]//信息系统安全国际会议。柏林：Springer-Verlag，2005:263-276。
[18] ABDALLAH A，MAAROF M A，ZAINAL A.欺诈检测系统：一项调查[J]。《网络与计算机应用杂志》，2016年，68:90-113。
[19] SEEJA K R，ZAREAPOOR M.FraudMiner：基于频繁项集挖掘的新型信用卡欺诈检测模型[J]。科学世界杂志，2014（3）：252797。
[20] KUNDU A，PANIGRAHI S，SURAL S，et al.BLAST-SSAHA杂交用于信用卡欺诈检测[J]。IEEE可靠与安全计算汇刊，2009，6（4）：309-315。
[21]史平，赵Z，钟海清，等.一种改进的科学数据凝聚层次聚类异常检测方法[J]。并发与计算实践与经验，2021,33（6）：16。
[22]XU X D，LIU H W，LI L，等.高维数据离群点检测技术的比较[J]。国际计算智能系统杂志，2018,11（1）：652-662。
[23]DUMAN E，OZCELIK M H.用遗传算法和分散搜索检测信用卡欺诈[J]。专家系统与应用，2011,38（10）：13057-13063。
[24]REN H R，YE Z X，LI Z W.基于动态马尔可夫模型的异常检测[J]。信息科学，2017411:52-65。
[25]黄J L，朱秋生，杨立杰，等.一种新的无top-n参数的离群点聚类检测算法[J]。基于知识的系统，2017121:32-40。
[26]吴建杰，熊H，陈建超：稀有类分析的局部分解[J]。数据挖掘与知识发现，2010,20（2）：191-220。
[27]DORRONSORO J R，GINEL F，SANCHEZ C，等.信用卡操作中的神经欺诈检测[J]。IEEE神经网络汇刊，1997,8（4）：827-834。
[28]DIEZ-PASTOR J F，RODRIGUEZ J J，GARCIA-OSORIO C I，et al.多样性技术提高了最佳不平衡学习信号群的性能[J]。信息科学，2015325:98-117。
[29]FIORE U，DE SANTIS A，PERLA F，等.利用生成性对抗网络提高信用卡欺诈检测中的分类效率[J]。信息科学，2019479:448-455。
[30]李文芳，陈慧聪，NUNAMAKER J F.识别和分析网卡社区中的关键卖家：azsecure文本挖掘系统[J]。管理信息系统杂志，2016,33（4）：1059-1086。
[31]NASCIMENTO D C，BARBOSA B，PEREZ A M等。电子商务中的风险管理——一个利用声学分析及其复杂性进行欺诈研究的案例[J]。熵，2019,21（11）：12。
[32]WHITROW C，HAND D J，JUSZCZAK P，等.交易聚合作为信用卡欺诈检测策略[J]。数据挖掘与知识发现，2009,18（1）：30-55。
[33]JHA S，GUILLEN M，WESTLAND J C.利用交易聚合策略检测信用卡欺诈[J]。专家系统与应用，2012,39（16）：12650-12657。
[34]DAL POZZOLO A，BORACCHI G，CAELEN O，等.信用卡欺诈检测：一种现实建模和新型学习策略[J]。IEEE神经网络和学习系统汇刊，2018年，29（8）：3784-3797。
[35]GOMEZ J A，AREVALO J，PAREDES R，et al.卡支付欺诈评分的端到端神经网络架构[J]。模式识别信件，2018105:175-181。
[36]FAWCETT T，PROVOST F.自适应欺诈检测[J]。数据挖掘与知识发现，1997,1（3）：291-316。
[37]CHEN R C，CHEN T S，CHIEN Y，等.基于SVM的新型问卷响应交易方法在信用卡欺诈检测中的应用[C]//神经网络的进展。柏林：Springer-Verlag，2005:916-921。
[38]CHEN R C，CHEN T S，LIN C C。用于提高信用卡欺诈检测率的新型二进制支持向量系统[J]。国际模式识别与人工智能杂志，2006,20（2）：227-239。
[39]DESHMEH G，RAHMATI M.分布式异常检测，使用合作学习器和关联规则分析[J]。智能数据分析，2008，12（4）：339-357。
[40]BAHNSEN A C，AOUADA D，STOJANOVIC A等.信用卡欺诈检测的特征工程策略[J]。专家系统与应用，2016,51:134-142。
[41]SAIA R，CARTA S.评估在欺诈检测任务中使用基于主动变换域的技术的好处[J]。未来一代计算机系统——国际Escience杂志，2019,93:18-32。
[42]吴毅，徐永杰，李建勇.欺诈性信用卡兑现检测的特征构造[J]。决策支持系统，2019127:11。
[43]LUCAS Y，PORTIER P E，LAPORTE L，et al.使用多视角HMM实现信用卡欺诈检测的自动化特征工程[J]。未来一代计算机系统——国际Escience杂志，2020102:393-402。
[44]BRAVO C，THOMAS L C，WEBER R.通过区分违约行为提高信用评分[J]。运筹学学会杂志，2015,66（5）：771-781。
[45]SAHIN Y，BULKAN S，DUMAN E.欺诈检测的成本敏感决策树方法[J]。专家系统与应用，2013,40（15）：5916-5923。
[46]BAHNSEN A C，AOUADA D，OTTERSTEN B。示例依赖性成本敏感决策树[J]。专家系统与应用，2015,42（19）：6609-6619。
[47]SEERA M，LIM C P，KUMAR A，等.智能支付卡欺诈检测系统[J]。《运筹学年鉴》，2021:23。
[48]黄恩，雷普，斯蒂芬斯G，等.用于检测信用卡欺诈的人工免疫系统：体系结构、原型和初步结果[J]。信息系统杂志，2012,22（1）：53-76。
[49]JURGOVSKY J，GRANITZER M，ZIEGLER K，等.信用卡欺诈检测的序列分类[J]。专家系统与应用，2018100:234-245。
[50]DARWISH S.M.一种基于两个分类器语义融合的智能信用卡欺诈检测方法[J]。软计算，2020,24（2）：1243-1253。
[51]MAHMOUDI N，DUMAN E.利用改进的fisher判别分析检测信用卡欺诈[J]。专家系统与应用，2015,42（5）：2510-2516。
[52]QUAH J T S，SRIGANESH M.使用计算智能的实时信用卡欺诈检测[J]。专家系统与应用，2008,35（4）：1721-1732。
[53]熊振英，高Q Q，高Q，等.ADD：一种新的基于平均散度差的数据对象偏态分布离群点检测方法[J]。应用情报，2022,52:5100-5124。
[54]王德思，陈伯泰，陈J.基于消费者激励的信用卡欺诈检测策略[J]。欧米茄国际管理科学杂志，2019,88:179-195。
[55]MOHAMMED M，KHAN M B，BASHIER E B M。机器学习：算法和应用[M]。【S.l.】：CRC出版社，2016年。
[56]HALVAIEE N S，AKBARI M K。使用人工免疫系统检测信用卡欺诈的新模型[J]。应用软计算，2014,24:40-49。
[57]HARVEY D Y，TODD M D.通过遗传编程实现数字序列分类的自动特征设计[J]。IEEE进化计算汇刊，2015,19（4）：474-489。
[58]ZAKARYAZAD A，DUMAN E.利润驱动的人工神经网络（ANN）及其在欺诈检测和直接营销中的应用[J]。神经计算，2016175:121-131。
[59]王S，刘国杰，李振中，等.基于胶囊网络的信用卡欺诈检测[C]//IEEE系统、人与控制论国际会议，2018:3679-3684。
[60]FOROUGH J，MOMTAZI S.顺序信用卡欺诈检测：联合深度神经网络和概率图形模型方法[J]。专家系统，2021:13。
[61]FOROUGH J，MOMTAZI S.信用卡欺诈检测的深度序列模型集成[J]。应用软计算，2021,99:11。
[62]ACHITUVE I，KRAUS S，GOLDBERGER J，et al.基于分层注意机制的可解释网上银行欺诈检测[C]//IEEE第29届信号处理机器学习国际研讨会，2019年。
[63]程德伟，向S，尚C C，等.基于时空注意的信用卡欺诈检测神经网络[C]//34届AAAI人工智能会议/第32届人工智能创新应用会议/第10届AAAI.人工智能教育进展研讨会，2020:362-369。
[64]AHMED M，MAHMOOD A N，ISLAM M R.金融领域异常检测技术综述[J]。未来一代计算机系统——国际Escience杂志，2016年，55:278-288。
[65]BOLTON R J，HAND D J。欺诈检测的非监督分析方法[C]//信用评分程序-信用控制，2001:235-255。
[66]PANIGRAHI S，KUNDU A，SURAL S，等.信用卡欺诈检测：基于Dempster-Shafer理论和贝叶斯学习的融合方法[J]。信息融合，2009,10（4）：354-363。
[67]SUDJIANTO A，NAIR S，YUAN M，等.打击金融犯罪的统计方法[J]。技术计量学，2010,52（1）：5-19。
[68]JU C，LU Q.基于类加权支持向量机的信用卡欺诈检测模型研究[J]。《融合信息技术杂志》，2011,6（1）：62-68。
[69]LEE Y J，YEH Y R，WANG Y C F.通过在线过采样主成分分析进行异常检测[J]。IEEE知识与数据工程汇刊，2013,25（7）：1460-1470。
[70]KNORR E M，NG R T，TUCAKOV V.基于距离的离群值：算法与应用[J]。VLDB期刊，2000,8（3/4）：237-253。
[71] 陈溟.基于模糊局部离群因子（LOF）的信用卡欺诈检测研究[J] ●●●●。金融理论与实践，2016（10）：54-57.
陈明.基于模糊局部离群因子（LOF）的信用卡欺诈检测研究[J]。金融理论与实践，2016（10）：54-57。
[72]于建新，钱文恩，陆海杰，等.在范畴/数值空间中寻找中心局部离群值[J]。知识和信息系统，2006,9（3）：309-338。
[73]唐杰，陈振X，傅安华，等.大数据集离群点检测方案的能力，框架和方法[J]。知识与信息系统，2007,11（1）：45-84。
[74]KOUFAKOU A，GEORGIOPOULOS M.混合属性分布式高维数据集的快速离群点检测策略[J]。数据挖掘与知识发现，2010,20（2）：259-289。
[75]蒋F，SUI Y F，CAO C G。基于边界区域的混合离群值检测方法[J]。《模式识别快报》，2011年，32（14）：1860-1870。
[76]KOUFAKOU A，SECRETAN J，GEORGIOPOULOS M.用于大型高维分类数据中快速异常值检测的非可导出项集[J]。知识与信息系统，2011,29（3）：697-725。
[77]GREKOUSIS G，FODIS Y N。一种用于检测时空异常值的模糊指数[J]。地理信息学，2012,16（3）：597-619。
[78]江峰，陈永明.基于粒计算和粗糙集理论的异常值检测[J]。应用情报，2015,42（2）：303-322。
[79]黄J L，朱秋生，杨立杰，等.一种基于自然邻域的非参数离群值检测算法[J]。基于知识的系统，2016,92:71-77。
[80]SRIVASTAVA A，KUNDU A，SURAL S，等.基于隐马尔可夫模型的信用卡欺诈检测[J]。IEEE可靠和安全计算汇刊，2008,5（1）：37-48。
[81]ROBINSON W N，ARIA A.使用隐马尔可夫模型散度对预付卡进行顺序欺诈检测[J]。专家系统与应用，2018,91:235-251。
[82]OLSZEWSKI D.使用自组织映射可视化用户配置文件的欺诈检测[J]。基于知识的系统，2014,70:324-334。
[83] 刘建伟，刘媛，罗雄麟.半监督学习方法[J] .《经济报道》，2015，35（8）：1592-1617。
刘建伟，刘毅，罗雪莉，等.半监督学习方法[J]。中国计算机学报，2015,35（8）：1592-617。
[84]SALAZAR A，SAFONT G，VERGARA L，等.信用卡交易不平衡分类的半监督学习[C]//国际神经网络联合会议（IJCNN），2018。
[85]LANGEVIN A，CODY T，ADAMS S，等.信用卡欺诈检测中用于数据增强和传输的生成性对抗网络[J]。运筹学学会杂志，2021:28。
[86]GOODFELLOW I J，POUGET-ABADIE J，MIRZA M，et al.生成对抗网[C]//神经信息处理系统进展27（NIPS 2014），2014:2672-2680。
[87]HERR D，OBERT B，ROSENKRANZ M.变分量子生成对抗性网络的异常检测[J]。量子科学与技术，2021,6（4）：13。
[88]CARCILLO F，LE BORGNE Y A，CAELEN O，et al.针对真实信用卡欺诈检测的流式主动学习策略评估[C]//4th IEEE/ACM/ASA International Conference on Data Science and Advanced Analytics（DSAA），2017:631-639。
[89]AKINYELU A A，EZUGWU A E，ADEWUMI A O.支持向量机速度优化的蚁群优化边缘选择[J]。神经计算与应用，2020,32（15）：11385-11417。
[90]李春林，丁恩，翟永明，等.基于不同支持向量机的信用卡欺诈检测比较研究[J]。智能数据分析，2021,25（1）：105-119。
[91]MEAD A，LEWRIS T，PRASANTH S，et al.检测对抗环境中的欺诈：强化学习方法[C]//2018系统和信息工程设计研讨会（SIEDS），2018:118-122。
[92]NAMI S，SHAJARI M.基于动态随机森林和k近邻的成本敏感支付卡欺诈检测[J]。专家系统与应用，2018110:381-392。
[93]JANS M，VAN DER WERF J M，LYBAERT N，et al.缓解内部交易欺诈的业务流程挖掘应用[J]。专家系统与应用，2011,38（10）：13351-13359。
[94] 刘颖，杨轲.基于深度集成学习的类极度不均衡数据信用欺诈检测算法[J] ●●●●。计算机研究与发展，2021，58（3）：539-547.
刘毅，杨凯.基于集成深度学习的极不平衡数据信用欺诈检测[J]。《计算机研究与发展杂志》，2021,58（3）：539-547。
[95] 陈荣荣，詹国华，李志华.基于XGBoost公司算法模型的信用卡交易欺诈预测研究[J] ●●●●。计算机应用研究，2020,37（S1）：111-112。
陈瑞瑞，詹国华，李振华，等.基于XGBoost算法模型的信用卡交易欺诈预测研究[J]。计算机应用研究，2020,37（S1）：111-112。
[96]KULTUR Y，CAGLAYAN M U.检测信用卡欺诈的混合方法[J]。专家系统，2017,34（2）：13。
[97]KIM E，LEE J，SHIN H，等.基于Champion-challenger的信用卡欺诈检测分析：混合集成与深度学习[J]。专家系统与应用，2019128:214-224。
[98]XIE Y L，LI A P，GAO L Q，等.基于数据分布的信用卡欺诈检测异构集成学习模型[J]。无线通信与移动计算，2021:13。
[99]于斯，李晓峰，王海川，等.BIDI：一种具有实例难度不变性的分类算法[J]。专家系统与应用，2021165:13。
[100]SOMASUNDARAM A，REDDY S.处理概念漂移和数据不平衡的并行和增量信用卡欺诈检测模型[J]。神经计算与应用，2019,31:3-14。
[101]HAND D J，WHITROW C，ADAMS N M，等.塑料卡欺诈检测工具的性能标准[J]。运筹学学会杂志，2008,59（7）：956-962。
[102]郭海英，VIKTOR H L.从倾斜类多关系数据库中学习[J]。信息学基础，2008，89（1）：69-94。
[103]VIAENE S，DERRIG R A，DEDENE G。将boosting naive Bayes应用于索赔欺诈诊断的案例研究[J]。IEEE知识与数据工程汇刊，2004,16（5）：612-620。
[104]SANOBER S，ALAM I，PANDE S，et al.一种用于无线通信欺诈检测的增强安全深度学习算法[J]。无线通信与移动计算，2021:14。
[105]DEL RIO S，LOPEZ V，MANUEL BENITEZ J，et al.使用随机森林对不平衡大数据使用MapReduce[J]。信息科学，2014285:112-137。
[106]TRIGUERO I，DEL RIO S，LOPEZ V，et al.ROSEFW-RF：ECBDL’14大数据竞争的胜利者算法：一个极不平衡的大数据生物信息学问题[J]。基于知识的系统，2015,87:69-79。
[107]HORMOZI E，HORMOZI H，AKBARI M K，et al.基于hadoop mapReduce的信用卡欺诈检测系统的准确性评估[C]//5th Conference on Information and Knowledge Technology（IKT），2013:35-39。
[108]PALIT I，REDDY C K.使用MapReduce进行可扩展和并行增强[J]。IEEE知识与数据工程汇刊，2012,24（10）：1904-1916。
[109]洪娥，张德伟.大型数据库中离群值的并行挖掘[J]。分布式和并行数据库，2002,12（1）：5-26。
[110]CARCILLO F，DAL POZZOLO A，LE BORGNE Y A，et al.SCARFF：一种可扩展的基于spark的流式信用卡欺诈检测框架[J]。信息融合，2018年，41:182-194。
[111]ZHAI J H，ZHANG S F，ZHANG M Y，等.基于模糊积分的ELM集成在非平衡大数据分类中的应用[J]。软计算，2018，22（11）：3519-3531。
[112]朱海华，刘国杰，周敏川，等.基于加权极值学习机的非平衡分类优化及其在信用卡欺诈检测中的应用[J]。神经计算，2020407:50-62。
[113] 莫赞，盖彦蓉，樊冠龙.基于GAN-Da增压-DT不平衡分类算法的信用卡欺诈分类[J] .中国科学院，2019,39（2）：618-622。
莫Z，盖义荣，范国良，等.基于GAN-AdaBoost-DT不平衡分类算法的信用卡欺诈分类[J]。计算机应用杂志，2019,39（2）：618-622。
[114]GAMA J，ZLIOBAITE I，BIFET A，等.概念漂移适应研究[J]。ACM计算调查，2014,46（4）：1-37。