SUOD:加速大尺度非监督异构异常检测

的一部分机器学习与系统3(MLSys 2021)

Biptex公司 纸类

作者

岳照、胡西阳、程成、聪王、万长林、王文、杨嘉宁、白浩平、郑丽、曹晓、王云龙、志巧、孙继萌、勒曼·阿科鲁

摘要

离群检测(OD)是一项关键的机器学习(ML)任务,用于从具有大量高风险应用程序(包括欺诈检测和入侵检测)的一般样本中识别异常对象。由于缺乏基本真理标签,从业者通常必须构建大量无监督的异构模型(即具有不同超参数的不同算法),以进行进一步的组合和分析,而不是依赖于单个模型。如何通过使用大量非监督、异构OD模型的离群性(在本文中称为预测)来加速新样本的训练和评分?在本研究中,我们提出了一个模块化加速系统,称为SUOD。该系统侧重于三个互补的加速方面(高维数据的数据缩减、昂贵模型的近似和分布式环境的任务负载不平衡优化),同时保持性能准确性。在20多个基准数据集上的广泛实验证明了SUOD在异构OD加速方面的有效性,以及领先的医疗保健公司IQVIA在欺诈索赔分析方面的实际部署案例。我们开源SUOD以实现可再现性和可访问性。