×

DataWig:缺少表格的值插补。 (英语) Zbl 1436.62051号

摘要:随着机器学习(ML)算法在实际应用中的重要性日益增加,减少ML管道中的数据质量问题已成为研究的主要焦点。在许多情况下,缺少值会破坏数据管道,这使得完整性成为最具影响力的数据质量挑战之一。当前的缺失值插补方法侧重于数字或类别数据,可能难以扩展到具有数百万行的数据集。我们发布数据Wig这是一种用于缺失值插补的健壮且可扩展的方法,可应用于具有异构数据类型(包括非结构化文本)的表。数据Wig将深度学习特征提取器与自动超参数调整相结合。这使得没有机器学习背景的用户(如数据工程师)能够在具有比现有库支持的更多异构数据类型的表中以最小的工作量输入缺失的值,同时功能工程需要更少的粘合代码,并提供更灵活的建模选项。我们证明了这一点数据Wig与现有的插补程序包相比,效果更好。此软件包的源代码、文档和单元测试可从以下网址获得:https://github.com/awslabs/datawig.

MSC公司:

62D10号 缺少数据
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] 古斯塔沃·巴蒂斯塔和玛丽亚·卡罗琳娜·莫纳德。对监督学习中四种缺失数据处理方法的分析。应用人工智能,17(5-6):519-5332003。
[2] 对github存储库进行基准测试。https://github.com/awslabs/datawig/blob/master/实验/基准.py。
[3] 詹姆斯·伯格斯特拉(James Bergstra)和约舒亚·本吉奥(Yoshua Bengio)。超参数优化的随机搜索。《机器学习研究杂志》,13:281-3052012年。统一资源定位地址http://dl.acm.org/ ·Zbl 1283.68282号
[4] 费利克斯·比斯曼、大卫·萨利纳斯、塞巴斯蒂安·谢尔特、菲利普·施密特和达斯汀·兰格。对非数字数据表格中缺失值插补的“深度”学习。InInternational国际·Zbl 1436.62051号
[5] 拉米罗·D·卡米诺(Ramiro D.Camino)、克里斯蒂安·A·哈默施密特(Christian A.Hammerschmidt)和拉杜州(Radu State)。用深度生成模型改进缺失数据插补。2019年2月。统一资源定位地址http://arxiv.org/abs/1902。10666
[6] 米歇尔·达拉契萨(Michele Dallachiesa)、阿姆尔·埃巴德(Amr Ebaid)、艾哈迈德·埃尔达维(Ahmed Eldawy)、艾赫迈德·埃尔马加米德(Ahmed-Elmagarmid)、伊哈布·菲利亚斯(Ihab F Ilyas)、穆拉德·奥扎尼(Moura。Nadeef:商品数据清理系统。InACM SIGMOD,第541-552页。ACM,2013年。
[7] Lovedeep Gondara和Ke Wang。使用深度去噪自动编码器进行多重插补。CoRR,abs/1705.027372017年。统一资源定位地址http://arxiv.org/abs/1705.02737。
[8] 郭川、杰夫·普莱斯、孙瑜和基连·温伯格。现代神经网络的校准。2017年国际机器学习会议(ICML)。
[9] 耶胡达·科伦(Yehuda Koren)、罗伯特·贝尔(Robert M.Bell)和克里斯·沃林斯基(Chris Volinsky)。推荐系统的矩阵分解技术。IEEE计算机,42(8):30-372009。
[10] Zachary C.Lipton、Yu Xiang Wang和Alex Smola。使用黑盒预测器检测和纠正标签移位。2018年国际机器学习会议(ICML)。
[11] R.J.A.Little和D.B.Rubin。缺失数据的统计分析。第二版WileyInterscience,新泽西州霍博肯,2002年·Zbl 1011.62004号
[12] Pierre-Alexandre Mattei和Jes Frellsen。MIWAE:不完整数据集的深度生成建模和插补。2019年国际机器学习大会。
[13] Imke Mayer、Julie Josse、Nicholas Tierney和Nathalie Vialaneix。R-miss-tastic:缺失值方法和工作流的统一平台。艺术品编号:1908.048222019。
[14] Rahul Mazumder、Trevor Hastie和Robert Tibshirani。用于学习大型不完备矩阵的谱正则化算法。机器学习研究杂志,11:2287-23222010。统一资源定位地址http://portal.acm.org/citation.cfm?id=1859931。 ·Zbl 1242.68237号
[15] A Nazabal、Pablo M Olmos、Zoubin Ghahramani和Isabel Valera。使用VAE处理不完整的异构数据。2018年URLhttps://arxiv.org/pdf/1807.03653.pdf。
[16] 塞巴斯蒂安·谢尔特(Sebastian Schelter)、菲利克斯·比斯曼(Felix Biessmann)、蒂姆·亚努肖夫斯基(Tim Januschowski)、大卫·萨利纳斯(David Salinas)、斯蒂芬·塞弗特(Stephan Seufert)和久里·萨尔瓦斯。机器学习模型管理的挑战。IEEE数据
[17] D Sculley、G Holt、D Golovin、E Davydov、T Phillips、D Ebner、V Chaudhary、M Young和D Dennison。机器学习系统中的隐藏技术债务。神经信息
[18] 丹尼尔·斯特霍芬和彼得·鲍尔曼。MissForest——混合型数据的非参数缺失值插补。生物信息学,28(1):112-1182012。
[19] 奥尔加·G·特罗扬斯卡娅(Olga G.Troyanskaya)、迈克尔·N·坎托(Michael N.Cantor)、加文·夏洛克(Gavin Sherlock)、帕特里克·O·布朗(Patrick O.Brown)、特雷弗·哈斯蒂(Trevor Hastie)、罗伯特·蒂比什拉尼(Rob。DNA微阵列缺失值估计方法。生物信息学,17(6):520-5252001。
[20] S.van Buuren。缺失数据的灵活插补。第二版CRC/Chapman&Hall,2018年·兹比尔1416.62030
[21] 金圣尹、詹姆斯·乔登和米哈拉·范德沙尔。增益:使用生成对抗网进行缺失数据插补。2018年国际机器学习会议(ICML)。统一资源定位地址http://arxiv.org/abs/1806.02920。
[22] 张宏宝、谢鹏涛和埃里克·P。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。