计算机科学››2022,第49卷››发行(8): 56-63.数字对象标识:10.11896/jsjkx.210600180

数据库&大数据&数据科学* 上一篇   下一篇

RIIM公司:基于独立模型的在线缺失值填补

李霞, 马茜, 白梅, 王习特, 李冠宇, 宁博  

  1. 大连海事大学信息科学技术学院 辽宁 大连 116026
  • 收稿日期:2021-06-28 修回日期:2021-10-19 发布日期:2022-08-02
  • 通讯作者:马茜(maqian@dlmu.edu.cn)
  • 作者简介:(lixia_email@163.com)
  • 基金资助:
    国家自然科学基金(62002039,61602076,61702072,61976032);中国博士后科学基金面上项目(2017M61112112017M621122019M661077);辽宁省自然科学基金(20180540003);赛尔网络下一代互联网技术创新项目(NGII20190902);中央高校基本科研业务费(3132021239)

RIIM:基于个体模型的实时插补

李霞、马倩、白梅、王希泰、李冠耀、宁波  

  1. 大连海事大学信息科学与技术学院,辽宁大连116026
  • 收到:2021-06-28 修订过的:2021-10-19 出版:2022-08-02
  • 关于作者:李霞,1997年生,研究生,中国计算机联合会会员。她的主要研究兴趣包括数据清理和感官数据管理。
    马倩,1988年生,博士,中国计算机联合会会员。她的主要研究兴趣包括数据清理和感官数据管理。
  • 支持单位:
    国家自然科学基金项目(62002039616020766170207261976032)、中国博士后科学基金资助项目(2017M61112017M621122019M661077)、辽宁省自然科学基金(20180540003)、CERNET创新项目(NGII20190902)、中央高校基本科研基金(3132021239)。

摘要:随着数据来源的不断丰富,数据的获取变得愈发容易,但质量难以得到保证,从而导致缺失值在真实数据集中普遍存在且难以避免,缺失值填补也就成为数据质量管理领域的经典问题之一。目前,大多数的缺失值填补算法均是针对静态数据提出的,并不适用于高速到达的动态数据流,且现有算法大多未同时考虑数据的稀疏性和异构性问题。基于此,文中提出了一种新的基于独立模型的在线缺失值填补算法里姆该算法同时考虑了数据的稀疏性和异构性问题,并结合近邻填补和回归填补的基本思想对缺失值进行有效填补。首先,针对数据的动态实时性,提出了高效的填补模型增量更新算法;其次,针对数据近邻查找时间代价高以及近邻个数难以确定的问题,提出了最优近邻自适应周期性更新策略;最后基于真实数据集通过大量实验验证了所提算法的有效性。

关键词: 缺失值, 数据流, 稀疏性, 异构性, 在线填补

摘要:随着数据源的丰富,数据很容易获得,但质量很低,导致MV无处不在,难以避免。因此,MV插补已成为数据质量管理领域的经典问题之一。然而,现有的大多数MV插补方法都是针对静态数据提出的,无法处理高速到达的动态数据流。此外,他们没有同时考虑数据稀疏性和异构性。因此,提出了一种新的MV插补方法——基于个体模型的实时插补(RIIM)。在RIIM中,通过结合基于邻域的插补和基于回归的插补的基本思想,并考虑到数据的稀疏性和异质性,有效地填充了MV。对于数据流的动态和实时性,MV插补模型进行了增量更新。此外,针对时间成本高、邻居数量难以确定的问题,提出了一种自适应周期更新的最优邻居搜索策略。最后,基于对真实数据集的大量实验,评估了所提RIIM的有效性。

关键词: 数据流, 异质性, 缺少值, 实时插补, 稀疏度

中图分类号: 

  • TP3-05型
[1] 李建中,王海中.数据质量,大数据的一个新方面[N]。科技日报,2015-06-23(7)。
[2] 于刚,顾毅.云计算环境下的大比例尺图形数据处理技术[J]。计算机杂志,2011,34(10):1753-1767。
[3] 李克力,刘亚历克斯,余S.国际自然计算与模糊知识库2017年自然计算模糊系统与知识发现专刊[J]。神经计算,2020393:112-114。
[4] ALTMAN N S.核与最近邻非参数回归简介[J]。美国统计学家,1992,46(3):175-185。
[5] 布特拉·N·M,李世英,伊文森·K·R,等.处理加速度计缺失数据的热台多重插补[J]。生物科学统计,2019,11(2):422-448。
[6] 小R J.缺失x的回归:综述[J]。美国统计协会杂志,1992年,87(420):1227-1237。
[7] 张安庆,宋晓霞,孙毅,等。插补个体模型的学习[C]//ICDE.2019:160-171。
[8] ZHANG C Q,ZHU X F,ZHANG J L,et al.GBKII:缺失值的插补方法[C]//知识发现和数据挖掘进展,第11届太平洋-亚洲会议。2007。
[9] DOMENICONI C,YAN B.最近邻系综[C]//17第17届模式识别国际会议。2004:228-231。
[10] 蔡志平,海达尔M,林庚.用迭代局部最小二乘法进行微阵列缺失值插补[C]//第四届亚太生物信息学会议论文集.2006:159-168。
[11] 王Q H,RAO J N K.具有缺失数据的线性模型中基于经验似然的推理[J]。斯堪的纳维亚统计杂志,2002,29(3):563-576。
[12] RACINEA J,LI Q.分类数据和连续数据回归函数的非参数估计[J]。《计量经济学杂志》,2004119(1):99-130。
[13] 朱旭,张斯,金Z,等.混合属性数据集的缺失值估计[J]。IEEE知识与数据工程汇刊,2011,23(1):110-121。
[14] CLEVEL W S,LOADER C.局部回归平滑:原理与方法[J]。技术报告,1996年,64(3):167-169。
[15] CHRIS M,JENNIFER N,SUNIL P.ERACER:一种用于统计推断和数据清理的数据库方法[C]//2010年ACM SIGMOD国际数据管理会议的进程。2010:75-86。
[16] KHAYATI M,BOHLEN M H.REBOM:恢复时间序列中缺失值的块[C]//COMAD.2012:44-55。
[17] YI B,SIDIROPOULOS N,JOHNSON T,等.协同演化时间序列的在线数据挖掘[C]//ICDE.2000:13-22。
[18] 孙J,帕帕迪米特里欧S,FALOTSOS C.传感器网络中的在线潜在变量检测[C]//ICDE.2005:1126-127。
[19] BOX G E P,JENKINS G.时间序列分析、预测与控制[M]。普伦蒂斯·霍尔PTR,1994年。
[20] KEVIN W M H.模式流中缺失值的连续插补-确定时间序列[C]//第20届扩展数据库技术国际会议(EDBT).2017:2367-2005。
[21]VITO S D,MASSERA E,PIGA M,等.城市污染监测场景中苯估算用电子鼻的现场校准[J]。传感器和执行器B化学,2008129(2):750-757。
[1] 陈志强, 韩萌, 李慕航, 武红鑫, 张喜龙.
数据流概念漂移处理方法研究综述
数据流中概念漂移处理方法综述
计算机科学, 2022, 49(9): 14-32.https://doi.org/10.11896/jsjkx.210700112
[2] 胡安祥, 尹小康, 朱肖雅, 刘胜利.
基于数据流特征的比较类函数识别方法
基于数据流特征匹配的类结构函数识别方法
计算机科学, 2022, 49(9): 326-332.https://doi.org/10.11896/jsjkx.220200163
[3] 陈圆圆, 王志海.
基于聚类分区的多维数据流概念漂移检测方法
基于聚类划分的多维数据流概念漂移检测方法
计算机科学, 2022, 49(7): 25-30.https://doi.org/10.11896/jsjkx.210600155
[4] 孙晓寒, 张莉.
基于评分区域子空间的协同过滤推荐算法
基于评级区域子空间的协同过滤推荐算法
计算机科学, 2022, 49(7): 50-56.https://doi.org/10.11896/jsjkx.210600062
[5] 庞兴龙, 朱国胜.
基于半监督学习的网络流量分析研究
基于半监督学习的网络流量分析综述
计算机科学, 2022年,49(6A):544-554。https://doi.org/10.11896/jsjkx.210600131网址
[6] 夏源, 赵蕴龙, 范其林.
基于信息熵更新权重的数据流集成分类算法
基于信息熵更新权重的数据流集成分类算法
计算机科学, 2022, 49(3): 92-98.https://doi.org/10.11896/jsjkx.210200047
[7] 王美玲, 刘晓楠, 尹美娟, 乔猛, 荆丽娜.
基于评论和物品描述的深度学习推荐算法
基于评论和项目描述的深度学习推荐算法
计算机科学, 2022, 49(3): 99-104.https://doi.org/10.11896/jsjkx.210200170
[8] 汤世征, 张岩峰.
拖动DL:一种易用的深度学习模型可视化构建系统
DragDL:一个易于使用的图形化DL模型构造系统
计算机科学, 2021, 48(8): 220-225.https://doi.org/10.11896/jsjkx.200900045
[9] 马凤飞, 蔺素珍, 刘峰, 王丽芳, 李大威.
基于语义对比生成对抗网络的高倍欠采MRI施工
基于语义对比生成对抗性网络的高度欠采样MRI重建
计算机科学, 2021, 48(4): 169-173.https://doi.org/10.11896/jsjkx.200600047
[10] 齐延荣, 周夏冰, 李斌, 周清雷.
基于现场可编程门阵列CNN图像识别加速与优化
基于FPGA的CNN图像识别加速与优化
计算机科学, 2021, 48(4): 205-212.https://doi.org/10.11896/jsjkx.200600089
[11] 徐兵, 弋沛玉, 王金策, 彭舰.
知识图谱嵌入的高阶协同过滤推荐系统
基于知识图嵌入的高阶协同过滤推荐系统
计算机科学, 2021年,48(11A):244-250。https://doi.org/10.11896/jsjkx.210100211
[12] 邵政毅, 陈秀宏.
基于样本特征核矩阵的稀疏双线性回归
基于样本特征核矩阵的稀疏双线性回归
计算机科学, 2021, 48(10): 185-190.https://doi.org/10.11896/jsjkx.200800219
[13] 吉顺慧, 张鹏程.
基于支配关系的数据流测试用例生成方法
基于支配关系的数据流测试用例生成方法
计算机科学, 2020, 47(9): 40-46.https://doi.org/10.11896/jsjkx.200700021
[14] 杨皓然, 方贤文.
基于概率和时间因素的佩特里网业务流程一致性分析
基于概率和时间因子的Petri网业务流程一致性分析
计算机科学, 2020, 47(5): 59-63.https://doi.org/10.11896/jsjkx.190500119
[15] 卢爱红, 郭艳, 李宁, 王萌, 刘杰.
基于原子范数最小化的二维稀疏阵列波达角估计算法
基于原子范数最小化的二维稀疏阵列波达方向估计
计算机科学, 2020, 47(5): 271-276.https://doi.org/10.11896/jsjkx.191200139
已查看
全文


摘要

引用

  共享   
  讨论   
找不到建议阅读的文章!