摘要:随着数据来源的不断丰富,数据的获取变得愈发容易,但质量难以得到保证,从而导致缺失值在真实数据集中普遍存在且难以避免,缺失值填补也就成为数据质量管理领域的经典问题之一。目前,大多数的缺失值填补算法均是针对静态数据提出的,并不适用于高速到达的动态数据流,且现有算法大多未同时考虑数据的稀疏性和异构性问题。基于此,文中提出了一种新的基于独立模型的在线缺失值填补算法里姆该算法同时考虑了数据的稀疏性和异构性问题,并结合近邻填补和回归填补的基本思想对缺失值进行有效填补。首先,针对数据的动态实时性,提出了高效的填补模型增量更新算法;其次,针对数据近邻查找时间代价高以及近邻个数难以确定的问题,提出了最优近邻自适应周期性更新策略;最后基于真实数据集通过大量实验验证了所提算法的有效性。
中图分类号:
李霞, 马茜, 白梅, 王习特, 李冠宇, 宁博.RIIM公司:基于独立模型的在线缺失值填补[J] ●●●●。计算机科学, 2022, 49(8): 56-63. https://doi.org/10.11896/jsjkx.210600180
李霞、马倩、白梅、王希特、李冠耀、宁波。RIIM:基于个体模型的实时插补[J] ●●●●。计算机科学,2022,49(8):56-63。https://doi.org/10.11896/jsjkx.210600180