dataprep:高效灵活的数据预处理工具
使用一组数据过滤、删除和插值工具高效灵活地预处理数据。这些数据预处理方法是基于完整性、准确性、阈值法和线性插值的原则,通过设置约束条件、时间完成和恢复以及快速高效的计算和分组而开发的。关键的预处理步骤包括删除变量和观测值、剔除离群值和缺失值(NA)插值,这取决于原始数据的不完整程度和分散程度。与普通方法相比,它们更准确地清理数据,保留更多样本,插值后不添加离群值。通过基于游程的分组对连续NA进行自动识别,用于删除观测值、剔除异常值和NA插值;因此,在插值过程中不会生成新的离群值。提出条件极值法实现逐点加权离群点剔除,避免了非离群点的剔除。此外,在短时间内引用值的时间序列插值进一步确保了插值的可靠性。这些方法基于并改进了参考文献:Liang,C.-S.,Wu,H.,Li,H.-Y.,Z.,Li和He,K.-B.(2020)<doi:10.1016/j.scitotenv.2020.140923>.
文档:
下载内容:
链接:
请使用规范形式https://CRAN.R-project.org/package=dataprep链接到此页面。