×

多维流时间序列的优化采样设计及其在电网传感器数据中的应用。 (英语) Zbl 07789425号

摘要:物联网(IoT)系统生成大量高速时间相关流数据,通常在计算或能量限制下与在线推理任务相连接。对这些流式时间序列数据的在线分析经常面临统计效率和计算成本之间的权衡。平衡这种权衡的一种重要方法是采样,其中只选择一小部分样本进行模型拟合和更新。基于物联网系统动态关系分析的需求,我们研究了多维流时间序列的数据相关样本选择和在线推理问题,旨在为高速电网用电量数据提供低成本的实时分析。受实验设计中D-最优性准则的启发,我们提出了一类在线数据约简方法,实现了最佳采样准则,提高了在线分析的计算效率。我们表明,最优解相当于一种混合伯努利抽样和杠杆得分抽样的策略。杠杆得分抽样涉及辅助估计,与递归最小二乘更新相比,这些估计具有计算优势。还讨论了所涉及的辅助估计的理论性质。当应用于欧洲电网消费数据时,所提出的基于杠杆得分的抽样方法在在线估计和预测方面优于基准抽样方法。通过仿真研究评估了抽样辅助在线估计方法的普遍适用性。

MSC公司:

第62页 统计学的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] AGARWAL,P.K.、HAR-PELED,S.和VARADARAJAN,K.R.(2005)。通过核心集进行几何近似。在组合几何和计算几何中。数学。科学。Res.Inst.出版。52 1-30. 剑桥大学出版社,剑桥。数字对象标识符:10.4171/PRIMS/172谷歌学者:查找链接数学科学网:MR2178310·doi:10.4171/PRIMS/172
[2] AKBAR,A.、KHAN,A.、CARREZ,F.和MOESSNER,K.(2017)。复杂物联网数据流的预测分析。IEEE国际事物杂志4 1571-1582。
[3] ANAGNOSTOPOULOS,C.、HADJIEFTHYMIADES,S.、KATSIKIS,A.和MAGLGIANNIS,I.(2014)。普及医疗系统无线传感器网络中的自回归节能上下文转发。个人无处不在的计算。18 101-114.
[4] BALDUIN,S.、VEITH,E.和LEHNHOFF,S.(2022年)。静态电网模型的采样策略。arXiv预印本。可从arXiv:2204.09053获得。
[5] BERBERIDIS,D.、KEKATOS,V.和GIANNAKIS,G.B.(2016年)。在线审查大规模回归,应用于流式大数据。IEEE传输。信号处理。64 3854-3867. 数字对象标识符:10.1109/TSP.2016.2546225谷歌学者:查找链接数学科学网:MR3515721·Zbl 1414.94071号 ·doi:10.1109/TSP.2016.2546225
[6] Bingham,N.H.、Goldie,C.M.和Teugels,J.L.(1989)。定期变更。数学及其应用百科全书27。剑桥大学出版社,剑桥。数学科学网:MR1015093
[7] BOX,G.E.P.、JENKINS,G.M.、REINSEL,G.C.和LJUNG,G.M(2016)。《时间序列分析:预测与控制》,第5版,《概率统计中的威利序列》。新泽西州霍博肯威利。数学科学网:MR3379415·Zbl 1317.62001
[8] CAI,D.、SHI,D.和CHEN,J.(2013)。多项式正态变换和拉丁超立方体采样的概率潮流计算。IET通用。Transm公司。分发7 474-482。
[9] 库克·R·D(1977)。线性回归中影响观察的检测。技术计量学19 15-18. 数字对象标识符:10.2307/1268249谷歌学者:查找链接数学科学网:MR0436478·Zbl 0371.62096号 ·doi:10.2307/1268249
[10] DASGUPTA,A.、DRINEAS,P.、HARB,B.、KUMAR,R.和MAHONEY,M.W.(2009年)。\(\mathit的采样算法和核心集{l}_{\mathit{p}}\)回归。SIAM J.计算。38 2060-2078. 数字对象标识符:10.1137/070696507谷歌学者:查找链接数学科学网:MR2476287·Zbl 1191.68851号 ·数字对象标识代码:10.1137/070696507
[11] Drineas,P.、Magdon-Ismail,M.、Mahoney,M.W.和Woodruff,D.P.(2012)。矩阵一致性和统计杠杆的快速近似。J.马赫。学习。第13号决议3475-3506。数学科学网:MR3033372·Zbl 1437.65030号
[12] ESHRAGH,A.、ROOSTA,F.、NAZARI,A.和MAHONEY,M.W.(2022年)。LSAR:用于分析大时间序列数据的高效杠杆得分抽样算法。J.马赫。学习。决议23,论文编号:[22],36。数学科学网:MR4420747·Zbl 07625175号
[13] FANG,K.T.,KOTZ,S.和NG,K.W.(1990年)。对称多元及相关分布。统计学和应用概率专著36。CRC出版社,伦敦。数字对象标识符:10.1007/978-1-4899-2937-2谷歌学者:查找链接数学科学网:MR1071174·Zbl 0699.62048号 ·doi:10.1007/9781-4899-2937-2
[14] FELDMAN,D.、SCHMIDT,M.和SOHLER,C.(2012)。将大数据转化为小数据:(k)-均值、主成分分析和投影聚类的恒定大小核心集。第二十四届ACM-SIAM离散算法研讨会论文集1434-1453。宾夕法尼亚州费城SIAM。数学科学网:MR3202989·Zbl 1421.68219号
[15] GABEL,M.、KEREN,D.和SCHUSTER,A.(2015)。监测分布式流的最小二乘模型。第21届ACM SIGKDD知识发现和数据挖掘国际会议论文集319-328。纽约ACM。
[16] Giraitis,L.、Koul,H.L.和Surgailis,D.(2012年)。长记忆过程的大样本推断。帝国理工学院出版社,伦敦。数字对象标识符:10.1142/p591谷歌学者:查找链接MathSciNet:MR2977317·Zbl 1279.62016号 ·doi:10.1142/p591
[17] GITTENS,A.和MAHONEY,M.(2013)。重温用于改进大规模机器学习的Nyström方法。在机器学习国际会议上,567-575。PMLR,美国佐治亚州亚特兰大。
[18] HAMILTON,J.D.(1994)。时间序列分析。普林斯顿大学出版社,新泽西州普林斯顿。数学科学网:MR1278033·Zbl 0831.62061号
[19] HILL,D.J.和MINSKER,B.S.(2010年)。流式环境传感器数据中的异常检测:一种数据驱动的建模方法。环境。模型。柔和。25 1014-1022.
[20] HOOI,B.、SONG,H.A.、PANDEY,A.、JEREMINOV,M.、PILEGGI,L.和FALOTSOS,C.(2018年)。Streamcast:快速在线挖掘电网时间序列。2018年SIAM国际数据挖掘会议记录531-539。费城SIAM。
[21] ISLAM,S.R.、KWAK,D.、KABIR,M.H.、HOSSAIN,M.和KWAK(K.-S.)(2015年)。卫生保健物联网:一项综合调查。IEEE接入3 678-708。
[22] JARADAT,M.、JARRAH,M.,BOUSSELHAM,A.、JARARWEH,Y.和AL-AYYOUB,M.(2015)。能源互联网:智能传感器网络和智能电网的大数据管理。计算。科学。56 592-597.
[23] JORDAN,M.I.(2013)。关于统计、计算和可伸缩性。伯努利19 1378-1390. 数字对象标识符:10.3150/12-BEJSP17谷歌学者:查找链接数学科学网:MR3102908·Zbl 1273.62030 ·doi:10.350/12-BEJSP17
[24] JUMAR,R.、MAASS,H.、SCHáFER,B.、GORJÃO,L.R.和HAGENMEYER,V.(2020年)。电网频率测量数据库。arXiv预印本。可从arXiv:2006.01771获得。
[25] Kallenberg,O.(2002年)。现代概率基础,第二版,概率及其应用(纽约)。纽约州施普林格。数字对象标识符:10.1007/978-1-4757-4015-8谷歌学者:查找链接数学科学网:MR1876169数学科学网(MathSciNet):MR3656342·doi:10.1007/978-1-4757-4015-8
[26] Kalman,R.E.(1960)。一种解决线性滤波和预测问题的新方法。J.基础工程82 35-45。数学科学网:MR3931993
[27] KALMAN,R.E.和BUCY,R.S.(1961年)。线性滤波和预测理论的新结果。J.基础工程83 95-108。数学科学网:MR0234760
[28] LI,F.,XIE,R.,WANG,Z.,GUO,L.,YE,J.,MA,P.和SONG,W.(2019)。使用多维流式大数据进行在线分布式物联网安全监控。IEEE国际事物杂志7 4387-4394。
[29] LIBERTY,E.(2013)。简单而确定的矩阵草图。第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集581-588。纽约ACM。
[30] Liu,J.S.(2008)。科学计算中的蒙特卡罗策略。统计学中的斯普林格系列。纽约州施普林格。数学科学网:MR2401592·Zbl 1132.65003号
[31] Lütkepohl,H.(2005)。多时间序列分析新导论。柏林施普林格。数字对象标识符:10.1007/978-3-540-27752-1谷歌学者:查找链接数学科学网:MR2172368·Zbl 1072.62075号 ·doi:10.1007/978-3-540-27752-1
[32] MA,P.,CHEN,Y.,ZHANG,X.,XING,X..,MA,J.和MAHONEY,M.W.(2022)。随机数值线性代数算法抽样估计量的渐近分析。J.马赫。学习。决议23 1-45。
[33] MA,P.、MAHONEY,M.W.和YU,B.(2015)。算法利用的统计观点。J.马赫。学习。第16 861-911号决议。数学科学网:MR3361306·Zbl 1337.62164号
[34] MARANGONI,G.和TAVONI,M.(2021)。电力消耗的实时反馈:来自意大利现场实验的证据。能效。14 1-17.
[35] MAT,I.、KASSIM,M.R.M.、HARUN,A.N.和YUSOFF,I.M.(2016)。物联网在使用无线湿度传感器网络的精准农业应用中。2016年IEEE开放系统会议(国际博协) 24-29. IEEE,纽约。
[36] MENG,C.,XIE,R.,MANDAL,A.,ZHANG,X.,ZHONG,W.和MA,P.(2021)。LowCon:在指定错误的线性模型中基于设计的子采样方法。J.计算。图表。统计师。30 694-708. 数字对象标识符:10.1080/10618600.2020.1844215谷歌学者:查找链接数学科学网:MR4313470·兹比尔07499011 ·doi:10.1080/10618600.2020.1844215
[37] MICHALAREAS,G.、SCHOFFELEN,J.-M.、PATERSON,G.和GROSS,J.(2013)。用MEG传感器数据的多元自回归模型研究大脑相互作用区域之间的因果关系。嗯。大脑映射。34 890-913.
[38] NELLORE,K.和HANCKE,G.P.(2016)。使用无线传感器网络的城市交通管理系统调查。传感器16 157.
[39] 开放电力系统数据(2020年)。数据包时间序列。版本2020-10-06。(来自不同来源的主要数据。可在https://doi.org/10.25832/time_series/2020-10-06。)
[40] PAPALAMBROS,P.Y.和WILDE,D.J.(2000)。《优化设计原理:建模与计算》,第二版,剑桥大学出版社,剑桥。数字对象标识符:10.1017/CBO9780511626418谷歌学者:查找链接数学科学网:MR1775704·Zbl 0962.90002号 ·doi:10.1017/CBO9780511626418
[41] PETRIS,G.、PETRONE,S.和CAMPAGNOLI,P.(2009年)。带R的动态线性模型。使用R!纽约州施普林格。数字对象标识符:10.1007/b135794谷歌学者:查找链接数学科学网:MR2730074·Zbl 1176.62088号 ·doi:10.1007/b135794
[42] PLACKETT,R.L.(1950)。最小二乘法中的一些定理。生物特征37 149-157. 数字对象标识符:10.1093/biomet/37.1-2.149谷歌学者:查找链接数学科学网:MR0036980·Zbl 0041.46803号 ·doi:10.1093/biomet/37.1-2.149
[43] PRONZATO,L.(2006)。关于最优有界设计的序贯构造。J.统计。计划。推断136 2783-2804。数字对象标识符:10.1016/j.jspi.2004.10.020谷歌学者:查找链接数学科学网:MR2279835·Zbl 1090.62083号 ·doi:10.1016/j.jspi.2004.10.020
[44] PRONZATO,L.和WANG,H.(2021)。稀释实验设计的连续在线子采样。J.统计。计划。推论212 169-193。数字对象标识符:10.1016/j.jspi.20020.08.001谷歌学者:查找链接数学科学网:MR4180110·Zbl 1460.62128号 ·doi:10.1016/j.jspi.2020.08.001
[45] PUKELSHEIM,F.(2006年)。实验的优化设计。应用数学经典50。宾夕法尼亚州费城SIAM。1993年原版再版。数字对象标识符:10.1137/1.9780898719109谷歌学者:查找链接数学科学网:MR2224698·Zbl 1101.62063号 ·数字对象标识代码:10.1137/1.9780898719109
[46] 邱宏、徐美、韩富、刘宏和卡夫(2015)。高维重尾向量自回归过程中转移矩阵的稳健估计。在1843-1851年国际机器学习会议上。
[47] RéMILLARD,B.、PAPAGEORGIOU,N.和SOUSTRA,F.(2012)。基于Copula的多元时间序列半参数模型。《多元分析杂志》。110 30-42. 数字对象标识符:10.1016/j.jmva.2012.03.001谷歌学者:查找链接数学科学网:MR2927508·Zbl 1281.62136号 ·doi:10.1016/j.jmva.2012.03.001
[48] SCHIMBINSCHI,F.、MOREIRA-MATIAS,L.、NGUYEN,V.X.和BAILEY,J.(2017)。拓扑正则化通用向量自回归在大城市交通预测中的应用。专家系统。申请。82 301-316.
[49] SEBER,G.A.和LEE,A.J.(2012年)。线性回归分析,第329卷。纽约威利。
[50] SHEHABI,A.、SMITH,S.、SARTOR,D.、BROWN,R.、HERRLIN,M.、KOOMEY,J.、MASANET,E.、HORNER,N.、AZEVEDO,I.等人(2016年)。美国数据中心能源使用报告。
[51] 谢尔曼·J·和莫里森·W·J·(1950)。逆矩阵的调整对应于给定矩阵中一个元素的变化。数学年鉴。统计数字21 124-127。数字对象标识符:10.1214/aoms/1177729893谷歌学者:查找链接数学科学网:MR0035118·Zbl 0037.00901号 ·doi:10.1214/aoms/1177729893
[52] SIDDIK,M.A.B.、SHEHABI,A.和MARSTON,L.(2021)。美国数据中心的环境足迹。环境。Res.Lett公司。16 064017.
[53] TING,D.和BROCHU,E.(2018年)。具有影响函数的最优子采样。神经信息处理系统进展3654-3663。
[54] Wang,H.、Yang,M.和Stufken,J.(2019)。基于信息的大数据线性回归最优子数据选择。J.Amer。统计师。协会114 393-405。数字对象标识符:10.1080/01621459.2017.1408468谷歌学者:查找链接数学科学网:MR3941263·Zbl 1478.62196号 ·doi:10.1080/01621459.2017.1408468
[55] 王宏、朱瑞和马平(2018)。大样本logistic回归的最优子抽样。J.Amer。统计师。协会113 829-844。数字对象标识符:10.1080/01621459.2017.1292914谷歌学者:查找链接数学科学网:MR3832230·Zbl 1398.62196号 ·doi:10.1080/01621459.2017.1292914
[56] WANG,L.、ELMSTEDT,J.、WONG,W.K.和XU,H.(2021年)。大数据线性回归的正交子抽样。附录申请。《美国联邦法律大全》第15卷第1273-1290页。数字对象标识符:10.1214/21-aoas1462谷歌学者:查找链接数学科学网:MR4316648·Zbl 1478.62384号 ·doi:10.1214/21-aoas1462
[57] West,M.和Harrison,J.(1997年)。贝叶斯预测和动态模型,第二版,《统计学中的斯普林格系列》。纽约州施普林格。数学科学网:MR1482232·Zbl 0871.62026号
[58] 伍德鲁夫,D.P.(2014)。草图作为数值线性代数的工具。已找到。趋势理论。计算。科学。10 1-157. 数字对象标识符:10.1561/0400000060谷歌学者:查找链接数学科学网:MR3285427·Zbl 1316.65046号 ·doi:10.1561/0400000060
[59] 谢R.、BAI、S.和MA、P.(2023)。补充“应用于电网传感器数据的多维流时间序列的最佳采样设计”https://doi.org/10.1214/23-AOAS1757SUPP网站
[60] XIE,R.、WANG,Z.、BAI,S.、MA,P.和ZHONG,W.(2019)。流式多维时间序列的在线分散杠杆分数采样。这个第22届国际人工智能与统计会议2301-2311。
[61] 徐旭、陈毅、郭德毅和姚琼(2021)。法国半小时电力负荷的日前概率预测和曲线回归的分位数。申请。能源301 117465。
[62] 横山,R.(1980)。平稳混合序列的矩界。Z.Wahrsch公司。版本。Gebiete 52 45-57。数字对象标识符:10.1007/BF00534186谷歌学者:查找链接数学科学网:MR0568258·Zbl 0407.60002号 ·doi:10.1007/BF00534186
[63] YU,J.、WANG,H.、AI,M.和ZHANG,H.(2022)。具有大量数据的最大拟似然估计的最优分布子抽样。J.Amer。统计师。协会117 265-276。数字对象标识符:10.1080/01621459.2020.1773832谷歌学者:查找链接数学科学网:MR4399084·Zbl 1506.62235号 ·doi:10.1080/01621459.2020.1773832
[64] 张,K.,刘,C.,张,J.,熊,H.,邢,E.和叶,J.(2017)。随机化或浓缩?:通过级联压缩采样绘制线性成本矩阵草图。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集615-623。纽约ACM。
[65] ZHANG,T.和WU,W.B.(2012)。时变回归模型的推断。安。统计师。40 1376-1402. 数字对象标识符:10.1214/12-AOS1010谷歌学者:查找链接MathSciNet:MR3015029·Zbl 1257.62049号 ·doi:10.1214/12-AOS1010
[66] ZHOU,B.和SAAD,W.(2019)。联合状态采样和更新,以最小化物联网中的信息年龄。IEEE传输。Commun公司。67 7468-7482.
[67] ZHOU,Z.和WU,W.B.(2010)。时变系数线性模型的同时推理。J.R.统计社会服务。B.统计方法。72 513-531. 数字对象标识符:10.1111/j.1467-9868.2010.00743.x谷歌学者:查找链接数学科学网:MR2758526·Zbl 1411.62267号 ·文件编号:10.1111/j.1467-9868.2010.00743.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。