×

基于采样的大数据近似天际线计算。 (英语) 兹伯利07633896

摘要:如今,大数据在许多应用中发挥着重要作用。在超过线性时间的时间内处理大数据的天际线查询成本太高,甚至线性时间也可能太慢。显然不可能在次线性时间内计算天际线查询的精确解,因为精确解本身可能具有线性大小。幸运的是,在许多情况下,快速近似解比较慢的精确解更有用。本文提出了两种基于采样的近似算法来处理天际线查询。第一种算法获得一个固定大小的样本并计算其上的近似天际线。该算法的误差不仅在大多数情况下相对较小,而且几乎不受输入大小的影响。第二个算法有效地返回精确天际线的\(\ε,\δ)-近似值。该算法的运行时间与实际输入大小无关,实现了大数据的次线性化。实验验证了第一种算法的误差分析,并表明第二种算法比现有的天际线算法快得多。

MSC公司:

68周25 近似算法

软件:

UCI-毫升
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bai,Z.-D.,Chao,C.-C.,Hwang,H.-K.和Liang,W.-Q.,《关于随机向量中最大数的方差及其应用》,《统计学进展》(世界科学,2008年),第164-173页。
[2] Bartolini,I.、Ciaccia,P.和Patella,M.,《高效基于排序的天际线评估》,ACM Trans。数据库系统33(4)(2008)1-49。
[3] Bentley,J.L.、Clarkson,K.L.和Levine,D.B.,计算最大值和凸包的快速线性预期时间算法,《算法》9(2)(1993)168-183·Zbl 0766.68132号
[4] Bentley,J.L.,Kung,H.Tsung,Schkolnick,M.和Thompson,C.D.,关于向量集合中最大值的平均数和应用,J.ACM25(4)(1978)536-543·Zbl 0388.68056号
[5] Borzsony,S.、Kossmann,D.和Stocker,K.,《天际线运营商》,摘自Proc。第17届国际数据工程会议(IEEE,2001),第421-430页。
[6] Buchta,C.,关于向量集中最大值的平均数,Inf.Process。Lett.33(2)(1989)63-65·Zbl 0682.68041号
[7] Cai,Z.和Chen,Q.,多跳无电池无线网络的延迟和平均感知数据聚合调度,IEEE Trans。无线通信。20(3)(2020)1770-1784。
[8] Cai,Z.,Miao,D.和Li,Y.,《多密钥保留连接查询的删除传播:近似值和复杂性》,载于2019年IEEE第35届国际数据工程会议(IEEE,2019),第506-517页。
[9] Cai,Z.和Shi,T.,边缘辅助物联网数据监测系统中的分布式查询处理,IEEE Int.Things J.8(16)(2021)12679-12693。
[10] Cheng,S.,Cai,Z.和Li,J.,无线传感器网络中的曲线查询处理,IEEE Trans。车辆。Technol.64(11)(2014)5198-5209。
[11] Cheng,S.,Cai,Z.,Li,J.和Gao,H.,从无线传感器网络中的大感知数据中提取核心数据集,IEEE Trans。知识。数据工程29(4)(2016)813-827。
[12] Chomicki,J.、Godfrey,P.、Gryz,J.和Liang,D.,《天际线与预选》,Proc。第19届国际会议数据工程,第3卷,IEEE,2003年,第717-719页。
[13] Devroye,L.,关于通过最大向量求凸壳的注记,Inf.过程。第11(1)条(1980)53-56·Zbl 0444.68063号
[14] A.Frank,Uci机器学习库(2010),http://archive.ics.uci.edu/ml。
[15] Gao,X.,Li,J.,Miao,D.和Liu,X.认识到大数据计算的易处理性,Theor。计算。Sci.838(2020)195-207·Zbl 1453.68167号
[16] Godfrey,P.,《关系处理的天际线基数》,载于《国际交响乐》。信息和知识系统基础(Springer,2004),第78-97页·Zbl 1202.68137号
[17] Godfrey,P.等人,《大型数据集中的最大向量计算》。第31届超大数据库国际会议,挪威特隆赫姆,2005年第5卷,第229-240页。
[18] Han,X.,Li,J.,Yang,D.和Wang,J.《大数据上的高效天际线计算》,IEEE Trans。知识。《数据工程》25(11)(2012)2521-2535。
[19] He,Z.,Cai,Z.,Cheng,S.和Wang,X.,无线传感器网络中跟踪分位数和距离计数的近似聚合,Theor。计算。Sci.607(2015)381-390·Zbl 1358.94028号
[20] Koltun,V.和Papadimitriou,C.H.,《近似支配代表》,载于《国际协调数据库理论》(Springer,2005),第204-214页·Zbl 1108.68446号
[21] Kossmann,D.、Ramsak,F.和Rost,S.,《天空中的流星:天际线查询的在线算法》,VLDB'02:Proc。第28届国际会议《超大数据库》(Elsevier,2002),第275-286页。
[22] Kung,H.-T.,Luccio,F.和Preparia,F.P.,关于寻找向量集的最大值,J.ACM22(4)(1975)469-476·Zbl 0316.68030号
[23] Lee,K.C.K.,Lee,W.-C.,Zheng,B.,Li,H.和Tian,Yuan,Z-sky:一种基于Z顺序的高效天际线查询处理框架,VLDB J.19(3)(2010)333-362。
[24] Li,J.、Cheng,S.、Cai,Z.、Yu,J.,Wang,C.和Li,Y.,《无线传感器网络中的近似整体聚合》,ACM Trans。传感器网络13(2)(2017)1-24。
[25] Lin,X.,Yuan,Y.,Zhang,Q.和Zhang。
[26] Magnani,M.、Assent,I.和Mortensen,M.L.,《大局观:基于重要性和多样性的代表性天际线》,VLDB J.23(5)(2014)795-815。
[27] Miao,D.,Cai,Z.和Li,J.,关于联合查询的有界视图传播的复杂性,IEEE Trans。知识。数据工程30(1)(2017)115-127。
[28] Miao,D.,Cai,Z.,Li,J.,Gao,X.和Liu,X.,最优子集修复的计算,Proc。VLDB捐赠13(12)(2020)2061-2074。
[29] Miao,D.,Liu,X.和Li,J.,关于函数依赖违规的抽样查询反馈限制数据库修复的复杂性,Theor。计算。科学609(2016)594-605·Zbl 1332.68042号
[30] Miao,D.,Yu,J.和Cai,Z.,嵌套聚合查询的弹性硬度,Theor。计算。科学803(2020)152-159·兹比尔1436.68090
[31] Papadias,D.、Tao,Y.、Fu,G.和Seeger,B.,《天际线查询的优化渐进算法》,摘自Proc。2003年ACM SIGMOD国际数据管理会议,美国加利福尼亚州圣地亚哥,2003年,第467-478页。
[32] Söholm,M.、Chester,S.和Assent,I.,《代表性天际线的最大覆盖范围》,载于第19届国际会议扩展数据库技术,法国波尔多,2016年3月15日至16日,第702-703页。
[33] Tan,K.L.et al.,《高效渐进式天际线计算》。第27届国际会议,《超大数据库》,第1卷,意大利罗马,2001年,第301-310页。
[34] Tao,Y.,Ding,L.,Lin,X.和Pei,J.,基于距离的代表性天际线,收录于2009年IEEE第25届国际数据工程会议(IEEE,2009),第892-903页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。