×

流式数据和外部内存数据的查询处理的严格下限。 (英语) Zbl 1118.68051号

摘要:一般认为,由于数据库的巨大规模,数据库必须驻留在廉价的外部存储中。当前外部存储系统的技术向我们展示了这样一个事实:从性能上讲,少量的数据顺序扫描绝对优于随机数据访问。数据库技术,尤其是查询处理技术,是围绕着内存层次结构的概念发展起来的,内存层次的大小和访问时间各不相同。目前的技术似乎能够适应他们的任务,并且非常成功,但经过更深入的调查,我们对所涉及的问题以及这些问题的最佳算法的理论理解似乎还没有发展成熟。
最近,数据流处理已成为数据库管理界的研究对象,但从数据库理论的角度来看,这实际上是外部存储中数据查询处理问题的一个特例,我们仅限于对输入数据进行一次扫描。
本文研究了一种用于外部存储器和流处理的干净机器模型。我们为核心XPath计算和过滤的数据复杂性建立了严格的界限。我们表明,外部数据的扫描次数会导致严格的层次结构(只要内部内存空间足够小,例如输入的大小是多对数的)。我们还表明,如果外部存储器扫描次数的乘积(r(n)与内部存储器缓冲区的大小(s(n))的乘积足够小,即大小为(o(n),则连接和排序都不可行。

MSC公司:

68第05页 数据结构
第68页,共15页 数据库理论
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abiteboul,S。;赫尔,R。;维亚努,V.,《数据库基础》(1995),艾迪森·韦斯利·Zbl 0848.68031号
[2] G.Aggarwal,M.Datar,S.Rajagopalan,M.Ruhl,《关于使用排序原语增强的流模型》,收录于:《FOCS’04会议录》,2004年,第540-549页;G.Aggarwal,M.Datar,S.Rajagopalan,M.Ruhl,《关于使用排序原语增强的流模型》,收录于:FOCS’04会议录,2004年,第540-549页
[3] Alon,N。;马蒂亚斯,Y。;Szegedy,M.,《频率矩近似的空间复杂性》,《计算机与系统科学杂志》,58137-147(1999)·Zbl 0938.68153号
[4] A.Arasu,B.Babcock,T.Green,A.Gupta,J.Widom,描述连续数据流上查询的内存需求,载于:PODS’022002年会议记录,第221-232页;A.Arasu,B.Babcock,T.Green,A.Gupta,J.Widom,《描述连续数据流上查询的内存需求》,收录于:《PODS学报》2002年第221-232页
[5] B.Babcock,S.Babu,M.Datar,R.Motwani,J.Widom,《数据流系统中的模型和问题》,收录于《PODS学报》2002年第2期,第1-16页;B.Babcock,S.Babu,M.Datar,R.Motwani,J.Widom,《数据流系统中的模型和问题》,载于:《PODS’02期刊》,2002年,第1-16页
[6] Z.Bar-Yossef,M.Fontoura,V.Josifovski,《XML流上XPath计算的内存需求》,载《PODS会议录》2004年第177-188页;Z.Bar-Yossef,M.Fontoura,V.Josifovski,《XML流上XPath计算的内存需求》,载《PODS会议录》2004年第177-188页·Zbl 1115.68054号
[7] Z.Bar-Yossef,M.Fontoura,V.Josifovski,基于XML流的查询评估缓冲,收录于:《PODS学报》2005年第5期,第216-227页;Z.Bar-Yossef,M.Fontoura,V.Josifovski,基于XML流的查询评估缓冲,收录于:PODS会议记录,2005年,第216-227页·Zbl 1115.68054号
[8] A.Brüggemann-Klein,M.Murata,D.Wood,非排名字母上的规则树和规则对冲语言:第1版,2001年4月3日,香港科技大学技术报告HKUST-TCSC-2001-05,2001年;A.Brüggemann-Klein,M.Murata,D.Wood,非排名字母上的规则树和规则对冲语言:第1版,2001年4月3日,香港科技大学技术报告HKUST-TCSC-2001-05,2001
[9] Chen,J.-E。;Yap,C.-K.,逆向复杂性,SIAM计算杂志,20,4,622-638(1991)·Zbl 0736.68028号
[10] Doner,J.,树受体及其应用,《计算机与系统科学杂志》,第4期,第406-451页(1970年)·Zbl 0212.02901号
[11] Duris,P。;加利尔,Z。;Schnitger,G.,通信复杂性下限,信息与计算,73,1-22(1987)·Zbl 0635.68034号
[12] M.Frick,M.Grohe,C.Koch,压缩树的查询评估,收录于:LICS’03会议录,2003年,第188-197页;M.Frick,M.Grohe,C.Koch,压缩树的查询评估,收录于:LICS’03会议录,2003年,第188-197页
[13] Gottlob,G。;Koch,C.,Monadic数据日志和网络信息提取语言的表达能力,ACM杂志,51,1,74-113(2004)·兹比尔1316.68045
[14] G.Gottlob,C.Koch,R.Pichler,处理XPath查询的高效算法,收录于:VLDB’02会议录,2002年,第95-106页;G.Gottlob,C.Koch,R.Pichler,处理XPath查询的高效算法,收录于:2002年VLDB会议记录,第95-106页
[15] G.Gottlob,C.Koch,R.Pichler,《XPath查询评估的复杂性》,收录于:《PODS会议录》,2003年,第179-190页;G.Gottlob,C.Koch,R.Pichler,《XPath查询评估的复杂性》,收录于:《PODS会议录》,2003年,第179-190页
[16] Graefe,G.,大型数据库的查询评估技术,ACM计算调查,25,2,73-170(1993)
[17] 格林·T·J。;米克劳,G。;Onizuka,M。;Suciu,D.,用确定性自动机处理XML流,(ICDT'03年会议记录)。ICDT'03会议录,LNCS,第2572卷(2003),Springer),173-189·Zbl 1022.68512号
[18] M.Grohe,A.Hernich,N.Schweikardt,《大数据集的随机计算:严格下限》,载《PODS学报》2006年第243-252页;M.Grohe,A.Hernich,N.Schweikardt,《大型数据集上的随机计算:严格的下限》,载于:PODS’062006,第243-252页
[19] 格罗赫,M。;科赫,C。;Schweikardt,N.,流和外部内存数据查询处理的严格下限,(ICALP’05会议录)。ICALP’05会议录,LNCS,第3580卷(2005),Springer),1076-1088·兹比尔1085.68036
[20] 格罗赫,M。;科赫,C。;Schweikardt,N.,《查询外部内存和流数据的复杂性》(FCT’05会议录)。FCT’05会议录,LNCS,第3623卷(2005),Springer),1-16·Zbl 1122.68453号
[21] M.Grohe,N.Schweikardt,《很少随机访问外部内存的排序下限》,载于:《PODS会议录》2005年第238-249页;M.Grohe,N.Schweikardt,《很少随机访问外部内存的排序下限》,载于:《PODS会议录》2005年第238-249页
[22] Henzinger,M。;Raghavan,P。;Rajagopalan,S.,《数据流计算》(外部存储器算法,外部存储器算法),《离散数学和理论计算机科学DIMACS系列》,第50卷(1999年),第107-118页·Zbl 0947.68052号
[23] A.Hernich,N.Schweikardt,《重新审视逆转复杂性》,CoRR报告,2006年8月7日arxiv:cs。抄送:0608036http://www.arxiv.org/abs/cs.CC/0608036; A.Hernich,N.Schweikardt,《重新审视逆转复杂性》,CoRR报告,2006年8月7日arxiv:cs。抄送:0608036http://www.arxiv.org/abs/cs.CC/0608036 ·Zbl 1147.68022号
[24] 霍普克罗夫特,J.E。;Ullman,J.D.,关于带边界图灵机的一些结果,ACM杂志,16,1,168-177(1969)·Zbl 0188.33501号
[25] C.Koch,高效处理二级存储中XML数据的表达性节点选择查询:基于树自动机的方法,收录于:VLDB’03会议录,2003年,第249-260页;C.Koch,二级存储中XML数据的高效表达节点选择查询处理:基于树自动机的方法,收录于:VLDB’03会议录,2003年,第249-260页
[26] Kushilevitz,E。;Nisan,N.,《通信复杂性》(1997),剑桥大学出版社·兹比尔0869.68048
[27] Marx,M.,有序树中的一阶路径,(2005年ICDT会议录)。2005年ICDT会议记录,LNCS,第3363卷(2005),Springer),114-128·Zbl 1112.68370号
[28] (Meyer,U.;Sanders,P.;Sibeyn,J.,《内存层次的算法》,LNCS,第2625卷(2003),Springer)·Zbl 1018.68761号
[29] 蒙罗,J。;Paterson,M.,有限存储的选择和排序,理论计算机科学,12315-323(1980)·Zbl 0441.68067号
[30] S.Muthukrishnan,《数据流:算法和应用》,Now publishers Inc,2005年;S.Muthukrishnan,《数据流:算法和应用》,Now publishers Inc,2005年·Zbl 1128.68025号
[31] Neumann,A。;Seidl,H.,《森林中树木模式的定位匹配》(FSTTCS’98年会议记录)。FSTTCS’98会议记录,LNCS,第1530卷(1998年),施普林格),134-145
[32] F.Neven,《结构化文档查询语言的设计与分析——形式和逻辑方法》,林堡大学中心博士论文,1999年;F.Neven,《结构化文档查询语言的设计与分析——形式和逻辑方法》,林堡大学中心博士论文,1999年
[33] Neven,F.,XML研究人员的自动机理论,SIGMOD记录,31,3,39-46(2002)
[34] F.Neven,T.Schwentick,树结构数据的表达和高效模式语言,收录于:PODS’00会议录,2000年,第145-156页;F.Neven,T.Schwentick,树结构数据的表达和高效模式语言,收录于:PODS’00会议录,2000年,第145-156页
[35] Neven,F。;Schwentick,T.,有限树上的查询自动机,理论计算机科学,275,1-2,633-674(2002)·Zbl 1026.68081号
[36] Neven,F。;van den Bussche,J.,基于属性文法的结构化文档查询语言的表达能力,ACM杂志,49,1,56-100(2002)·Zbl 1323.68253号
[37] Ramakrishnan,R。;Gehrke,J.,《数据库管理系统》(2002),McGraw-Hill
[38] Razborov,A.A.,矩阵方法在计算复杂性下限理论中的应用,组合数学,1081-93(1990)·Zbl 0717.68049号
[39] L.Segoufin,键入和查询XML文档:一些复杂性界限,收录于:《PODS学报》2003年第03期,第167-178页;L.Segoufin,键入和查询XML文档:一些复杂性界限,收录于:《PODS会议录》2003年第167-178页
[40] L.Segoufin,V.Vianu,验证流式XML文档,收录于:PODS’02会议录,2002年,第53-64页;L.Segoufin,V.Vianu,验证流式XML文档,收录于:PODS’02会议录,2002年,第53-64页
[41] J.撒切尔。;Wright,J.,广义有限自动机理论及其在二阶逻辑决策问题中的应用,数学系统理论,2,1,57-81(1968)·Zbl 0157.02201号
[42] Thomas,W.,《语言、自动机和逻辑》(Rozenberg,G.;Salomaa,A.,《形式语言手册》,第三卷(1997),Springer),389-455·Zbl 0866.68057号
[43] van Emde Boas,P.,《机器模型和仿真》(van Leeuwen,J.,《理论计算机科学手册》,第1卷(1990年),爱思唯尔科学出版社),1-66,(第1章)·Zbl 0900.68265号
[44] Vitter,J.,外部存储器算法和数据结构:处理海量数据,ACM计算调查,33,2209-271(2001)
[45] 万维网联盟,XQuery 1.0和XPath 2.0形式语义,W3C工作草案(2002年8月16日),http://www.w3.org/XML/Query网站; 万维网联盟,XQuery 1.0和XPath 2.0形式语义,W3C工作草案(2002年8月16日),http://www.w3.org/XML/Query网站
[46] A.Yao,与分布式计算相关的一些复杂性问题,载于:《STOC’79学报》,1979年,第209-213页;A.Yao,与分布式计算相关的一些复杂性问题,收录于:《STOC’79会议录》,1979年,第209-213页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。