×

发现并利用统计特性优化关系数据库中的查询:一项调查。 (英语) Zbl 07260197号

摘要:发现和利用关系数据集中的统计特征是关系数据库管理系统(RDBMS)中查询优化的关键,也是数据库设计、清理和集成所必需的。本文综述了各种自动发现重要统计特征的方法,如相关性、函数依赖性、键和代数约束。我们讨论了对数据进行扫描或采样(定期、优化时或查询时)或执行探索性查询的主动方法。还讨论了监视查询处理结果的反应式方法。最后,我们讨论了如何应对在系统利用率高的情况下维护统计信息的实际挑战,以及如何处理不完整基数模型、使用多种发现方法或基础数据随时间变化而产生的不一致性。

MSC公司:

62至XX 统计
68倍 计算机科学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] M.M.Astrahan、M.W.Blasgen、D.D.Chamberlin、J.Gray、W.F.King III、B.G.Lindsay、R.A.Lorie、J.W.Mehl、T.G.Price、G.R.Putzolu、M.Schkolnick、P.G.Selinger、D.R.Slutz、H.R.Strong、P.Tiberio、I.L.Traiger、B.W.Wade和R.A.Yost,《系统R:关系数据库管理系统》,IEEE计算12(5)(1979),42-48。
[2] E.F.Codd,大型共享数据库的数据关系模型,Commun ACM 13(6)(1970),377-387·Zbl 0207.18003号
[3] G.Antoshenkov和M.Ziauddin,Oracle Rdb中的查询处理和优化,VLDB J 5(4)(1996),229-237。
[4] P.Gassner、G.M.Lohman、K.B.Schiefer和Y.Wang,IBM DB2家族中的查询优化,IEEE数据工程公告16(4)(1993),4-18。
[5] G.Graefe,查询优化的级联框架,IEEE数据工程公告18(3)(1995),19-29。
[6] M.Jarke和J.Koch,数据库系统中的查询优化,ACM Compute Surv 16(2)(1984),111-152·Zbl 0548.68099号
[7] P.G.Selinger、M.M.Astrahan、D.D.Chamberlin、R.A.Lorie和T.G.Price,关系数据库管理系统中的访问路径选择,《SIGMOD程序集》,马萨诸塞州波士顿,1979年,第23-34页。
[8] Y.Matias、J.S.Vitter和M.Wang,基于小波的直方图用于选择性估计,SIGMOD国际期刊,华盛顿州西雅图,1998,448-459。
[9] R.Berinde、A.C.Gilbert、P.Indyk、H.Karloff和M.J.Strauss,《结合几何和组合:稀疏信号恢复的统一方法》,2008年,预印本,网址:http://people.csal.mit.edu/indyk/rip2expand.pdf。
[10] A.C.Gilbert、S.Guha、P.Indyk、Y.Kotidis、S.Muthukrishnan和M.Strauss,近似直方图维护的快速小空间算法。《STOC会议记录》,加拿大魁北克省蒙特利尔,2002年,389-398·Zbl 1192.68962号
[11] J.Boulos、Y.Viemont和K.Ono,查询成本评估的神经网络方法,Trans-Inf Proc Soc Jpn 38(12)(1997),2566-2575。
[12] H.Lu和R.Setiono,使用神经网络的有效查询大小估计,应用智能16(3)(2002),173-183·Zbl 1002.68140号
[13] L.Getoor、B.Taskar和D.Koller,《使用概率模型的选择性估计》,《SIGMOD论文集》,加利福尼亚州圣巴巴拉,2001,461-472。
[14] A.Balmin、T.Eliaz、J.Hornibrook、L.Lim、G.M.Lohman、D.E.Simmen、M.Wang和C.Zhang,DB2 XML中基于成本的优化,IBM Syst J 45(2)(2006),299-320。
[15] J.Vitter,水库随机取样,ACM Trans Math Softw 11(1)(1985),37-57·Zbl 0562.68028号
[16] V.Poosala、Y.E.Ioanidis、P.J.Haas和E.J.Shekita,范围谓词选择性估计的改进直方图,《SIGMOD学报》,加拿大蒙特利尔,1996年,294-305。
[17] M.Greenwald和S.Khanna,分位数汇总的空间效率在线计算,《SIGMOD会议论文集》,加州圣巴巴拉,2001年,58-66。
[18] Q.Zhang和W.Wang,数据流中近似有偏分位数计算的有效算法,载《CIKM会议论文集》,葡萄牙里斯本,2007年,1023-1026。
[19] Y.E.Ioanidis,直方图的历史(节略),《VLDB会议记录》,德国柏林,2003年,19-30。
[20] M.Muralikrishna和D.J.DeWitt,用于估计多维查询的选择性因子的等深度直方图,《SIGMOD学报》,伊利诺伊州芝加哥,1988年,28-36页。
[21] T.Eavis和A.Lopez,《rK-Hist:基于R树的多维选择性估计直方图》,载《CIKM会议录》,葡萄牙里斯本,2007年,第475-484页。
[22] N.Thaper、S.Guha、P.Indyk和N.Koudas,《动态多维直方图》,《SIGMOD学报》,威斯康星州麦迪逊,2002年,第428-439页。
[23] H.Wang和K.C.Sevcik,用于选择性估计和快速近似查询回答的多维直方图,加拿大安大略省多伦多市CASCON会议论文集,2003,328-342。
[24] K.Beyer、P.J.Haas、B.Reinwald、Y.Sismanis和R.Gemulla,《关于多集运算下差异值估计的概要》,《SIGMOD学报》,中国北京,2007年,199-210年。
[25] Y.Huhtala、J.K¨arkk¨ainen、P.Porkka和H.Tiovonen,TANE:发现函数依赖和近似依赖的有效算法,计算J 42(2)(1999),100-111·Zbl 0944.68054号
[26] R.Agrawal和R.Srikant,《大型数据库中挖掘关联规则的快速算法》,载于《VLDB程序集》,智利圣地亚哥,1994年,487-499。
[27] S.Bell和P.Brockhausen,数据库中约束和数据依赖性的发现,欧洲会议机器学习(ECML-95),人工智能讲义914,施普林格,柏林,1995267-270。
[28] J.-M.Petit、F.Toumani、J.-F.Boulicaut和J.Kouloumdjian,《走向非规范化关系数据库的逆向工程》,载于《ICDE学报》,洛杉矶新奥尔良,1996年,第218-227页。
[29] P.Godfrey、J.Gryz和C.Zuzarte,《在查询优化中利用约束类数据特征》,《SIGMOD论文集》,加州圣巴巴拉,2001年,582-592。
[30] J.Gryz、K.B.Schiefer、J.Zheng和C.Zuzarte,DB2中检查约束的发现和应用,ICDE论文集,德国海德堡,2001年,551-556。
[31] J.Edmonds、J.Gryz、D.Liang和R.J.Miller,大型数据集中的空矩形挖掘,《ICDT论文集》,英国伦敦,2001年,174-188·Zbl 1047.68570号
[32] J.Gryz和D.Liang,《连接中的孔》,《智能信息系统杂志》,26(3)(2006),247-268。
[33] M.Siegel、E.Sciore和S.Salveter,支持语义查询优化的自动规则派生方法,ACM Trans Database Syst,17(4)(1992),563-600。
[34] C.T.Yu和W.Sun,语义查询优化的自动知识获取和维护,IEEE Trans Knowl Data Eng 1(3)(1989),362-375。
[35] R.Srikant和R.Agrawal,《在大型关系表中挖掘定量关联规则》,《SIGMOD论文集》,加拿大蒙特利尔,1996年,第1-12页。
[36] P.Brown、P.J.Haas、J.Myllymaki、H.Pirahesh、B.Reinwald和Y.Sismanis,《走向自动化大规模信息集成和发现》,《互联世界中的数据管理》,柏林斯普林格出版社,2005年,第161-180页。
[37] Y.Sismanis,P.J.Haas和B.Reinwald,GORDIAN:高效且可扩展地发现所有复合密钥,《VLDB诉讼》,韩国首尔,2006年,第691-702页。
[38] J.Gray、S.Chaudhuri、A.Bosworth、A.Layman、D.Reichart、M.Venkatrao、F.Pellow和H.Pirahesh,《数据立方体:广义group-by、crosstab和sub-totals的关系聚合算子》,J Data Min Knowl Discov 1(1997),29-53。
[39] D.Gunopulos、R.Khardon、H.Mannila、S.Saluja、H.Toivonen和R.S.Sharma,《发现所有最具体的句子》,ACM跨数据库系统28(2)(2003),140-174。
[40] A.Deshpande、M.Garofalakis和R.Rastogi,《独立性很好:高维数据基于依赖性的直方图摘要》,载于《SIGMOD学报》,加州圣巴巴拉,2001年,199-210年。
[41] L.Getoor和B.Taskar(编辑),《统计关系学习导论》,麻省理工学院出版社,马萨诸塞州剑桥,2007年·兹比尔1141.68054
[42] S.Babu、P.Bizarro和D.DeWitt,《主动再优化》,《SIGMOD会议记录》,美国马里兰州巴尔的摩,2005年,第107-118页。
[43] C.Chen和N.Roussopoulos,使用查询反馈的自适应选择性估计,《SIGMOD论文集》,明尼苏达州明尼阿波利斯,1994年,161-172。
[44] B.S.Lee、L.Chen、J.Buzas和V.Kannoth,基于回归的对象关系数据库管理系统查询优化器平滑用户定义函数成本的自调整建模,计算J 47(6)(2004)673-693。
[45] Q.Zhu和P.Larson,《为多数据库系统构建回归成本模型》,《IEEE PDIS学报》,佛罗里达州迈阿密海滩,1996年。
[46] Z.He、B.S.Lee和R.R.Snapp,使用内存限制四叉树的自调整UDF成本建模,《EDBT学报》,希腊克里特岛赫拉克利翁,2004年。
[47] N.Zhang、P.J.Haas、V.Josifovski、G.M.Lohman和C.Zhang,用于计算XML查询成本的统计学习技术,《VLDB论文集》,挪威特隆赫姆,2005年,289-300。
[48] R.Gemulla、W.Lehner和P.J.Haas,《在进化多集上保持贝努利样本》,《PODS论文集》,中国北京,2007年,第93-102页。
[49] R.Gemulla、W.Lehner和P.J.Haas,保持进化数据集的有界样本摘要,VLDB J 17(2)(2008),173-202。
[50] P.J.Haas和C.K¨onig,数据库抽样的双层Bernoulli方案,《SIGMOD会议记录》,法国巴黎,2004年,275-286。
[51] P.G.Brown和P.J.Haas,《样本数据入库技术》,《ICDE会议记录》,佐治亚州亚特兰大,2006年。
[52] M.Charikar、S.Chaudhuri、R.Motwani和V.R.Narasayya,《不同值的估算误差保证》,《PODS诉讼》,德克萨斯州达拉斯,2000年,268-279。
[53] P.J.Haas、Y.Liu和L.Stokes,样方抽样物种数量估算,《生物计量学》62(1)(2006),135-141·Zbl 1091.62116号
[54] P.J.Haas和L.Stokes,《估算有限总体中类的数量》,《美国统计协会杂志》93(444)(1998),1475-1487·Zbl 1063.62519号
[55] E.Cohen、N.Grossaug和H.Kaplan,《从样本中处理top-k查询》,《第二届会议论文集-未来网络技术》(CoNext),葡萄牙里斯本,2006年7月·Zbl 1173.68476号
[56] M.Wu和C.Jermaine,猜测数据集中极值的贝叶斯方法,《VLDB学报》,奥地利维也纳,2007年,471-482。
[57] C.-E.S¨arndal、B.Swensson和J.Wretman,《模型辅助调查取样》,纽约斯普林格,1992年·Zbl 0742.62008号
[58] P.G.Brown和P.J.Haas,BHUNT:关系数据中模糊代数约束的自动发现,《VLDB学报》,德国柏林,2003年,668-679。
[59] H.Scheff´e和J.W.Tukey,非参数估计。I.订单统计的验证,Ann Math Stat,16(2)(1945),187-192·Zbl 0060.30511号
[60] J.W.Tukey,非参数估计II。统计等效块和公差区域——连续案例,《数学统计年鉴》18(1947),529-539·Zbl 0029.15502号
[61] I.F.Ilyas、V.Markl、P.J.Haas、P.G.Brown和A.Aboulnaga,《CORDS:相关性和软功能依赖的自动发现》,《SIGMOD学报》,法国巴黎,2004年,647-658。
[62] H.Cram´er,《统计的数学方法》,普林斯顿大学出版社,新泽西州普林斯顿,1948年。
[63] T.R.C.Read和N.A.C.Cressie,《离散多元数据的良好统计》,Springer,纽约,1988年·Zbl 0663.62065号
[64] P.Bruni、T.Berman、J.Iczkovits、B.Soetarman、B.Steegmans和M.Turner,《DB29 for z/OS:查询优化的新工具》,IBM红皮书系列SG24-7421-00,IBM Corporation,纽约阿蒙克,2007年。
[65] S.Chaudhuri和V.Narasayya,查询优化器的自动化统计管理,IEEE Trans Knowl Data Eng 13(1)(2001),7-20。
[66] A.El-Helw、I.F.Ilyas、W.Lau、V.Markl和C.Zuzarte,《收集和维护实时统计数据》,《ICDE会议记录》,土耳其伊斯坦布尔,2007年,第516-525页。
[67] N.Bruno和S.Chaudhuri,利用查询表达式的统计信息进行优化,《SIGMOD论文集》,威斯康星州麦迪逊,2002年,263-274。
[68] K.K.Chen,《db2 9中使用优化配置文件和统计视图进行影响查询优化:用于Linux、UNIX和Windows的DB29中的OptimalqueryperformanceinDB29》,2006年,可在www.ibm.com/developerworks/db2/library/techarticle/dm0612chen上获得。
[69] M.Stillger、G.M.Lohman、V.Markl和M.Kandil,LEO-DB2的学习优化器,《VLDB程序集》,意大利罗马,2001年,第19-28页。
[70] A.Aboulnaga、P.J.Haas、M.Kandil、S.Lightstone、G.Lohman、V.Markl、I.Popivanov和V.Raman,《DB2 UDB中的自动统计数据收集》,《VLDB论文集》,加拿大安大略省多伦多市,2004年。
[71] L.Lim,M.Wang和J.S.Vitter,SASH:动态变化工作负载的自适应直方图集,《VLDB论文集》,德国柏林,2003,369-380。
[72] V.Raman和G.Swart,《如何拧干表格:关系的熵压缩和压缩关系的查询》,《VLDB学报》,韩国首尔,2006年,858-869。
[73] P.J.Haas、F.Hueske和V.Markl,《从查询反馈中检测属性依赖性》,《VLDB论文集》,奥地利维也纳,2007年,第830-841页。
[74] P.B.Gibbons、Y.Matias和V.Poosala,近似直方图的快速增量维护,《VLDB程序集》,希腊雅典,1997年。
[75] V.Poosala和Y.E.Ioanidis,《不考虑属性值独立性假设的选择性估计》,载于《VLDB程序集》,希腊雅典,1997年,第486-495页。
[76] A.Aboulnaga和S.Chaudhuri,《自校正直方图:在不查看数据的情况下构建直方图》,《SIGMOD学报》,宾夕法尼亚州费城,1999年,181-192年。
[77] N.Bruno、S.Chaudhuri和L.Gravano,《STHoles:多维工作负荷感知直方图》,《SIGMOD会议记录》,加州圣巴巴拉,2001年,第211-222页。
[78] U.Srivastava、P.J.Haas、V.Markl和N.Megiddo,《ISOMER:使用查询反馈构建一致直方图》,《ICDE论文集》,佐治亚州亚特兰大,2006年。
[79] E.Amaldi和V.Kann,寻找线性关系的最大可行子系统的复杂性和可逼近性,Theor Comput Sci 147(1-2)(1995),181-210·Zbl 0884.68093号
[80] A.Behm、V.Markl、P.J.Haas和K.Murthy,《将基于查询反馈的统计信息集成到Informix Dynamic Server中》,《英国电信报》,德国亚琛,2007年,582-601。
[81] A.Behm,DB2学习优化器,查询反馈,频繁值和分位数,论文助理,信息技术部,Berufsakademie Stuttgart,2005年。
[82] V.Markl、V.Raman、D.Simmen、G.Lohman、H.Pirahesh和M.Cilimdzic,通过渐进优化实现稳健查询处理,《SIGMOD学报》,法国巴黎,2004年,659-670。
[83] V.Markl、P.J.Haas、M.Kutsch、N.Megiddo和T.M.Tran,通过最大熵进行一致选择性估计,VLDB J 16(1)(2007),55-76。
[84] S.S.Parekh、K.Rose、J.L.Hellerstein、S.Lightstone、M.Huras和V.Chang,《管理行政公用事业的绩效影响》,《DSOM诉讼》,德国海德堡,2003年,第130-142页。
[85] D.A.Cohn、Z.Ghahramani和M.I.Jordan,《统计模型的主动学习》,J Artif Intell Res 4(1997),129-145·Zbl 0900.68366号
[86] B.Bhattacharjee、J.S.Glider、R.A.Golding、G.M.Lohman、V.Markl、H.Pirahesh、J.Rao、R.Rees和G.Swart,《Impliance:A next generation information management appliance》,载于《CIDR诉讼》,加利福尼亚州阿西洛马,2007年,第351-362页。
[87] R.Motwani、J.Widom、A.Arasu、B.Babcock、S.Babu、M.Datar、G.S.Manku、C.Olston、J.Rosenstein和R.Varma,《数据流管理系统中的查询处理、近似和资源管理》,载于《CIDR会议录》,加利福尼亚州阿西洛玛,2003年。
[88] N.N.Dalvi和D.Suciu,《概率数据的管理:基础和挑战》,《PODS会议录》,中国北京,2007年1月12日。
[89] R。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。