跳到主要内容
文章

用两级数据分段方法优化ETL

发布时间:2016年7月1日出版历史记录
跳过抽象节

摘要

在数据仓库中,源系统中的数据通过提取、转换和加载ETL填充到中央数据仓库DW中。标准ETL方法通常使用顺序作业来处理具有相关性的数据,例如维度和事实数据。处理无序到达的所谓早/晚到达数据是一项非常重要的任务。本文提出了一种两级数据分段区域方法来优化ETL。该方法是一种一体式解决方案,支持处理来自操作系统的不同类型的数据,包括早/晚到达数据和快/慢变化数据。引入的附加暂存区域将加载过程与数据提取和转换解耦,从而提高ETL的灵活性,并将对数据仓库的干预降至最低。本文对提出的方法进行了实证评估,结果表明,与标准ETL方法相比,该方法效率更高,侵入性更低。

工具书类

  1. 贝伦德。JörgT.2010年。用于维护数据仓库的优化增量ETL作业。过程中。想法。10.1145/1866480.1866511谷歌学者谷歌学者
  2. Bliujute,R.、Saltenis,S.、Slivinskas,G.和Jensen,C.S.1998年。维度数据仓库中的系统变更管理。时间中心技术报告TR-23。谷歌学者谷歌学者
  3. Casters,M.、Bouman,R.和Dongen,J.V.,2010年。Pentaho Kettle Solutions:使用Pentaho-数据集成构建开源ETL解决方案。约翰·威利父子公司。谷歌学者谷歌学者
  4. 库佐克雷亚。费雷拉。FurtadoP公司。2014.利用实时功能增强传统数据仓库体系结构。过程中。ISMIS,第456-465页。10.1007/978-3-319-08326-1_46谷歌学者谷歌学者
  5. Dean,J.和Ghemawat,S.2008年。MapReduce:简化大型集群上的数据处理。ACM通信,511107-113。谷歌学者谷歌学者数字图书馆数字图书馆
  6. 设计提示57:提前到达的事实。n.d.检索自www.kimballgroup.com/2004/08/design-tip-57-early-arriving-facts谷歌学者谷歌学者
  7. Garcia Molina,H.、Labio,W.J.、Wiener,J.L.和诸葛,Y.1998。数据仓库中的分布式和并行计算问题邀请演讲。过程中。SPAA/PODC。谷歌学者谷歌学者
  8. Inmon,W.H.2002年。构建数据仓库。约翰·威利父子公司。谷歌学者谷歌学者
  9. Inmon,W.H.2003年。全球数据仓库中的记录系统。信息与管理。谷歌学者谷歌学者
  10. Kimball,R.和Caserta,J.,2004年。数据仓库ETL工具包:提取、清理、一致性和交付数据的实用技术。威利。谷歌学者谷歌学者
  11. Li,H.,&Zhan,D.2005年。工作流定时关键路径优化。《自然与科学》,32,65-74。谷歌学者谷歌学者
  12. 刘克斯。伊夫蒂哈尔,2015年。使用分区和并行的ETL优化框架。过程中。SAC,第1015-1022页。10.1145/2695664.2695846谷歌学者谷歌学者
  13. Liu,X.,Thomsen,C.,&Pedersen,T.B.,2011年。ETLMR:一个基于MapReduce的高度可扩展的维度ETL框架。过程中。达瓦克出版社,第96-11页。谷歌学者谷歌学者
  14. 刘克斯。汤姆森C。佩德森。B.2011年。基于ETLMR MapReduce的ETL框架。SSDBM,第586-588页。谷歌学者谷歌学者
  15. Liu,X.、Thomsen,C.和Pedersen,T.B.,2012年。基于MapReduce的Dimensional ETL变得简单。PVLDB,5121882-1885年。谷歌学者谷歌学者数字图书馆数字图书馆
  16. 刘克斯。汤姆森C。佩德森。B.2014年。CloudETL:用于Hive的可扩展维度ETL。过程中。IDEAS,第195-206页。谷歌学者谷歌学者
  17. 2007年3月,S.T.和Hevner,A.R。综合决策支持系统:数据仓库视角。决策支持系统,433,1031-1043。谷歌学者谷歌学者数字图书馆数字图书馆
  18. 奥尔斯顿。ReedB。斯利瓦斯塔瓦。库马尔·汤金森。2008年。猪拉丁语:数据处理的非外语。过程中。SIGMOD,第1099-1110页。10.1145/1376616.1376726谷歌学者谷歌学者
  19. 宾塔荷州。2015年检索自http://wiki.pentaho.com/display/EAI/eradata+TPT+插入+更新+散装+装载机谷歌学者谷歌学者
  20. Simitsis,A.、Vassiliadis,P.和Sellis,T.,2005年。ETL工作流的状态空间优化。蒂克德,1710年,1404-1419年。谷歌学者谷歌学者
  21. 西米西亚。瓦西里亚迪斯。塞利斯T。2005年优化数据仓库中的ETL流程。过程中。第564-575页。谷歌学者谷歌学者
  22. 西米西亚。威尔金森。卡斯特拉诺斯姆。DayalU公司。2009年,QoX驱动的ETL设计:降低ETL咨询服务的成本。过程中。SIGMOD,第953-960页。10.1145/1559845.1559954谷歌学者谷歌学者
  23. Thomsen,C.,&Pedersen,T.B.,2009年。商业智能开源工具调查。国际数据仓库和挖掘杂志,53,56-75。谷歌学者谷歌学者交叉引用交叉引用
  24. 汤姆森C。佩德森。B.2011年。简单有效的并行可编程ETL。过程中。DOLAP,第37-44页。谷歌学者谷歌学者
  25. 汤姆森。佩德森。B.莱纳W。2008年。RiTE:为适时数据仓库提供按需数据。过程中。ICDE,第456-465页。10.1109/icd.2008.4497454年10月10日谷歌学者谷歌学者
  26. Thusoo,A.2009年。Hive:基于Map-Reduce框架的仓储解决方案。PVLDB,22,1626-1629。谷歌学者谷歌学者数字图书馆数字图书馆
  27. TPC-H.2015年。检索自http://tpc.org/tpch/谷歌学者谷歌学者

建议

评论

登录选项

请检查您是否可以通过登录凭据或您的机构访问此文章以获得完全访问权限。

登录

完全访问权限

  • 文章指标

    • 下载次数(过去12个月)0
    • 下载次数(最近6周)0

    其他指标