你好,游客 登录 注册 发布搜索
背景:
阅读新闻

基于Hadoop平台的分布式ETL研究与实现

[日期:2014-08-06] 来源:东华大学   作者:何刚 [字体: ]

基于Hadoop平台的分布式ETL研究与实现

东华大学  何刚

本文作者主要研究和实现的工作如下第一,分布式ETL框架的设计。分析Hadoop平台下的MapReduce工作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分布式ETL框架。第二,事实并行处理的研究。从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法。实验结果表明,与Hive数据仓库相比,两种算法在并行处理数据仓库的事实数据的问题上,具有更高的效率。第三,HDFS数据块分配算法的研究。以网络流最小代价最大流理论为基础,运用改进的最短增广路径的方法求解最大流,以结点的网络距离和负载均衡为代价,提出了一种把HDFS数据块分配到分布式数据仓库的分配算法。通过实验表明,本文提出的分配算法与已有算法相比,前者具有更高的有效性最后本文给出了基于Hadoop平台的分布式ETL系统的实现过程,性能优于目前已存在的分布式ETL系统。


基于Hadoop平台的分布式ETL研究与实现

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻       Hadoop 分布式ETL 研究与实现 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款