你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[硕士论文]云计算环境下的多数据集连接优化

[日期:2014-02-23] 来源:  作者: [字体: ]

云计算环境下的多数据集连接优化

郑州大学   周梦雪  

“大数据”时代的到来,加快了云计算技术的发展和推广,众多涉及海量数据处理的云平台蓬勃涌现。云计算技术已逐步发展成熟,并深入人们生活、工业和研究的各个方面。MapReduce是一种已广泛运用到云计算数据处理的并行编程模型,如何使得MapReduce支持关系模型数据库进行复杂的数据处理已吸引不少企业界和学术界的研究。 在大规模数据分析中,复杂处理要求越来越多,数据连接、查询信息往往跨越多个数据集。现有的基于MapReduce的多表连接机制多采用串行级联方式实现,将多表连接分为多次两表连接。该模式产生大量的中间数据,需要进行多次数据传输,效率较低。因此,改善多表连接方式、提高多表连接效率成为基于MapReduce数据处理研究的一个亟待解决的问题。 本文首先介绍了云计算的相关技术、Hadoop平台、HDFS和MapReduce编程模型,然后在此基础上分析云环境中多数据集连接的实现和研究现状,并提出基于二维节点矩阵的分级多表连接模型TD-HMJ (Two-Dimension node matrix based Hierarchized Multi-Join)。 TD-HMJ首先设置key, value对中key为元组结构,通过一次Map过程处理所有连接属性;然后建立二维Reduce节点矩阵,以一对一或一对多的方式传输中间结果;再进行多组3(2)表并行连接;最后通过多级Reduce过程实现多组间连接。实验表明:TD-HMJ有效减少了多表并行连接时的数据传输量,缩短了多表连接时间,提高了连接效率。


云计算环境下的多数据集连接优化

收藏 推荐 打印 | 录入:574107552 | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款