你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[期刊]基于MapReduce的多元连接优化方法

[日期:2015-07-23] 来源:计算机研究与发展  作者:李甜 于戈 郭朝鹏 宋杰 [字体: ]

基于MapReduce的多元连接优化方法

李甜 于戈 郭朝鹏  宋杰

多元连接是数据分析最常用的操作之一, MapReduce 是广泛用于大规模数据分析处理的编程模型, 它给多元连接优化带来新的挑战:传统的优化方法不能简单地适用到 MapReduce 中; MapReduce 连接执行算法尚存优化空间。针对前者, 考虑到 I/O 代价是连接运算的主要代价,本文首先以降低 I/O 代价为目标提出一种启发式算法确定多元连接执行顺序,并在此基础上进一步优化,最后针对 MapReduce 设计一种并行执行策略提高多元连接的整体性能。针对后者, 考虑到负载均衡能够有效减少 MapReduce 的“木桶效应”,本文通过任务公平分配算法提高连接内部的并行度,并在此基础上给出 Reduce 任务个数的确定方法。


基于MapReduce的多元连接优化方法

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款