你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[RAR]基于抽样分区解决MapReduce中的数据倾斜问题

[日期:2014-01-12] 来源:CNKI  作者:邹鹏 [字体: ]

基于抽样分区解决MapReduce中的数据倾斜问题

大连理工大学   邹鹏

MapReduce作为当今一种处理分布式海量数据的工具,由于其“易扩展”、“容错性高”、“价格低廉”等优点已被广泛应用到很多领域。但是由于设计时采用的key值统一分配到Reduce端的算法,当处理数据存在倾斜会导致处理数据分布不平衡从而产生“短腿”作业,最终影响整体的运行效果。当今解决这个问题主要都是采用异步Map和Reduce方法提前收集key值的分布情况,然后制定分配方案,但是这样会浪费很多时间。论文将研究在数据倾斜时,如何高效的分配中间key值保证Reduce端数据的平衡。利用专门的抽样程序统计key值的整体频率分布情况,提前制定分配策略。然后论文将分配策略应用到Map到Reduce的分配过程中。这种设计不仅能提供一种平衡的数据分配模式,而且能提高MapReduce同步性能。对抽样方式提供了两种方案:分段组合优化和分段分割优化。实验的结果显示,第一种方法适合数据比较少的情况,当数据倾斜严重时第二种方法使数据更平衡更节省整体运行时间。


基于抽样分区解决MapReduce中的数据倾斜问题

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款