你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[硕士论文]基于块聚集的MapReduce性能研究与优化

[日期:2014-06-04] 来源:北京交通大学   作者:李俊 [字体: ]

基于块聚集的MapReduce性能研究与优化

北京交通大学 李俊

 

本文从文件系统(HDFS)和分布式并行计算框架(MapReduce)相结合的角度出发,提出了基于块聚集的自适应分片算法,使集群的任务分配机制按照作业的实际数据量、数据文件个数和作业可用计算资源等因素自行确定分片的大小,并使数据以分片为单位在节点上聚集性存储。该算法保证了不同数据量作业的并行度,并适当降低了大数据量作业的map任务个数,减少了作业运行过程中初始化任务的开销和控制节点的压力,从而有效地提高了集群的运行性能。当前Hadoop在实现上假定集群中的所有节点的计算能力是相同的,并假定大部分map任务的数据都存储在本地磁盘上,在实际执行map任务的时候数据的本地性并没有得到很好的体现。这使得异构Hadoop集群的运行性能极端低下。本文也针对这一问题展开讨论,并提出根据集群节点的实际计算能力和输入数据的实际大小计算作业的分片大小,同时将分片内的数据按照节点计算能力进行集聚性存储,提高异构集群的数据本地性。实验证明优化后的Hadoop在异构集群中能够更加高效的运行计算任务。

 

基于块聚集的MapReduce性能研究与优化

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻       MapReduce 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款