你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[RAR]大数据环境下Hadoop性能优化的研究

[日期:2013-12-07] 来源:CNKI  作者:曹英 [字体: ]

大数据环境下Hadoop性能优化的研究

大连海事大学   曹英

本文研究的主要内容是:首先对Hadoop的核心技术HDFS和MapReduce的原理进行了研究和分析。分别从名字节点、数据节点、接口、类、调用关系等方面进行详细的研究,并分析了HDFS和MapReduce的工作机制。同时,针对Hadoop目前存在的两个性能问题,在深入研究源码的基础上,提出初步改进方案。其次,对第一个性能问题Hadoop推测执行算法在异构环境中性能较差的问题进行研究和分析,提出改进的算法,该算法根据系统负载的情况自动的调节后备任务的执行,以实现系统负载的均衡;采用Zaharia提出的历史平均剩余完成时间估算剩余时间,并将剩余时间的值大于0.2的方法判断掉队者,进而得到更精确的掉队者队列。新算法在一定程度上提高了异构环境中推测执行的性能。最后,对第二个性能问题DBInputFormat操作关系数据库中的海量数据时所出现的性能缺陷问题进行深入的分析和研究,并对DBInputFormat接口进行改进,提出新的分片策略,构建新接口。该接口在一定程度上提高了Hadoop操作关系数据库的效率,改善了Hadoop读取关系数据库的性能。搭建实验平台,分别对新提出的算法和改进的接口进行实验,经过验证,说明它们在一定程度上都提高了Hadoop性能。 


大数据环境下Hadoop性能优化的研究

收藏 推荐 打印 | 录入:574107552 | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款