你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[CAJ]基于Hadoop的分布式文件系统优化技术研究

[日期:2014-03-08] 来源:CNKI  作者: 张得震 [字体: ]

基于Hadoop的分布式文件系统优化技术研究

兰州交通大学   张得震

本文采用GlusterFS作为云平台的分布式文件系统,GlusterFS是一个适用于微机的分布式文件系统。本文首先要实现GlusterFS与Hadoop的核心模块Common的连接,这点的实现本文利用了GlusterFS自身的Translator机制,该机制能够实现所有GlusterFS的扩展功能。利用Translator中的库函数连接Hadoop的Common核心,获取相应存储权限并定义了org.apache.hadoop.fs.glusterfs类,然后创建符合GlusterFS数据格式的数据流并采用FUSE(Filesystem in Userspace)方式将GlusterFS挂载到了Hadoop中,从而替代了Hadop中自身的分布式文件系统HDFS(Hadoop Distributed File System)。这样就能避开HDFS的缺陷,利用GlusterFS的优点提升Hadoop整体的云计算性能。该方案实现的优化平台采用了Infiniband与RDMA(Remote Direct Memory Access)协议结合的传输网络,该网络能保证Hadoop不会受到网络带宽和速率的限制,进一步提高了Hadoop的性能;根据系统中网络拥塞情况,采用了一个判断函数来决定是否在当前网络中采用数据压缩以节省网络的带宽,进一步提升了Hadoop的数据传输速率;针对当前GlusterFS的数据缓存算法考虑的不是很全面,采用了GAC(GlusterFS AutomaticCache Algorithm)数据缓存算法,该算法先对当前数据的顺序性进行有无判断,再对有顺序性的数据进行强弱判断,针对强顺序性的数据采用预读粒度计算公式计算当前预读粒度的大小,这样可以通过合理的预读来提升Hadoop的文件系统性能。这一系列的优化措施较大的提升了Hadoop平台中分布式文件系统的性能。本文通过在Hadoop平台上的测试,证明了本文的优化Hadoop系统在分布式文件系统方面性能提高了10倍左右,网络性能提高了3倍以上,Hadoop平台云计算性能提高了2倍以上。 


基于Hadoop的分布式文件系统优化技术研究

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻       Hadoop 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款