你好,游客 登录 注册 发布搜索
背景:
阅读新闻

基于Hadoop的海量小型XML数据文件处理技术的设计和实现

[日期:2014-12-11] 来源:CNKI  作者:孔鑫 [字体: ]

基于Hadoop的海量小型XML数据文件处理技术的设计和实现

西安电子科技大学 孔鑫

本文重点研究了如下内容:1)设计了专门针对海量小数据XML文件进行处理的分布式海量小型XML数据处理系统(Distributed Massive SmallXML files system,DMSX),该系统的主要思想就是将海量小数据XML文件在Hadoop系统中高效的进行处理。2)该系统通过运用生产者-消费模式,多线程并发技术,多级缓存技术等,来提高系统的整体处理能力。3)该系统通过对合并后的文件进行分段存储,在不影响工作模块的同时,高效利用网络资源,与数据处理模块并发进行,从而使系统在处理海量小数据XML时的效率得到提高。 本文对该系统的各个功能模块进行了详细的阐述,并对系统的高效性进行了实验分析。后期通过实际部署、多次测试、平均求值的测试方法,验证了本系统的性能。证明了文中所提出的方法可以有效的提高系统资源利用率和系统响应速度,一定程度上解决了目前Hadoop在处理海量小数据XML文件时的不足。


基于Hadoop的海量小型XML数据文件处理技术的设计和实现

收藏 推荐 打印 | 录入:574107552 | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款