你好,游客 登录 注册 发布搜索
背景:
阅读新闻

小文本语料库在Hadoop平台上的存储策略研究

[日期:2014-08-31] 来源:华中师范大学   作者:郑丽洁 [字体: ]

小文本语料库在Hadoop平台上的存储策略研究

华中师范大学 郑丽洁

为了解决小文本语料库在Hadoop平台存储中,出现上述分布式存储与检索速度间的矛盾问题,本文提出了一种新的HSCS(Hadoop Smalltexts Corpus Storage)存储策略。该策略首先使用小文本合并技术在HDFS架构中添加一层Merge_Client,将多个小文本文件合并为目录结构式的大文本文件,有效减少了内存压力和访问DataNode的次数;然后采用小文件检索技术,给合并后的大文本文件添加一个二级索引结构及设计索引记录的数据结构,并且添设一个索引文件阈值,当超过阈值时,使用虚拟内存技术,将使用频率最低的索引文件置换到对换区中,减少文件管理的空间复杂度,从而解决了在合并为目录结构式的大文本文件中,快速检索所需小文本问题,有效提高了小文本的检索速度。最后设计的实验,对比了小文本语料库合并前与合并后的写入速度和文本预处理速度,对比了采用HSCS方法和SequenceFile方法的文本检索速度,以及对比了采用虚拟存储技术后无需置换时与置换时的检索速度。实验结果表明,本文提出的新的HSCS存储策略在处理小文本语料库时是可行有效的。


小文本语料库在Hadoop平台上的存储策略研究

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻       小文本 语料库 Hadoop 存储策略 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款