你好,游客 登录 注册 发布搜索
背景:
阅读新闻

基于Hadoop的OA期刊论文资源发现及采集方法

[日期:2014-03-09] 来源:  作者: [字体: ]

基于Hadoop的OA期刊论文资源发现及采集方法

燕山大学  杜宝瑞

互联网上大量OA期刊论文资源属于深层Web(DeepWeb)资源,传统的搜索引擎不能对其有效地建立索引,用户在检索时很难得到期望的OA期刊论文资源。解决该问题的一条有效途径就是实现互联网上OA期刊论文资源的集成整合,并为用户提供一个统一、透明的检索服务接口,而OA期刊论文资源的发现和采集则是其重要环节。针对海量OA期刊论文资源的处理,分布式存储和并行机制可大大提高其效率。基于Hadoop的分布式文件系统(HDFS)和并行机制(MapReduce)是目前处理海量信息的一种可行平台,本文基于Hadoop实现了OA期刊论文资源的发现和采集。本文主要做了以下研究。首先,针对传统搜索引擎不能有效索引OA期刊论文资源的问题,设计了一种基于Hadoop的OA期刊论文资源的采集系统。首先设计了该采集系统的总体框架、总体模块和总体流程;然后详细介绍了各个主要模块的功能及其工作流程。其次,通过对期刊站点内论文资源访问方式的研究,提出一种面向OA期刊站点的论文资源发现方法。该方法首先通过提取OA期刊站点的首页特征构建C4.5决策树;然后利用决策树对期刊站点进行分类;最后针对这两类OA期刊站点分别提出一种论文资源发现算法,并将论文资源信息保存到论文信息资源库文件。再次,针对构建OA期刊知识元数据仓储的需求,提出一种面向OA期刊站点的论文采集方法。该方法首先通过解析论文信息资源库文件获取论文的下载信息和下载参数;然后利用HTTP协议下载期刊论文文件;最后根据阈值将下载的多个论文小文件打包成Sequence大文件,并上传到HDFS。最后,实现了基于Hadoop的OA期刊论文资源采集的原型系统,并通过原型系统进行了试验验证。


基于Hadoop的OA期刊论文资源发现及采集方法

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻       Hadoop 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款