你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[PDF]一种基于Hadoop的分布式网络爬虫的研究与设计

[日期:2015-04-14] 来源:中国知网  作者:钱建学 [字体: ]

一种基于Hadoop的分布式网络爬虫的研究与设计

北京邮电大学 钱建学

本论文的主要研究工作包括以下几个方面:网络爬虫研究的背景技术与相关理论。互联网信息的爆发式增长,衍生出了搜索引擎技术,而网络爬虫是搜索引擎的重要组成部分。本论文研究分析了搜索引擎的基本工作原理与关键模块的技术细节,主要是建立搜索索引和搜索结果排序的技术原理。在这些研究的基础上,本论文对网络爬虫的原理进行了分析。对于网络爬虫涉及的一些关键的技术给出了详细的介绍与分析。本论文研究了云计算发展状况与Hadoop分布式平台的主要构成和关键技术,并介绍了云计算的产生与发展现状,详细研究了云计算的关键技术特征。Hadoop分布式平台的主要构成包括HDFS、 MapReduce编程模型和HBase分布式数据库。本论文对于他们的技术细节进行了分析,并着重分析了Hadoop平台作为分布式开发框架的主要特征和优势。本课题完成了分布式网络爬虫的设计实现、部署与测试。在前述技术研究的基础上,本课题研究并设计了基于Hadoop分布式平台的网络爬虫,详细分析了各关键模块的主要功能,以及在MapReduce编程框架下的实现。完成了该网络爬虫在20台服务器组成的小型服务器集群上的部署与测试。最后,本论文通过实验证明这套设计方案切实可行,该设计是使用开源分布式系统的很好地尝试。


一种基于Hadoop的分布式网络爬虫的研究与设计

收藏 推荐 打印 | 录入:574107552 | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款