你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[CAJ]基于Hadoop的视频爬虫系统的设计与实现

[日期:2014-11-29] 来源:CNKI  作者:邱荷花 [字体: ]

基于Hadoop的视频爬虫系统的设计与实现

华中科技大学 邱荷花

 本文重点研究了Hadoop框架的计算模型MapReduce,以及分布式文件系统HDFS,并分析了分布式爬虫的关键技术,讨论了将Hadoop框架用于分布式爬虫系统的优势。由此设计并实现了基于Hadoop的视频爬虫系统。利用Hadoop框架,实现了一个结点集中管理,多个子结点并行工作的系统架构,同时总结点与子结点的心跳检测机制,有效解决了子结点动态退出的问题。运用MapReduce计算模型实现具体的网页抓取、分析、去重,下载等计算任务,并利用广度优先搜索策略,以及基于磁盘的去重机制,保证了爬虫系统的高效爬行。同时分析如何对URL集进行分区,以保证各爬行结点负载均衡。HDFS分布式文件系统存储各阶段计算任务的结果,以备下个计算任务使用,并运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性。针对目前主流视频网站的视频下载难题,以腾讯等视频网站为例进行详细说明,给出了视频下载的解决方案。 最后,通过配置多个爬行结点,对基于Hadoop的视频爬虫系统进行功能和性能测试,测试结果验证了利用Hadoop架构实现分布式爬虫系统的可行性、高效性。同时对系统中需要继续研究的问题提出了展望。


基于Hadoop的视频爬虫系统的设计与实现

收藏 推荐 打印 | 录入:574107552 | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款