你好,游客 登录 注册 发布搜索
背景:
阅读新闻

分布式JS解析系统的设计与构建

[日期:2014-06-21] 来源:北京交通大学   作者:黄维 [字体: ]

分布式JS解析系统的设计与构建

北京交通大学 黄维

该论文主要包括两个研究方向:首先是对网页中存在的JavaScript进行有效的提取和解析;然后结合Hadoop分布式计算技术,在深入分析现有任务调度算法、结合本系统实际情况的基础之上,设计本系统在分布式计算环境中的任务调度算法,合理的进行JavaScript解析任务调度,实现对页面中包含的JavaScript片段的高效解析。通过对JavaScript语法规则和其在网页中的存在形式的研究,设计了JavaScript的提取流程和算法,然后借鉴浏览器解析JavaScript的方法,使用JavaScript解析引擎,构造JavaScript解析环境来实现第一模块。通过对现有Map/Reduce任务调度算法的研究、分析和对比,并结合JavaScript解析任务的具体特点和分布式集群的环境,探究最适合本系统的Map/Reduce任务调度算法。对JavaScript解析任务进行合理调度,然后搭建计算机集群,对设计的分布式JavaScript解析系统进行构建。最后对分布式JS解析系统进行测试,对其应用性能和解析准确性进行验证,并且总结系统的不足,提出后续改进意见。本文实现的分布式系统能够对网页中存在的大量JavaScript进行高效、快速的解析。实验结果表明,本系统能够对网页中JavaScript片段内包含的文本文字和超链接内容进行高效、准确的提取和解析。从而,本文的研究和实现工作能够为搜索引擎、舆论分析、数据采集等领域提供更高效可靠的技术支持。


分布式JS解析系统的设计与构建

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻       JavaScript Hadoop 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款