你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[硕士论文]基于MapReduce模型文本分类算法的研究

[日期:2014-03-01] 来源:  作者: [字体: ]

基于MapReduce模型文本分类算法的研究

辽宁大学  杨国营  

随着网络规模的不断扩大和信息量的不断增加,集中式环境文本分类不能满足现有的需要,因此在分布式环境下对大规模数据处理成为当前IT行业关注的焦点。无论是在广告投放,还是在信息检索等领域,都需要对大规模数据处理进行文本分类,因此研究云计算环境下的大规模数据文本分类就成为了焦点。本文就在Hadoop系统平台下,以文本分类为前提,以本文设计的倒排索引树结构为基础,对文本分类算法及其增量算法进行了以下研究。 综上所述:本文的主要研究成果、贡献和创新点可概括以下几点: 1.为了满足特征选择方法的计算速度和文本分类KNN、Bayes等算法以及文本向量维度分布稀松性,本文给出了倒排索引树结构,并在云平台上将倒排索引树结构并行化。 2.结合倒排索引树的结构和文本分类算法,给出了海量数据的倒排索引树构建算法及其剪枝策略,同时也给出了增量倒排索引树算法以及增量倒排索引树并行化设计。 3.基于倒排索引树结构,设计了K-means增量分类算法,并给出了Hadoop平台下该算法分类的并行化设计。 4.根据倒排索引树结构,提出了云计算hadoop平台下基于倒排索引树的朴素贝叶斯分类算法,并给出了该算法的三种改进方法,分别有采用TFIDF权重加权的,互信息加权的,期望交叉熵加权的朴素贝叶斯文本分类算法,同时也给出了基于倒排索引树的局部朴素贝叶斯文本分类算法。 5.搭建hadoop集群进行实验分析,验证了倒排索引树结构及其文本分类改进算法的分类准确率,召回率和分类性能。


基于MapReduce模型文本分类算法的研究

 

 

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款