你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[硕士论文]基于hadoop的微博文本分类及商业词抽取

[日期:2013-10-18] 来源:CNKI  作者:陈应友 [字体: ]

基于hadoop的微博文本分类及商业词抽取

杭州电子科技大学  陈应友

本文对传统的TF-IDF算法进行了相关改进,利用hadoop云计算平台并以单个用户的所有微博信息作为计算单元应用改进的TF-IDF算法,再综合词语在互联网搜索引擎中的搜索权值进行调权,实现了从海量数据中对具有商业价值关键词的有效抽取。实验表明,该微博分类方法在微博信息的分类中取得了较好的效果,在微博数据处理应用场景中,综合了改进的TF-IDF权重及词语互联网搜索权重的商业关键词抽取算法,具有较好的适用性及商业效果。而结合了云计算平台后,一定程度上提高了数据处理效率,使得对海量微博数据集上的处理变得可行有效。


基于hadoop的微博文本分类及商业词抽取

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻       Hadoop 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款