你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[硕士论文]云环境下基于RIHDBSCAN的微博事件检测及跟踪

[日期:2015-03-30] 来源:CNKI  作者: 韩楠 [字体: ]

云环境下基于RIHDBSCAN的微博事件检测及跟踪 

重庆大学 韩楠

云计算技术是未来的趋势,它能够高效的完成海量数据的存储和计算任务,将云计算技术和微博挖掘结合起来势在必行。论文设计了一套完整的云环境下的微博事件检测跟踪模型。主要研究及创新点如下: ①制定机械化过滤规则,将抓取的微博文本按规则进行过滤,有效提高后续处理的效率。 ②在传统TF-IDF算法的基础上,提出动态权值计算方法FCF-DIDF。该算法基于微博转发数和评论数,能够有效改善TF-IDF算法的不足,并考虑到微博文本集规模的不断增加,适合处理微博短文本。 ③基于DBSCAN算法,提出基于代表点的增量层次密度聚类算法(RIHDBSCAN)。该算法分为三个步骤:生成初始簇、初始簇合并、选出代表点。算法执行过程中只需要选取部分对象进行核心点检测,大大降低了I/O开销,屏蔽了数据输入顺序敏感性。RIHDBSAN算法在每轮事件检测聚类算法执行结束后,选出代表点组参与下轮的增量聚类,并通过增量聚类中簇结构和关键词变化追踪事件的发展轨迹。 ④针对单一节点处理海量微博数据面临困境,将算法部署在Hadoop云计算平台上。


云环境下基于RIHDBSCAN的微博事件检测及跟踪

收藏 推荐 打印 | 录入:574107552 | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款