你好,游客 登录 注册 发布搜索
背景:
阅读新闻

基于Hadoop MapReduce的分布式数据流聚类算法研究

[日期:2014-10-30] 来源:信息工程大学学报  作者:蔡斌雷 任家东 朱世伟 郭芹 [字体: ]

基于Hadoop MapReduce的分布式数据流聚类算法研究

蔡斌雷 任家东 朱世伟 郭芹

随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC-Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。


基于Hadoop MapReduce的分布式数据流聚类算法研究

 

 

 

收藏 推荐 打印 | 录入:574107552 | 阅读:
本文评论   查看全部评论 (1)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
第 1 楼
匿名 发表于 2014-11-1 11:31:13
111