你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[硕士论文]基于Spark平台的CURE算法并行化设计与应用

[日期:2015-04-06] 来源:CNKI   作者:邱荣财 [字体: ]

基于Spark平台的CURE算法并行化设计与应用

华南理工大学 邱荣财

本文首先对Spark平台做了详细的分析,同时对数据挖掘算法进行了分析和总结。其次,本文将聚类算法中的CURE算法进行了改进,提出了具有分散式代表点选择算法选择代表点的ACURE算法,使得选择的代表点比原有的CURE算法更加的分散,进一步改善了聚类效果。然后在Spark平台上进行了ACURE算法的数据并行和任务并行的并行化实现研究,并比较了两种并行模式的不同,得出了两者不可同时并行化、采取数据并行化更有优势的结论,同时比较了数据并行时,分区对ACURE算法的影响,并且比较了单机处理和Spark并行化处理的性能。然后将基于Spark的ACURE算法应用在移动互联网大数据的数据挖掘中,对移动互联网用户的上网行为的聚类结果和K-means的聚类结果进行了对比,得出了ACURE算法在聚类效果上更符合实际的结论,最后对移动互联网用户数据在时间、兴趣、消费水平等方面进行了深入的挖掘,为个性化推荐提供了丰富的用户内容。


基于Spark平台的CURE算法并行化设计与应用

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻       聚类算法;并行化;Spark; 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款