你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[PDF]基于分布式平台Spark和YARN的数据挖掘算法的并行化研究

[日期:2015-03-09] 来源:CNKI  作者:梁彦 [字体: ]

基于分布式平台Spark和YARN的数据挖掘算法的并行化研究

中山大学  梁彦

本文在Spark平台上实现k-means算法并行化。针对k-means算法的不足,本文使用canopy算法对k-means算法进行优化提高算法效率和聚类结果的准确性,并在Spark平台上实现canopy-kmeans算法的并行化。对基于Spark平台的k-means并行算法和canopy-kmeans并行算法在准确性、加速比、扩展性、与其他平台性能进行了比较。实验结果表明,算法并行化后得到较好的聚类结果,在面对海量数据时有较好的加速比和扩展性。与Hadoop平台比较,基于Spark平台算法并行化效率更高。而Spark平台执行需求资源不同的聚类任务时,在资源管理平台YARN调度任务相较于资源管理平台Mesos有更高的执行任务效率。研究表明,结合Spark+YARN平台实现并行化是可行高效且具有现实意义的。

 

基于分布式平台Spark和YARN的数据挖掘算法的并行化研究

收藏 推荐 打印 | 录入:574107552 | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款