[PDF]基于分布式平台Spark和YARN的数据挖掘算法的并行化研究

基于分布式平台Spark和YARN的数据挖掘算法的并行化研究

中山大学梁彦

本文在Spark平台上实现k-means算法并行化。针对k-means算法的不足，本文使用canopy算法对k-means算法进行优化提高算法效率和聚类结果的准确性，并在Spark平台上实现canopy-kmeans算法的并行化。对基于Spark平台的k-means并行算法和canopy-kmeans并行算法在准确性、加速比、扩展性、与其他平台性能进行了比较。实验结果表明，算法并行化后得到较好的聚类结果，在面对海量数据时有较好的加速比和扩展性。与Hadoop平台比较，基于Spark平台算法并行化效率更高。而Spark平台执行需求资源不同的聚类任务时，在资源管理平台YARN调度任务相较于资源管理平台Mesos有更高的执行任务效率。研究表明，结合Spark+YARN平台实现并行化是可行高效且具有现实意义的。

基于分布式平台Spark和YARN的数据挖掘算法的并行化研究