你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[PDF]基于SparkR的分类算法并行化研究

[日期:2015-06-10] 来源:计算机科学与探索   作者:刘志强 顾荣 袁春风 黄宜华 [字体: ]

基于SparkR的分类算法并行化研究 

刘志强 顾荣 袁春风 黄宜华

近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为SparkR的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于SparkR设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法、支持向量机(support vector machine, SVM)算法和Logistic Regression算法。对于SVM和Logistic Regression算法,在常规的并行化策略的基础上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式。实验结果表明,所设计实现的基于SparkR的并行化分类算法与Hadoop MapReduce的方案相比,速度上提升了8倍左右。


基于SparkR的分类算法并行化研究 

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款