你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[期刊]基于SparkR的分类算法并行化研究

[日期:2015-07-21] 来源:中国知网  作者:刘志强 顾荣 袁春风 黄宜华 [字体: ]

基于SparkR的分类算法并行化研究

刘志强 顾荣 袁春风 黄宜华

近几年来,大数据机器学习和数据挖掘的并行化算法研究成为大数据领域一个较为重要的研究热点。早几年国内外研究者和业界比较关注的是在 Hadoop 平台上的并行化算法设计。然而, Hadoop MapReduce 平台由于网络和磁盘读写开销大,难以高效地实现需要大量迭代计算的机器学习并行化算法。随着 UC Berkeley AMPLab 推出的新一代大数据平台 Spark 系统的出现和逐步发展成熟,近年来国内外开始关注在 Spark 平台上如何实现各种机器学习和数据挖掘并行化算法设计。为了方便一般应用领域的数据分析人员使用所熟悉的 R 语言在 Spark 平台上完成数据分析,Spark 提供了一个称为 SparkR 的编程接口,使得一般应用领域的数据分析人员可以在 R 语言的环境里方便地使用 Spark 的并行化编程接口和强大计算能力。本文基于 SparkR 设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法, SVM 算法和 Logistic Regression 算法。进一步地,对于 SVM 和 Logistic Regression 算法,本文在常规的并行化策略的基础之上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式。


基于SparkR的分类算法并行化研究

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款