你好,游客 登录
背景:
阅读新闻

如何让Hadoop结合R语言做统计和大数据分析?

[日期:2017-09-01] 来源:  作者: [字体: ]

  R是GNU的一个开源工具,具有S语言血统,擅长统计计算和统计制图。由Revolution Analytics发起的一个开源项目RHadoop将R语言与Hadoop结合在一起,很好发挥了R语言特长。广大R语言爱好者借助强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说无疑是个喜讯。

      R语言

 

  R语言,一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。

  R内建多种统计学及数字分析功能。因为S的血缘,R比其他统计学或数学专用的编程语言有更强的物件导向功能。

  R的另一强项是绘图功能,制图具有印刷的素质,也可加入数学符号。

  虽然R主要用于统计分析或者开发统计相关的软体,但也有人用作矩阵计算。其分析速度可媲美GNUOctave甚至商业软件MATLAB。

  R语言主要应用于统计分析,应用数学,计量经济,金融分析,财经分析,人文科学,数据挖掘,人工智能,生物信息学,生物制药,全球地理科学,数据可视化。

  Hadoop

  Hadoop对于计算机的人,都是耳熟能说的技术了。

  Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

  为什么要让Hadoop结合R语言?

  前面的R语言介绍和Hadoop介绍,让我们体会到了,两种技术在各自领域的强大。很多开发人员在计算机的角度,都会提出下面2个问题。

  问题1: Hadoop的家族如此之强大,为什么还要结合R语言?

  a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。

  b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。

  c.从a和b两点,我们可以看出,hadoop重点是全量数据分析,而R语言重点是样本数据分析。两种技术放在一起,刚好是最长补短!

  d.模拟场景:对1PB的新闻网站访问日志做分析,预测未来流量变化。用R语言,通过分析少量数据,对业务目标建回归建模,并定义指标;用Hadoop从海量日志数据中,提取指标数据;用R语言模型,对指标数据进行测试和调优;用Hadoop分步式算法,重写R语言的模型,部署上线。

  这个场景中,R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路,所有有事情都用Hadoop去做,没有数据建模和证明,"预测的结果"一定是有问题的。以统计人员的思路,所有的事情都用R去做,以抽样方式,得到的"预测的结果"也一定是有问题的。

  所以让二者结合,是产界业的必然的导向,也是产界业和学术界的交集,同时也为交叉学科的人才提供了无限广阔的想象空间。

  问题2:Mahout同样可以做数据挖掘和机器学习,和R语言的区别是什么?

  a.Mahout是基于Hadoop的数据挖掘和机器学习的算法框架,Mahout的重点同样是解决大数据的计算的问题。

  b. Mahout目前已支持的算法包括,协同过滤,推荐算法,聚类算法,分类算法,LDA,朴素bayes,随机森林。上面的算法中,大部分都是距离的算法,可以通过矩阵分解后,充分利用MapReduce的并行计算框架,高效地完成计算任务。

  c. Mahout的空白点,还有很多的数据挖掘算法,很难实现MapReduce并行化。Mahout的现有模型,都是通用模型,直接用到的项目中,计算结果只会比随机结果好一点点。Mahout二次开发,要求有深厚的JAVA和Hadoop的技术基础,最好兼有 "线性代数","概率统计","算法导论"等的基础知识。所以想玩转Mahout真的不是一件容易的事情。

  d. R语言同样提供了Mahout支持的约大多数算法(除专有算法),并且还支持大量的Mahout不支持的算法,算法的增长速度比mahout快N倍。并且开发简单,参数配置灵活,对小型数据集运算速度非常快。

  虽然,Mahout同样可以做数据挖掘和机器学习,但是和R语言的擅长领域并不重合。集百家之长,在适合的领域选择合适的技术,才能真正地"保质保量"做软件。

 

  如何让Hadoop结合R语言?

  Hadoop和R语言是可以互补的,但所介绍的场景都是Hadoop和R语言的分别处理各自的数据。

  一旦市场有需求,自然会有商家填补这个空白。

  1)RHadoop

  RHadoop是一款Hadoop和R语言的结合的产品,由RevolutionAnalytics公司开发,并将代码开源到github社区上面。RHadoop包含三个R包 (rmr,rhdfs,rhbase),分别是对应Hadoop系统架构中的,MapReduce,HDFS, HBase三个部分。

  2)RHive

  RHive是一款通过R语言直接访问Hive的工具包,是由NexR一个韩国公司研发的。

  3)重写Mahout

  用R语言重写Mahout的实现也是一种结合的思路,我也做过相关的尝试。

  4)Hadoop调用R

  上面说的都是R如何调用Hadoop,当然我们也可以反相操作,打通JAVA和R的连接通道,让Hadoop调用R的函数。但是,这部分还没有商家做出成形的产品。

  R和Hadoop在实际中的案例

  R和Hadoop的结合,技术门槛还是有点高的。对于一个人来说,不仅要掌握Linux,Java, Hadoop, R的技术,还要具备软件开发,算法,概率统计,线性代数,数据可视化,行业背景的一些基本素质。

  在公司部署这套环境,同样需要多个部门,多种人才的的配合。Hadoop运维,Hadoop算法研发,R语言建模,R语言MapReduce化,软件开发,测试等等,因此这样的案例很少。

  展望未来

  对于R和Hadoop的结合,在近几年,肯定会生成爆发式的增长的。但由于跨学科会造成技术壁垒,人才会远远跟不上市场的需求。

  所以,肯定会有更多的大数据工具,被发明!机会就在我们的手中,也许明天你的创新,就是我们追逐的方向!

推荐 打印 | 录入:Cstor | 阅读:
相关新闻      
本文评论   
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款