你好,游客 登录 注册 发布搜索
背景:
阅读新闻

Pivotal和EMC谈下一代数据湖技术:Tachyon + Spark将极为重要

[日期:2014-10-21] 来源:InfoQ  作者: [字体: ]

  在纽约举办的2014年Strata+Hadoop World大会开幕的前一天,Pivotal在官方博客上发布了一篇名为《数据湖(Data Lake)的未来架构:基于Tachyon和Apache Spark的In-memory数据交换平台》的文章,表达Pivotal与EMC对下一代数据湖技术的展望:

  下一代数据湖技术的关键在于In-memory处理的普及+能够在单一环境下支持多重数据分析负载的架构。

  文中表示,Pivotal Big Data Suite一直以来的理念是将数据湖作为企业内所有数据的中心化仓库,这样的好处是可以对所有的数据——无论是内存数据还是磁盘数据——进行SQL级别的处理,同时具有将多种计算范式持久化的能力。然而随着高性能内存的性价比越来越高,内存数据库的相关技术与企业越来越成熟,Pivotal认为未来的数据湖将基于一种组合式的新架构:磁盘存储+内存处理的混合框架。

  Pivotal选择了Tachyon和Spark这两个开源项目作为此新架构的基础。其中,Tachyon作为其内存数据交换平台,而Spark作为内存计算层。文章在末尾处表示,Pivotal相信Tachyon会给HDFS这样的文件存储与内存处理的交互方式带来革命性的变化,并展望Tachyon会成为其Pivotal Big Data Suite的中心数据交换层。

  InfoQ此前对Spark项目有过为数不少的报道和介绍,这个孵化自AMPLab的项目在过去两年间受到业界的广泛关注,被视为实时数据处理的一个优先选项。Tachyon项目也是来自于AMPLab,最早在2012年底对外发布,是一个相对年轻的项目,在最近也受到了越来越多公司的关注,这包括雅虎、红帽、Intel还有EMC——EMC已经在其闪存产品DSSD和Isilon中尝试集成Tachyon,Pivotal的文章中称Tachyon是AMPLab历史上成长最快的项目。

  根据该项目官网的介绍,Tachyon是一个内存分布式文件系统,效果是“在Spark或MapReduce等集群框架中实现内存级速度的跨集群文件共享”。它具有类Java的文件API、兼容Hadoop MapReduce和Spark、底层文件系统可插拔等特性。

  InfoQ中文站针对此事采访了Tachyon项目的领导者、UC Berkeley AMPLab的博士候选人李浩源,沟通内容如下:

  InfoQ:很高兴看到Tachyon得到越来越多的关注。Tachyon是你的博士研究方向,当时为何选择了这样一个课题?

  李浩源:一方面是个人兴趣,一直以来,我对存储有很大的兴趣,因为计算机数据处理流程分为读取、处理分析、以及写入,前后都是都是有存储系统来完成。另一方面是机会,我是3年前加入UC Berkeley AMPLab的,实验室有过很多成功的项目,比如Apache Mesos和Apache Spark,但是它们一个是计算机集群资源调度层,一个是并行计算层,还没有一个存储层的支撑。两方面结合,我就选择了这个课题。

  InfoQ:在Github上看到现在参与Tachyon项目的开发者和企业也有将近50人,你从大家的patch来看,是否感觉各个公司的侧重点有些不同呢?目前项目是如何管理的?

  李浩源:Github上面的统计不是很全面,其实已经有超过60人(其中包括不少来自国内的开发者)为项目提交过代码,并且还有一些比较大的功能在一些公司和科研机构已经内部测试过,正在提交的过程中。

  因为每个公司机构的战略不一样,所以的确侧重点是不一样。比如说,网络硬件公司就会对Tachyon的网络层更加有兴趣,系统集成公司对Tachyon的兼容性更有兴趣。

  从项目管理上来讲,Tachyon有一个比较开放的社区,很高兴可以有更多的开发者加入。目前的流程是比较小规模的改动,开发者会自己提交一个Patch。而对于比较大的功能,开发者和我会有紧密的合作,确保功能和项目的总体方向切合,并有一个初步设计意向。而后社区会对设计和代码提出建议,经过一些轮的改动之后,我会尽快把代码融合(merge)到项目的公共代码库中。

  随着项目的发展,越来越多的公司和机构已经或者开始投入全职员工对项目进行开发,其中包括很多在其领域领先的上市公司,从长期来讲,我们会像Apache Mesos以及Apache Spark一样,进入Apache Software Foundation。这里欢迎更多的开发者加入。

  InfoQ:你以前说过,在学校做东西需要有学术价值,能出论文,但企业则更注重将东西产品化、商业化。现在Tachyon毫无疑问是越来越商业化了,你现在仍然觉得出论文和商业化有很大的差别吗?

  李浩源:‘很大’不一定,但是的确是有区别的,比如我们Tachyon第一篇论文中的内容只是项目中的一个功能,并且有些时候工业界和学术界在项目的上重视点会有差异。项目的工业化在学术的基础上也还需要很大的工作。但是这两个事情在Tachyon这个项目来说是目前来看相辅相成的。

  具体来说,今年以来,项目的使用公司数量在指数增长,根据三个月前的调查,已经有至少50-100家公司在使用Tachyon。更多公司的使用,使得学术机构看到更多的不同的应用案例,从而进行相对应的研究。目前我们实验室内部,以及和其他高校合作,就有不少Tachyon相关的科研工作,明年应该会看到更多的成果。而由于这些科研距离实际案例很近,所以会相对更加容易的增强Tachyon在产业界的应用。

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻       Hadoop World Apache Spark 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款