你好,游客 登录 注册 发布搜索
背景:
阅读新闻

Cascading——针对Hadoop MapReduce的数据处理API

[日期:2014-04-10] 来源:Hadoop  作者: [字体: ]

        Cascading API的核心概念是管道和流。所谓管道,就是一系列处理步骤(解析、循环、过滤等等),这些步骤定义了将要进行的数据处理,而流就是带有数据源与数据接收 器(data-sink)的管道的联合。 Cascading是一个新式的针对Hadoop clusters的数据处理API,它使用富于表现力的API来构建复杂的处理工作流,而不是直接实现Hadoop MapReduce的 算法。

        该 处理API使开发者可以快速装配复杂的分布式流程,而无需“考 虑”MapReduce。 同时还可以基于流程之间的依赖及其它元数据信息来有效地进行调度。 Cascading API的核心概念是管道和流。所谓管道,就是一系列处理步骤(解析、循环、过滤等等),这些步骤定义了将要进行的数据处理,而流就是带有数据源与数据接收 器(data-sink)的管道的联合。换句话说,流就是有数据通过的管道。再进一步,cascade就是多个流的链接、分支和分组。 该API提供了很多关键特性:

        基于依赖的“拓扑调度 (Toplogical Scheduler)”及MapReduce规 划——这是cascading API的两个关键组件,它们可以基于依赖对流的调用进行调度;因为其执行顺序独立于构造顺序,这样就可以对部分流和cascades进行并发调用。此外, 各种流的步骤被智能地转换成对应于hadoop cluster的map-reduce调用。 事件通知——流的各种步骤可以通过回调进行通知,以此告诉主机应用去报告和响应数据处理的过程。 脚本化——Cascading API有针对Jython、Groovy和JRuby的脚本化接口——这使其适合于常见的动态JVM语言

收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款