你好,游客 登录
背景:
阅读新闻

MapReduce:大规模集群上的简化数据处理

[日期:2011-04-12] 来源:  作者:俞立 译 [字体: ]

下载英文原文:http://www.chinacloud.cn/download/pdf/mapreduce1.pdf

下载中文译文:http://www.chinacloud.cn/download/pdf/mapreduce2.doc

(感谢俞立辛勤地高质量翻译此文)

 

摘要:

     MapReduce是一个与处理以及生成大量数据集相关联的程序模型。 用户通过定义一个map函数,处理键值对以生成一个中间键值对的集合, 以及一个叫做reduce的函数用以合并所有先前map过后的有相同键的中间量。现实世界中的许多任务在这个模型中得到了很好的表达,如下文所述。

 

      程序员用这种风格的程序写出的代码可以自动并行以及在商用极其上大规模的处理数据。运行时系统关注输入数据的分区,通过一系列机器的集合来规划程序的执行, 处理程序失效以及把控必要的系统内部交互。这个框架的优势在于使得程序员无需任何并行与分布式系统的经验就可以容易的掌控大型分布式系统的资源。

 

     我们的MapReduce的实现是运行在商用机器的大规模集群之上,且拥有高可扩展性:一个典型的MapReduce运行场景是在数千台机器上处理TB级数据。程序与系统易于使用:数百个MapReduce程序实施了数千份的MapReduce的每天都运行于谷歌集群之上job

推荐 打印 | 录入: | 阅读:
相关新闻      
本文评论   
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款