你好,游客 登录
背景:
阅读新闻

几个关于云计算,想问又不好意思提的问题(一)

[日期:2010-03-10] 来源:劳虎的 SOA 空间  作者:tigerhsiao [字体: ]
【本文原发表于2010年1月份的软件世界杂志】
一如前几年曾引领风骚的 IT 趋势,如 SOA,SaaS,对很多业内的人来说,对云计算的心情,就像那句多年前台湾流行的电视广告词,还停留在 “...像恋爱,既期待,又怕受伤害” 的阶段。

一年多下来,在许多云计算的大会和客户交流中,见过一些很有趣的问题。而这些看似根本、却很关键的问题,在各个厂家各说各话的演讲中,往往不是被忽视,就是被预设为理应知道的基础常识。目前多数关于云计算的文章和演讲,往往谈的仍是比较理想化的概念;而一些答疑的文章中,虽然也已经有诸如“云计算的十大误区”和“十五种辨别伪云计算的方式”之类比较有名的文章,但这类文章,一是翻译自国外,其客观环境和上下文与国内仍有区别,加上侧重点和对云计算的定义较为狭隘,因此帮助恐怕有限。个人相信,如果将这些国内用户的问答整理出来,将对于众多正在思索/规划采用云计算的企业来说,多少会有些帮助。这些问题中,又以和虚拟化技术相关的最多。我们知道,云计算不是个单一的“科技”,而是多个先前貌似独立的几个趋势和科技的演进和融合,包括虚拟化、IT 外包、SaaS、数据中心管理自动化、SOA、Web 2.0、服务器硬件商品化、效用计算、分布式计算,网格计算。以下借用“百度知道”的问答形式,把这些很多人好奇的问题,写成几个容易消化的小块。

【待解决】
云计算所采用的虚拟化技术,是不是能将几台小的服务器的CPU、内存,相互共享和利用,组成一个计算能力更强的虚拟大机?

【回答】
不是的,目前的技术达不到这样(或说,近年来的科技发展也没朝这个方向走),例如让一个单进程的应用,直接取用多台机器上集中共享的CPU和内存。

这个耐人寻味的问题,背后其实藏有很深层的意义。之所以会产生这样的疑问,很可能是长期受超级计算机的思维模式所主宰。整个二十世纪的后半,西方科研一直是醉心于如何创建更大,速度更快,成本更低,更牛的超级计算机,来从事更大规模的仿真计算。关注焦点一直集中在计算能力上。但我们知道,几年前在CPU主频的技术提升上,因为散热处理的问题,已经正式“撞墙”,无法继续不断快速向上走,而改采多核并行,横向扩展的成长方式。这迫使着应用软件设计者,必须开始放弃单进程,仰赖摩尔定律不断提升CPU主频计算速度和内存空间来扩展的传统应用架构,转而思索如何利用多线程,分布式,网格,并行计算的方式,才能将这些多核CPU和多台集群服务器的资源充分利用。十年来Java EE、.NET,和稍后Web services的普及,现在重要的企业应用大多已经转到多线程分布式计算的架构上了。

云计算虚拟化的运行和管理模式,采取的方式正是将多台多核服务器集联成一个或数个虚拟的大资源池,根据每台服务器的处理能力,在每台机器上启动、运行若干个虚拟机的镜像(将操作系统及其之上所有需要的进程、应用程序、软件库、数据库、配置文件,都打包进一个大的磁盘镜像文件),并且集中监控管理这些虚拟机的运行,动态在资源池上增减、备份,移动虚拟机实例,来满足高可扩展性、可伸缩性,和高可用性的要求。

另一个现实问题是,近几年以来网络硬件带宽的提升,赶不上互联网和科研仿真数据量爆炸性的增长速度。举个例子,在都是千兆网卡的局域网环境下,两台机器间一天二十四小时最多只能单向传输5个多T的数据量,在许多业务场景的要求下远远不足。因此原有的模式和架构受到很大的挑战,只有跳脱并转换到另一种新的模式 (paradigm shift),才有希望带来更好的解决方案。

正巧,最近微软研究院为了纪念一位三年前不幸在海上失踪的研究同仁,吉姆·格雷 (Jim Gray) 博士和他的贡献,刚在网站出版了一套论文集。格雷博士把他的主张称作“第四种模式” (The Fourth Paradigm)。他观察并总结人类自古以来,在科学研究上,历经了实验(数千年前-描述自然现象)、理论(近几百年-建立模型,概论),计算(近几十年-对复杂的现象进行计算机仿真模拟)三种模式;当数据量不断累积和暴增到今天,需要采取第四种模式-数据探索型:分布于互联网各地的科研数据,能被更高效地汇集,整理,统计,分析,共享,和归档。已经被某些科学家统计、总结和发表的论文数据,可以被其他科学家自由地反向钻探、重组,再利用。这需要从以计算为中心,转到以数据处理为中心的模式。

格雷博士的论点,和云计算的出现,以及 Google 之所以能崛起,其背后所仰赖的核心技术实力,不谋而合。在数据存储和处理上,云计算的主张是,由于互联网行业数据量巨大,用户每天仍不断快速制造新数据,早已没有任何单一存储能够容纳得下一份完整的数据(就算有,其费用和代价往往过于昂贵),因此必须采取分区分布存储的策略;加上网络传输速度无法同步赶上,数据分析和挖掘的工作,也必须以数据为中心,直接在各区数据所在的本地服务器上进行,再将沉淀出的精华汇聚起来,因而有了所谓的 MapReduce 等技术的出现。比较形象的说法,是“移动计算比移动数据的开销更低”,还有“把计算挪到数据所在地”,颠覆了过去把数据先汇集到超级计算中心再处理的方式。


本文仅代表作者个人观点,与甲骨文公司无关。
推荐 打印 | 录入: | 阅读:
本文评论   
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款