WAMDM的全称是"Web And Mobile Data Management"(即网络与移动数据管理实验室), 它是孟小峰教授所领导的一个研究型实验室。WAMDM实验室进行数据库相关的研究已经有许多年了,是国内最好的数据库研究小组之一。实验室的科研项目涵盖网络数据管理、XML数据管理,以及移动数据管理。
云计算(cloud computing)是一项正在兴起中的技术。它的出现,有可能完全改变用户现有的以桌面为核心的使用习惯,而转移到以Web为核心,使用Web上的存储与服务。人类有可能因此迎来一个新的信息化时代!
但是,云计算绝不仅仅是一个计算的问题,它需要融合许许多多的技术与成果。现有的许多研究问题将来必然是云计算的一部分,例如WAMDM实验室目前正在开展的多项研究:Web数据集成、个人数据空间管理、数据外包服务、移动路网上的研究以及隐私问题的研究,都会成为未来云计算的重要组成部分。
本专题通过云计算介绍以及相关研究问题的讨论,向大家展示WAMDM实验室同学对于云计算的思考。



“云计算”越来越成为人们所关注的一个名词,因为它代表了信息时代的未来。
那么,什么是云计算?云计算有什么用处?它将如何改变整个世界?……一连串的问题等待解答。虽然,很多问题现在或许没有完整的答案,但是,本文试图通过分析云计算的起源以及云计算与网格计算、Web2.0之间的关系,来阐述云计算的历史、发展与未来。
一、两个故事
我们先通过两个故事来了解什么是云计算:
故事一:Tom是一家公司的员工,某天公司派Tom去伦敦出差。那么,Tom想要了解他所乘坐的航班信息,从他住所到机场的最佳路线以及伦敦最新的天气以及住宿信息等。在未来,所有的这些信息都可以通过云计算来提供!云计算将与各种各样的终端(例如个人电脑、PDA、手机、电视等)进行连接,为用户提供广泛、主动、高度个性化的服务。 故事二:Bob是这家公司的另一个员工,不过公司并没有派他出差,于是他照常到公司上班。到了公司,他打算管理一下自己最近的任务,于是他可以通过Google Calendar来管理自己最近的日程安排;整理完日程,Bob可以通过Gmail收发邮件,通过GTalk来与同事朋友进行联系;如果他这时打算开始工作,可以通过Google Docs来编写在线文档,在这个过程中,如果他需要查阅相关论文,可以通过Google Scholar进行搜索,他可以也可以使用Google Translate翻译一些英文,他甚至可以使用Google Charts来绘制一些图表;如果Bob工作累了,他可以通过Google Blogger来分享日志,通过Google的YouTube来分享视频,通过Google的Picasa来编辑分享图片。
或许有一天,当我们已经十分习惯使用Google所提供的每一项服务时,蓦然发现我们的生活已经处在云计算的时代!
二、云计算产生的背景
通过上面的故事,或许大家已经对云计算已经有一些朦胧的认识,并且隐隐约约地感觉到云计算与网格计算之间存在一定联系。实际上,云计算确实不能算是一个全新的概念,但是,它却将是一项颠覆性的技术。
在计算机产生后的相当长的一段时间内,计算机网络都还处于一个黑暗时代。但是到了上世纪90年代以后,网络出现了爆炸式发展,随即进入了网络泡沫时代。在21世纪初期,正当互联网泡沫破碎之际,Web2.0的兴起,让网络迎来了一个新的发展高峰期。
在这个Web2.0的时代,Flickr、MySpace、YouTube等网站的访问量,已经远远超过传统门户网站。用户数量多以及用户参与程度高,是这些网站的特点。因此,如何有效地为如此巨大的用户群体服务,让他们参与时能够享受方便、快捷的服务,成为这些网站不得不解决的一个问题。
而与此同时,凭借Google文件系统搭建起来Google服务器群,为Google提供强大的搜索速度与处理能力。于是,如何有效利用这些这种技术,为更多的企业或个人提供强大的计算能力与多种多样的服务,就是像Google这样拥有巨大服务器资源的企业在考虑的问题。
正是因为一方对计算能力的需求,而另一方能够提供这样的计算能力,于是云计算就应运而生。
三、云计算与网格计算、Web2.0的关系
实际上,早在上世纪90年代,提出的网格计算的思想,就考虑充分利用空闲的CPU资源,搭建平行分布式计算。而在1999年出现的SETI@home更是成功的将网格计算的思想付诸实施,构建了一个成功的案例。
而云计算与网格计算有许多相似之处,也是希望利用大量的计算机,构建出具有强大的计算能力。但是云计算有着更为宏大的目标,它希望能够利用这样的计算能力,在之上构建稳定而快速的存储以及其它服务。而Web2.0正为云计算提供这样的机遇。在Web2.0的引导下,只要有一些有趣而新颖的想法,就能够基于云计算快速搭建Web应用。这正是云计算所带来的直接变化。
云计算与许多在Web上新兴的名词一样,没有明确的定义,但是我们可以从一些网站或组织给云计算下的定义中看出云计算的一些重要特点。Wikipedia关于云计算的定义为“云计算是网格计算下的一种新的(大约在2007年底出现)标签,它使用公用计算或其它方法来共享计算资源。云计算是依靠本机服务器或个人设备来处理用户应用程序之外的另一种选择”;News Blog认为“云计算是一种将硬件与软件外包给因特网服务提供商的概念”;但是,包括Forrester在内的许多网站和组织都认为“云计算看起来十分像是一种典型的突破性技术”。
四、已有的云计算案例
目前,包括Google、微软、IBM、Amazon、EMC和惠普在内的许多IT业巨头都宣布要在云计算上进行重点研究。也有了一些供企业使用的云计算案例。
其中最广为人知的就是去年10月Google和IBM联合宣布推广“云计算”的计划,包括卡内基梅隆大学、斯坦福、伯克利、华盛顿大学、MIT在内的许多高校都参加了这项计划,而国内的清华大学也在今年3月份加入了这项计划之中。通过这项计划,高校的研究者能够更方便地利用Google和IBM的云计算资源,搭建出各种创新性的应用。
而Amazon也提供了有名的EC2服务,这项Amazon EC2服务即可看成是云计算的一个系统,它能够为用户提供大规模的计算能力,有效地降低响应时间,同时在经济上也比用户自己搭建这样的系统要便宜许多。
此外,恐怕最不能忽视的就是微软在云计算上的态度。虽然截至目前,微软还没有明确地公布云计算上的战略,这是因为微软迟迟不愿放弃它通过多年发展起来的收费的Windows和Office产品。但是毫无疑问,微软早已在云计算上展开动作。微软亚洲研究院的WebStudio就已经能够提供在Web规模上快速搭建应用,从这个角度上说,WebStudio已经有一些云计算的影子。同时,微软亚洲研究院正在进行的一项三维虚拟世界(Microsoft Virtual World)的研究,也毫无疑问在未来需要云计算的支持。并且,微软目前大力发展的Windows Live在线服务,也是未来云计算的一部分。目前,微软已经向38个国家和地区(暂不包括中国)提供了高达5G的免费存储空间,同时,Windows Live在线服务也包括了邮件、Spaces、照片库等各种服务。有理由相信,微软在云计算上也绝不会落后许多,甚至有可能像微软上世纪90年代在Web上的发展一样,虽是后起之秀,却迅速占领大量市场。
五、云计算的未来
在云计算的战场上,IT业的两大巨头Google与微软终于站在了同一个竞技场上,进行正面的对抗。或许,这正是历史的必然。
同时,就云计算本身而言,它将很有可能彻底改变用户使用电脑的习惯,使用户从以桌面为核心使用各项应用转移到以Web为核心进行各种活动。而计算机也有可能退化成一个简单的终端,不用再像现在一样需要安装各种软件,同时为这些软件的配置和升级费心费神。未来的计算机可能仅仅用作网络连接以及使用云计算之上的各项服务。
从短期来看,云计算所带来的各项变化对个人的影响还比较小,或许和从前的许多技术一样,云计算将首先给企业(尤其是中小企业)带来最为直接的变化:他们能够快速搭建自己想要的各种应用,而不用再为服务器资源而烦恼。而云计算最终能否普及至个人,恐怕还需看未来一段时间的发展。
当然,云计算的在未来的发展也面临着各种挑战,其中安全和隐私将成为首要问题。试想一下,如果未来,用户与企业的数据都高度集中在一个个的计算云或数据中心中,那么,这些计算云有可能就成为恐怖分子首要攻击目标。一旦恐怖分子得手,是否就会导致整个世界倒退几年、甚至几十年呢?同时,用户该如何信赖提供云存储以及云服务的那些公司,如果确保那些公司不泄露用户的隐私呢?所有这些,都是云计算真正普及时必须解决的问题。
而且,云计算绝不仅仅是一个计算的问题,它需要融合许许多多的技术与成果。现有的许多研究问题将来必然是云计算的一部分,例如中国人民大学网络与移动数据管理实验室目前正在开展的多项研究:Web数据集成、个人数据空间管理、数据外包服务、移动路网上的研究以及隐私问题的研究,都会成为未来云计算的重要组成部分。
本文PPT下载:《云计算:Cloud Computing》



1、目前cloud computing并没有一个清晰的概念与体系,不同研究机构和IT企业都是从各自的角度或者各自专注的领域去理解,比如cloud中的数据如何存储与访问、如何在硬件体系上对cloud进行构建、如何对cloud中资源的配置等等。总之,cloud computing涉及了非常多的研究领域,cloud computing的出现也必然会带来诸多的挑战性问题,这需要我们深入的思考。
2、cloud computing的终极目标是让用户所有的数据和服务(各类软件)都放在cloud中,自己只要有一个可以上网的终端就可以了。用户看到的只是一个虚视图,实际上数据和服务可能分散在cloud中的不同位置。从某个角度来看,每个用户在cloud中都拥有一个自己的虚拟空间。这是不是将给data space提供了一个真实应用场景呢?
3、IT巨头们都在关注cloud computing,但在不同的层面。比如,IBM关注于cloud底层的硬件架构上,Google关注于一般的搜索和数据处理上,而微软关注于上层的软件。他们之间应该会是一个既竞争又合作的关系。但不可否认的是,IT巨头们的如此重视和投入必然会使cloud computing越来越清晰,而不是只停留在美好的概念上。
4、服务和数据的Web化趋势是必然的,即越来越多的在本地的服务和数据会逐渐转移到Web中。目前SaaS受到越来越多的软件生产商的关注,大家有兴趣的应该了解一下。这样发展给用户带来的直接的好处是硬件成本的降低,企业不再需要购买昂贵的硬件和聘用维护人员,因为everything is on the Web。作为Web数据管理的研究者必须给予足够的关注,发现其中的研究问题。



作为一个新的概念,云计算日益引起人们的关注,云计算提出的背景大致有以下几个方面:
- 数据量的高速增长与数据处理能力的相对不足。数字技术和互联网的发展,特别是Web2.0的发展导致数据量高速增长,因此对数据的处理能力提出了更高的要求。
- 计算资源的利用率处于一种不平衡的状态,一些应用需要大量的计算资源和存储资源,同时大量的计算设备和存储资源没有得到充分利用。
作为一种新的计算模式和服务模式,云计算已经引起IBM,EMC,微软,Google等公司的重视,IBM已经开始着手建立云计算中心。同时,针对高速增长、丰富多样的数据信息,人们提出了一种新的数据管理理念:数据空间。这两个概念提出的背景相似,那么云计算与数据空间之间是一种什么样的关系,云计算会对数据空间的研究和应用带来什么样的影响。对这两个概念的比较可以从以下几个方面:
- 从数据管理角度。数据空间是对新的数据特点的一种刻画。其研究焦点是数据模型、数据查询、数据索引等算法。而云计算侧重于系统的实现,其更大程度上是一种支持开放、共享的数据服务的底层架构。
- 从相互之间的影响。数据空间为云计算提供了一种应用场景。随着云计算概念的提出,人们不禁会问,什么样的数据计算模式适于这样的系统架构,数据空间或许能够给出一个答案。个人数据空间的最终目的是能够实现个人数据信息的随时随地的访问,要实现这一目的,必须借助基于Web的存储资源和计算资源,否则是不可想象的。另一方面云计算拓展了数据空间研究的思路,为数据空间研究提出了新的问题。
对于个人和中小企业来说,目前,一方面存在数据管理的需求,另一方面他们对于计算能力的需求往往是不平衡的。如果购置大量的存储和计算设备,那么投资和维护费用会大大提高,同时低水平的利用率也会造成资源的巨大浪费。这样,云计算模式为这一问题的解决提出了一个新的思路,一些个人和企业可以在这种开放的体系架构下享受云计算提供的服务。那么如何实现这种服务,就需要数据空间等数据管理技术研究解决。
以上初步讨论了数据空间和云计算的关系。他们都是针对解决新的数据管理问题,只是侧重点不同,云计算侧重于一种新的数据管理底层架构;数据空间侧重于具体的数据管理技术的研究,他们互相影响,基于云计算模式的个人数据空间和企业数据空间研究或许会成为一个新的研究领域。云计算的提出为数据空间的研究提出了新的问题,促使我们从一个新的角度去思考和研究数据空间。



图: 通过数据之间的匹配来识别隐私
在云计算的概念下,计算机不再是一些各自独立的机器,而是网络中的一个节点,而网络本身将成为计算机。这种将计算任务交给全球运行的服务器网络,在提供各种便捷服务的同时,不可避免的事实是需要提供更多更详细的个人信息,才能获得更好的服务;但另一方面,越来越多的个人信息公之于众,使得人类毫无隐私可言。
一方面,政府机构以及公共服务机构越来越多的发布包含个人信息的数据,比如医疗数据、选民数据等等。如果没有可信的隐私保护,那么攻击者将利用多个数据之间的联系来获取个人隐私信息。如图所示,如果从专门为政府雇员购买医疗保险的机构获取了医疗信息,从负责选举的机构处获取选民信息。该医疗信息可以认为是匿名的,因为没有病人的姓名等唯一标志信息。当攻击者把医疗信息和选民信息结合之后,通过出生日期,邮编,性别的匹配,就可以把选民姓名和疾病联系起来,从而获得了非常隐私的个人信息。
另一方面,随着个人手持设备(PDA,SmartPhone等)的普及,人们越来越多的使用基于位置的服务(Location Based Service:LBS),包括紧急救援服务,基于位置的游戏,移动黄页服务等,这些保证了云计算的真实能力将得以展现。虽然服务提供商不要求人们在请求服务的同时发送自己的唯一标志例如姓名,网络地址等,但要求用户发送自己的当前位置,只有个人位置信息越精确,获得的服务才越满意。在这种情况下,用户的位置就成为了个人隐私信息。服务商(攻击者)可以通过把用户位置和地图进行匹配以及某些经验观察来发现用户的真实身份,进而对用户的服务请求进行分析,发现用户的个人爱好等隐私。
所以,在云计算的背景下,无论是数据发布中的隐私,还是位置服务中的位置隐私,用户个人信息的保护显的尤为重要。在人们把数据放于本机硬盘都还嫌不够安全的今天,如何保证所有个人数据公诸于天下的时候,依然保证个人隐私不泄漏,将是云计算是否能够普及将要攻克的另一难题之一。



随着计算机设备的飞速发展以及对计算性能要求的提高,计算已经由单机发展到分布式系统,从而提出了云计算的概念,大大提高了计算效率,降低了生产成本。
就移动数据管理领域而言,由于移动设备在存储及计算上的限制,现在的构架主要是由用户将数据发送给服务器,由服务器对数据进行管理和计算,并按照用户的要求返回计算结果。虽然减轻了移动存储设备的负担,但是对于大数据量的计算,服务器的任务是很重的,因此用户有时需要等待较长的时间得到需要的结果,现在已有一些工作考虑将任务分配一些给存储设备,利用不同存储设备之间的数据交互及计算以减轻服务器的负担。如果将云计算引入到移动数据管理中,通过使计算分布在大量的分布式计算机上,可以大大提高计算的效率,减少用户的等待时间。
此外,现在的移动数据服务,对于用户仍然不是透明的,即用户需要向服务器提出请求,等待返回结果。对于用户来说,没有任何信息,所有的信息都在服务器上。如果通过引入云计算,使这一过程变为对用户透明的,即对用户来说,好想所有的信息都存储在自己的移动设备上,自己只须对移动设备进行相应操作即可得到想要的结果,这将大大提高服务的质量。
数据的存储以及计算的分布,一定会引起隐私泄漏的问题。但是云计算的推广必将提高移动数据的管理能力以及服务质量,大大推动移动设备的广泛应用。
