你好,游客 登录 注册 发布搜索
背景:
阅读新闻

云计算技术特点

[日期:2014-03-12] 来源:搜狐博客  作者: [字体: ]

  我们习惯了的由庞大数据集浇筑出的高通量基因组中心,但随着超高通量出现,在每一个测序,基因分型及其他功能基因组学实验室,我们正面临一个可怕的大规模数据1PB的新时代。

  例如,1000基因组的项目可能会产生约1TB成品数据。为了处理数据,该项目所需约100TB缓存磁盘。在这个层面的工作,真正的技术限制开始阻碍进步。人们必须考虑存储,但不仅是够用,还要确保其提供给您计算(网络),您有足够的I / O实时做任何事情。在处理TB量的数据时,软件语言和实施成为关键。足够的电源、冷却等成为真正的问题。你如何让别人访问数据?备份数据即使存放多少年也会从磁带恢复。你不希望自己担心在这些限制内工作,因此,我们将如何解决这些技术障碍,每个问题可以通过技术知识来解决。当使用大型数据集,这些限制可以不断有碍研究工作取得实质进展。虽然人们可以选择解决这些问题,每一个个别限制对科学的工作流程的影响都是相当大的,优化生产力将是明智的。

  在软件开发中,类似的限制存在于抽象层。数据库访问是通过相关的绘图工具调节,可视化的辅助功能强大的图形包防止某个研究小组另起炉灶。铁轨,隐藏,加工,休眠,催化剂, 云计算提供了一个处理非常大的数据集时可能遇到的类似的许多的制约因素的抽象层。您可能在使用谷歌等托管邮件时遇到了类似的想法,ManyEyes服务等等。这些工具提供给相应的通信地址,其中一个理想中的完美世界的例子是生物信息学。我们毋需担心数据如何存储,以及如何保持软件最新,云一切都会为你照料好。最先按照这些原则采取措施的公司是亚马逊,谷歌和微软。亚马逊开始在其主办的生物信息公开数据集(提供数据访问,如Ensembl和 Genbank。

  最近要求从454个短读数据组建一个完整的人类基因组提供了关于这些进展的非常好的活生生的实例。拥有1.4亿人次排队使用SSAHA超过我们自己现有的计算能力数据中心的容量,在亚马逊建立了弹性计算服务EC2上可以执行。在一个下午,构建一个可扩展的,队列管理和数据的复制的存储的点对点集群只不过相当于一些Web服务调用和一个有效的信用卡的使用。毋需服务合同,毋需与供应商协商,就可以在100个节点实施SSAHA匹配。

  大型数据中心目前设计为提供高峰的容量,非高峰时间就被闲置。对于弹性计算,现收现付,AWS云服务降低基础设施费用,因为只对使用中的计算和存储时计费。

  云计算也有绿色证书,坐落在可再生能源附近的计算是的优先使用。此外,未使用的计算能力和在本地数据中心的存储能力,可以由云中的其他计算重复使用。

  在大型数据集的迁移也可由云方法简化。作为替代交付数据分析的方法,云计算使数据保持原貌,让别人访问你的计算基础设施可更好地分发大型数据集。

收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款