你好,游客 登录 注册 发布搜索
背景:
阅读新闻

云计算一周热点

[日期:2014-04-19] 来源:CSDN  作者: [字体: ]

  1. 微软SQL Server 2014三大新特性:集成内存OLTP、BI和混合云搭建

  大数据催生了云计算和移动互联的世界。2020年,企业中,将有一半以上的功能将会在云上完成。在微软全面转向云计算的战略中,Cloud OS的重要性不言而喻。而在企业统一平台的愿景上,SQL Server是最为重要一个布局。

  4月11日,微软召开微软大数据战略分享活动上,微软大中华区服务器产品业务群租总经理陈利宁表示,微软大数据的目标就是,让用户更加容易的把原始数据变成关键性决策工具。其中有三个战略,第一是无论大小,都可以轻松访问数据,第二是利用熟知的工具软件,第三是提供完整、统一的数据平台。

  伴随云技术和应用的普及,SQL Server 2014版上会更加明显的“云”倾向。对SQL Server 2014的特点和优势进行了详细的介绍。主要来看,SQL Server 2014的技术聚焦在:集成内存OLTP技术的数据库产品,关键业务和性能的提升,安全和数据分析,以及混合云搭建等方面。

  

 

  而在SQL Server 2014之外,微软还浓墨重彩地介绍了微软的数据仓库一体机。传统来看从ERP、CRM、OA、进销存等管理软件的关系型数据,通过ETL、数据仓库,最后进行到数据分析。 但事实上,关系型数据增长之外,非关系型数据、实时数据、云端数据都构成了大数据的新增长量。但对于这些数据的分析,显然还没有完整的技术体系。在微软看来,现代化数据仓库,是在基础数据(上述四类)之上,通过数据管理与处理,数据富集与联合查询,最终达到BI和数据分析的过程。社交和Web分析和实时数据分析等典型场景的应用将更为宽广。

  微软并行数据仓库,或者说现代化数据仓库设备一体机,则很好解决了以上问题。微软相关负责人表示:“Hadoop自身并非所有大数据问题的终极答案。陡峭的学习曲线,缓慢低效的Hadoop生态系统,另一方面,分析前需要将HDFS迁移到仓库,都是困难。为此,PDW(Parallel Data Warehouse Appliance))面向企业提供带有HDinsight的Hadoop,以弥补Hadoop的不足,并实现存储的更好扩展。”

  2. 证据显示:Linux战争已经转移到OpenStack

  受Red Hat峰会刺激,Canonical发布了很多关于Ubuntu Linux版本的消息,但大多数集中在OpenStack上。有点搞笑的是新闻稿宣布新的Ubuntu Linux 14.04 LTS版,但是看上去似乎关注Ubuntu OpenStack超过Linux本身。而且合作伙伴们Cisco、 Mellanox、 NTT Software对Ubuntu OpenStack也不乏赞美之辞。但话又说回来,这是有道理的,因为供应商战场已经从核心操作系统转移到核心的云基础设施上面来,在这里,Canonical OpenStack得到了惠普和其他大型云提供商的有力支持。

  

 

  Canonical创始人Mark Shuttleworth

  Canonical创始人Mark Shuttleworth一直以来提供资金培育Ubuntu Linux,推进Ubuntu Linux / Ubuntu OpenStack融合,使之成为下一代云计算最佳基金会。

  一项OpenStack基金会10月份的调查发现,55%的OpenStack工作负载使用Ubuntu Linux作为主机操作系统,CentOS为 24%; Red Hat企业级Linux为10%,剩下的占10%。鉴于Red Hat对 OpenStack的关注不断增加,它不会满足于这些数字。据Gigaom报道,OpenStack社区许多人并不希望Red Hat主导OpenStack,就像它主导企业级Linux一样。不出所料,从Red Hat峰会传来一些消息:Red Hat宣布企业级OpenStack 已经被Broad 研究所、 Midokura 以及Porto大学采用。

  3. Google揭露“仙女座”虚拟网络,及分散和集中架构之辩

  在软件体系结构上,分散和集中的使用一直存在着争议。同时,随着网络带宽、硬件成本、内存的容量变大,分散式似乎大有可为。然而,从创新不断的Google身上,我们似乎看到了一些别的东西。

  

 

  这里摘抄Timothy Morgan一篇非常棒的博文——《谷歌掀开“仙女座(Andromeda)”虚拟网络的神秘面纱》,其中还引用了Google杰出的工程师和网络技术负责人Armin Vahdat的话:

  “像Google创建的其他多数服务一样,Andromeda网络采用的是集中控制。顺便提一下, GFS整个数据处理平台(Hadoop启发系统),BigTable(为市面上大量NoSQL模仿),甚至B4WAN网络及Spanner这样尚未被模仿的系统都使用集中控制。

  我们可以看到,一个带有P2P数据平面且逻辑集中的分级控制层服务完胜全分散式服务。Vahdat在他的keynote中写道,“这一切都冲击着传统的思想,”他继续说道:“除了上述项目,所有人都会对Google早在2002建立的大型存储系统GFS而感到震撼。对于这个设计模式,我们是非常有信心的。我们通过审慎利用集权而不是以对等且分散的管理方式,从根本上建立一个更高效的系统。”

  4. 迭代不等于学习,聚类分析也不等于机器学习

  大数据规模和复杂度的增长给现有IT架构以及计算能力带来了极大挑战,机器学习领域的研究为处理未来更加庞大和复杂的数据提供了可能性,然而“机器学习”这个词常常被误用甚至滥用。许多初创企业,特别是在云领域,经常宣传自身机器学习的能力,有时候,算法是不能从用户界面看到的,因此用户可能无法知道界面下的算法是怎样的运行机制。用户可能会误以为正在使用的某个新功能或算法已经接近人工智能,然而,如果他们知道他们花钱得到的只是一些处于早期、非常不成熟的工具,只是用来构建一个决策树的新方式,他们会怎么想?

  真正的机器学习,不仅仅是存储信息这么简单,现实世界中信息包括语音信号、数字图像等,通常都是高维数据,为了正确地理解这些数据,就需要对这些信息进行处理——降维,找出隐藏在高维数据中的低维结构。从数据分析的角度来说,机器学习过程就是数据挖掘的过程,机器通过挖掘出外界环境数据中潜在的规律,从而“理解”数据,理解外界环境,也就达到了“学习”的境界。机器学习还应该具有演绎、归纳和类比的能力,只需要为机器提供大前提和小前提,机器就可能给出正确的结论;而归纳能力则需要机器通过归纳求解出对事物总的概念描述,类似于人类抽象思维的能力;类比能力是演绎和推理的结合,这是机器学习最关键的部分,利用相似性将已存储的信息与新事物进行匹配,检验相似程度,不断更新机器已有的知识库,以解决更多的问题。

  5. 阿里巴巴集团CTO王坚:云栖小镇·中国云计算的生态

  云栖小镇联盟,是一群对中国发展好下一个二十年的计算产业有想法的人在一起,联盟里既有3万人的大公司也有3个人的创业团队,他们笃信云计算将改变世界,志同道合的推动云计算产业在中国做起来。

  第一天做云计算的时候,马云就说,我们的目标是在云计算上长出一个比淘宝还要大的公司。将来回过头看阿里云对中国信息产业的影响,不是我们做了什么,而是别人用我们的东西做了什么。今天在美国没有亚马逊这类的云服务,就不会出现像WhatsApp这样值190亿美元的公司:

  1. 众安保险,全世界第一个网络保险牌照,第一家既没有营业所也没有自己IT设施的保险公司是诞生在阿里云上。今天政府能够理解并接受一家保险公司是可以不需要买自己的计算机而放在云上,这样的信心,是世界上其他国家做不到的。

  2. 玩蟹,三个80后创造的公司,历经两年发展,员工从几十人发展到上百人,卖了17亿人民币。

  3. 余额宝,在成为今天的余额宝之前,也做了生死的选择,上云还是不上?最终决定上云。没有选择的选择,到后来却发现是最好的选择。余额宝在过去9个月的时间里可能完成了传统公司十几二十年都无法完成的增长。

  4. Camera360,云计算互联网让这个几十人的中国公司,将生意做到128个国家,而在以前这是不可能想象的。

  6. 大数据处理分析的六大最好工具

  我们的数据来自各个方面,在面对庞大而复杂的大数据,选择一个合适的处理工具显得很有必要,工欲善其事,必须利其器,一个好的工具可以使我们的工作事半功倍。

  Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。

  HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。

  

 

  Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。

  RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价(详情点击 原文)。

  7. 阿里云:从攻到防,深入浅出DDoS

  近日,在第六届中国云计算大会召开前夕,笔者有幸联系到阿里巴巴集团安全部高级专家云舒,就国内DDoS攻击发展趋势、规模及阿里云安全团队进行了简单的了解:

  

 

  CSDN:可否透露下阿里云近阶段遭受的DDoS攻击规模?

  云舒:平均每月遭受数千起DDoS攻击。

  CSDN:据悉,阿里云在春节期间曾遭受到流量很大的DDoS攻击,可否为我们简述一下当时的战况?

  云舒:春节期间我们的OSS(Open Storage Service)遭受190Gbit/s的DDoS攻击。攻击者开始使用1000字节的SYN包进行攻击,试图在消耗CPU资源的同时堵塞网络入口。我们的云盾系统在无人介入的情况下自动开启防御,并发送短信报警通知。

  因为攻击效果不明显,7分钟之后攻击者更换攻击手法,使用CC攻击。约10分钟后,攻击者再次更换攻击手法,使用SYN小包进行攻击,速率达到2000万包/秒,试图使交换机的交换能力达到瓶颈。整个过程持续30多分钟,攻击者没有达到效果,担心暴露而选择了主动撤退。

  CSDN:现在最普遍的DDoS攻击类型是什么?近几年有什么转变?

  云舒:最经典的攻击手法SYN Flood依旧占据大头;CC攻击有后来居上的趋势,因为发起容易,效果显著;UDP攻击屈居第三名,但却是流量攻击的首选,各种反射放大攻击都属于UDP攻击。

  8. 继Cloudera之后,MapR宣布对Spark的完全支持

  MapR是知名的Hadoop供应商,最近该公司为其Hadoop发行版中添加了完整的Spark堆栈。这是一项明智之举,更说明Spark很可能成为未来的数据处理框架。MapR也是应用Apache Spark的先驱者,周二,MapR宣布将整合Spark栈至其Hadoop版本,并将此作为与Spark初创公司Databricks合作的一部分。Spark使处理大数据工作负载变得更为便捷,也使得大数据工作负载编程变得更容易。

  Spark现在如此盛行,这是因为它既做到了MapReduce可以做到的,还做到了MapReduce没能做到的。MapReduce是传统的Hadoop数据处理框架,它速度慢(它采用的是批处理),编程繁琐。Spark快捷、灵活——这使得Spark可以更好的处理诸如机器学习、图形处理和、交互式查询类的任务——而且易于编程。Spark是用Scala写的,不过它也支持Java,Python与R语言。

  

 

  MapR的这条新闻最有趣的地方是,MapR提供了对Spark栈的全部支持——这包括Shark SQL查询引擎(它本质上说一个更快Apache Hive)和MLLib机器学习库——然而Cloudera却不支持Shark。这大概是因为Cloudera还在力推它的Impala SQL查询引擎,而MapReduce也没有包括这个引擎。MapR一直引领交互SQL查询项目Apache Drill的发展;此外随着Drill的到来,MapR也添加了对HP Vertica的本地支持。

   从MapR的角度,通过整合Spark这一用户需求的功能提高了其在业界的地位(先前MapR受到的关注度是远少于竞争对手Cloudera和Hortonworks的)。例如,MapR现在开发了自己的HBase NoSQL数据存储,相较于其他Hadoop发行版包含的开源版本,这个数据存储功能更齐全。

收藏 推荐 打印 | 录入:574107552 | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款