你好,游客 登录 注册 发布搜索
背景:
阅读新闻

基于云计算的并行K-means气象数据挖掘研究与应用

[日期:2014-03-08] 来源:CNKI  作者:潘吴斌 [字体: ]

基于云计算的并行K-means气象数据挖掘研究与应用

南京信息工程大学   潘吴斌

聚类分析是数据挖掘中的一个重要研究领域,它将数据划分成若干个聚类,使得在同一聚类中的对象比较相似,而不同聚类中的对象差别很大。K-means算法被认为是最经典的基于划分的聚类方法,常采用误差平方和准则函数作为聚类准则,该算法在处理数据集上相对可伸缩且高效率。但面对大规模数据时,运算量也随之增加,运算所需的资源和时间耗费明显增大。为了突破这个瓶颈,通过分析和研究得知,与传统的并行计算模型相比,MapReduce分布式计算模型封装了并行处理、容错处理、本地化计算、负载均衡等细节,还提供了一个简单而强大的编程接口,极大的简化了并行程序设计的难度,采用MapReduce进行并行程序开发时,用户只需关注于自身要解决的并行计算任务。因此,利用Hadoop平台处理海量数据的优势,提出了一种改进的算法,在Hadoop平台上实现K-means算法的MapReduce并行化。最后,通过聚类结果的有效性、加速比以及可扩展性对基于MapReduce的并行K-means算法进行评估。


基于云计算的并行K-means气象数据挖掘研究与应用

收藏 推荐 打印 | 录入:574107552 | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款