你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[PDF]基于Hadoop MapReduce并行近似谱聚类算法研究与实现

[日期:2014-12-11] 来源:CNKI  作者:杨煜 [字体: ]

基于Hadoop MapReduce并行近似谱聚类算法研究与实现

云南财经大学 杨煜

论文主要设计并实现Hadoop分布式文件系统MapReduce并行计算编程模型下近似谱聚类算法对大规模高维数据的聚类。通过研究Mapper和Reducer并行编程流程及Hadoop MapReduce并行算法中相互依赖步骤分解,分别研究并设计基于MapReduce优化离群点的t最近邻近似相似矩阵、Laplacian特征分解和基于最近邻初始化聚类中心位置的k-means并行策略与map()和reduce()函数,并分析了Hadoop MapReduce并行前后各自的时间复杂度,其中所设计的并行策略与依赖步骤的分解处理也为机器学习、数据挖掘、模式识别、信息检索、Web数据分析、计算机视觉、医学成像、信号与图形图像处理以及生物信息学等领域提供一种分析大规模高维数据的参考思路。通过在12台Dell2161服务器构成的Hadoop集群使用UCI Bag of Words数据集对所设计的MapReduce近似谱聚类算法的性能和聚类质量进行验证,实验结果显示所设计的并行近似谱聚类算法达到了一定的预期结果,并行实验中使用经典的谱聚类评估标准也进一步验证了所设计的并行近似谱聚类算法在处理大规模高维数据上的正确性和有效性。


基于Hadoop MapReduce并行近似谱聚类算法研究与实现

收藏 推荐 打印 | 录入:574107552 | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款