你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[硕士论文]海量数据并行挖掘技术研究

[日期:2014-07-02] 来源:北京交通大学   作者:孙芬芬 [字体: ]

海量数据并行挖掘技术研究

北京交通大学 孙芬芬

本文以关联规则中发现频繁项集为出发点,在并行编程模型MapReduce的基础上对并行关联规则及其增量挖掘算法进行研究,旨在提高从海量数据中发现频繁项集的效率。本文首先对关联规则算法进行分析,针对Apriori算法的不足,结合向量的逻辑运算从扫描次数、候选项集生成、事务压缩三个方面对该算法进行改进,设计一种改进算法Apriori_M。其次对MapReduce并行编程模式进行深入分析,为提高Apriori_M算法处理海量数据能力,结合Partition的思想,提出该算法的并行化改进思路,并用MapReduce编程模式实现。然后对关联规则增量挖掘算法进行研究,在FUP算法的基础上,提出两种处理数据集动态增加的并行关联规则增量挖掘算法。整个算法分为产生候选项集与验证候选项集是否频繁两个部分,MFUP1算法串行产生候选项集,再并行地从候选项集中选出频繁的,适合新增数据集规模较小的情况,而MFUP2算法并行产生候选集,再并行验证是否频繁,适合新增数据集规模较大(与原数据集相比仍然较小)的情况。最后对提出的基于MapRedece的并行关联规则算法及并行增量挖掘算法的性能进行分析。为验证算法的性能,在开源的Hadoop云平台上进行仿真分析,实验结果表明并行Apriori_M算法、MFUP1和MFUP2算法能够高效的从海量数据中发现频繁项集,改进后的算法是可行的、有效的。


海量数据并行挖掘技术研究

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻       海量数据 并行挖掘 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款