你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[期刊]基于Spark的大规模文本k-means并行聚类算法

[日期:2015-07-13] 来源:中国知网  作者:刘鹏 滕家雨 张国鹏 胡延军 黄宜华 [字体: ]

基于Spark的大规模文本k-means并行聚类算法

刘鹏 滕家雨 张国鹏 胡延军 黄宜华

互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长, 虽有研究者利用 Hadoop 架构进行了 k-means 并行化研究,但由于很难有效满足 k-means 需要频繁迭代的特点,因此执行效率仍然不能让人满意。 本文研究提出了基于新一代并行计算系统 Spark 的 k-means 文本聚类并行化算法,利用 RDD编程模型充分满足了 k-means 频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于 Spark 的 k-means 文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop 的实现,因此能更好地满足大规模文本数据挖掘算法的需求。


基于Spark的大规模文本k-means并行聚类算法

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款