你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[硕士论文]基于云计算的文本聚类算法研究

[日期:2014-07-16] 来源:南京理工大学   作者:冯晓云 [字体: ]

基于云计算的文本聚类算法研究

南京理工大学  冯晓云

在本论文中,我们首先实现了一种基于HIVE的分布式k-means算法的设计,先在Hadoop的分布式平台上利用HIVE对结构化的文本数据进行整合,然后对K-means聚类算法进行分析,发现分布式计算对于K-means算法的加速比是有一定的提高的,这也是近年来很多论文进行研究的算法。接着我们设计了基于Google实验室开发的一个分布式系统架构------HadoopCURE聚类算法,实验分成四部分进行,分别利用分布式平台来计算实验参数值、TFIDF值、文本间余弦距离和具体聚类算法,然后将不同大小数据集在不同个数的slave节点上运行的结果进行了对比,发现这种算法的伸缩性比较良好,更加适合大数据。在进行了两个实验后,论文又将CURE聚类算法的实验结果与基于HIVE的K-means算法的实验结果进行了对比,发现对于小数据,两者相差不大,但是对于大数据集,CURE聚类算法在数据伸缩性上明显优于基于HIVE的K-means算法,因此,我们发现前者更加地适用于大文本集的分布式研究。综上所述,我们通过分析利用UCI数据集进行实验得到的测评结果,发现在分布式平台上利用CURE算法进行聚类计算对于海量数据还是有很好的应用前景。


基于云计算的文本聚类算法研究 

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻       云计算 文本聚类算法 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款