你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[期刊]基于Hadoop平台的文本相似度检测系统的研究

[日期:2015-09-04] 来源:计算机技术与发展  作者:王小林 肖慧 邰伟鹏 [字体: ]

基于Hadoop平台的文本相似度检测系统的研究

王小林 肖慧 邰伟鹏

在文本中的位置和其在文本库中的离散度对权值的影响;且当处理的文本库中信息量过大时; 运行效率较低。针对上述问题;本文提出一种基于语义的信息熵与信息增益的TFIDF算法(TFIDFWGE);该算法通过对给定的关键词添加位置权重与计算熵值和信息增益;得到关键词的最终权值; 并利用Hadoop平台的Map/Reduce框架来实现TFIDFWGE算法和向量空间模型(VSM)的文本相似度计算过程。通过对两组真实的数据集进行的实验结果表明;与现有的TFIDF算法相比TFIDFWGE算法的查全率和查准率更高;且在Hadoop平台上实现的文本相似度检测系统对信息量大的文本库处理效率更加高效。


基于Hadoop平台的文本相似度检测系统的研究

 

 

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款