你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[期刊]基于 Hadoop平台的 XML文档重复数据检测

[日期:2013-12-06] 来源:CNKI  作者:李振兴 刘波 [字体: ]

基于 Hadoop平台的 XML文档重复数据检测

李振兴   刘波 

XML数据越来越广泛地被用于信息交换与集成中,其数据质量问题引起了人们的关注.解决由数据质量引发的问题,  实体识别技术非常关键. 为了克服现有方法的不足,在海量XML数据上进行高效的重复对象检测, 以实体识别技术为基础提出了基于Hadoop平台的XML文档重复检测算法,它将所有标签节点统称为属性,用实体来描述属性,  通过属性的比较,快速地找到在某些属性上相同的所有实体对象,并利用Hadoop应用框架处理海量数据的优势实现并行处理.  经过试验验证该方法良好的扩展性,伸缩性和高效性.  


基于 Hadoop平台的 XML文档重复数据检测

收藏 推荐 打印 | 录入:涤生2017 | 阅读:
相关新闻       Hadoop 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款