你好,游客 登录 注册 搜索
背景:
阅读新闻

[PDF]大数据环境下用于实体解析的两层相关性聚类方法

[日期:2014-09-28] 来源: 计算机研究与发展  作者:王宁, 李杰 [字体: ]

大数据环境下用于实体解析的两层相关性聚类方法

王宁  李杰

数据量大、数据更新速度快、数据源多样和数据存在噪声是大数据的四大特点,这为数据集成提出了新的挑战.实体解析是数据集成的一个重要步骤,在大数据环境下,传统的实体解析算法在效率、质量,特别是抗噪声能力方面的表现并不理想.为了解决大数据环境中因为数据噪声所导致的解析结果冲突,将公共邻居引入相关性聚类问题.上层预分块算法基于邻居关系设计,因而能够快速有效地完成初步分块;核概念的引入更精确地定义了节点与类之间的关联程度,以便下层调整算法准确地判断节点的归属,进而提高相关性聚类的准确度.两层算法采用较为粗糙的相似度距离函数,使得算法不仅简单而且高效.同时,由于引入邻居关系,算法的抗噪声能力明显提高.大量实验表明,两层相关性聚类算法无论在解析质量、抗噪声能力还是在扩展性方面均优于传统算法.


大数据环境下用于实体解析的两层相关性聚类方法

 

收藏 推荐 打印 | 录入:574107552 | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款