你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[期刊]基于任务合并的并行大数据清洗过程优化

[日期:2015-07-15] 来源:计算机学报  作者:杨东华 李宁宁 王宏志 李建中 高宏 [字体: ]

基于任务合并的并行大数据清洗过程优化

杨东华 李宁宁 王宏志 李建中 高宏

数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗。 MapReduce 编程框架可以利用并行技术实现高可扩展性的大数据清洗, 然而,由于缺乏有效的设计,在基于 MapReduce 的数据清洗过程中存在计算的冗余, 导致性能的降低。 因此本文的目的是对并行数据清洗过程进行优化从而提高效率。通过研究,我们发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果,基于该发现本文提出了一种新的优化技术——基于任务合并的优化技术。针对冗余计算和利用同一输入文件的简单计算进行合并,通过这种合并可以减少 MapReduce 的轮数从而减少系统运行的时间,最终达到系统优化的目标。本文针对数据清洗过程中多个复杂的模块进行了优化,具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化。 


基于任务合并的并行大数据清洗过程优化

 

 

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款