你好,游客 登录 注册 发布搜索
背景:
阅读新闻

一种基于Hadoop的多表链接策略

[日期:2014-07-08] 来源:现代电子技术  作者:徐剑 陈群 王卓 李战怀 [字体: ]

一种基于Hadoop的多表链接策略

徐剑  陈群  王卓  李战怀

Hadoop系统在处理多表链接问题时,每轮都会将大量的中间结果写入本地磁盘,从而严重降低了系统的处理效率。为解决该问题,提出一种“替换-查询”方法,该方法通过对链接表建立索引,将预输出的元组集替换为索引信息输出到中间结果,以索引的形式参与多表链接,以此减少中间结果的I/O代价。运用缓冲池、二次排序和多线程技术对索引信息进行优化管理,加快索引查询速度。最后在TPC-H数据集上,设计了与原Hadoop的对比实验,结果表明该方法可减少35.5%的存储空间,提高12.9%的运行效率。


一种基于Hadoop的多表链接策略

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻       Hadoop 多表链接策略 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款