你好,游客 登录 注册 发布搜索
背景:
阅读新闻

[硕士论文]大数据环境下数据存储与查询的研究

[日期:2015-03-17] 来源:CNKI  作者:李雷 [字体: ]

大数据环境下数据存储与查询的研究

哈尔滨工业大学  李雷

我们主要是基于CMD存储模型来做大数据存储与查询的探索。传统CMD存储模型是基于单机多磁盘的,它已无法适应当前数据库领域所面临的挑战。我们第一次将CMD扩展到了分布式环境下,在集群上建立CMD存储方案,并通过它解决了大数据量的多路不等值连接操作问题,设计了全新的图数据存储模型,并对CMD在高维数据与大规模分布式集群上遇到的难题做了一定的优化。 对于普通的关系数据,我们并设计了基于CMD的多路不等值连接操作这一新的分布式连接操作算法,并与传统关系型数据库和Hadoop分布式并行计算环境进行了效率对比。因为该算法充分利用了CMD存储方法对各属性的索引,所以在效率上要比关系型数据库和Hadoop分布式环境高很多,是解决大数据量的多路不等值连接操作的有效方案。 对于图数据,我们也将其转化成CMD能够存储的数据格式,并对其可行性与效率做了一定探索,给出了基于CMD存储方案的图数据存储方法与基本操作。这是一个全新的图数据存储模型,相比于之前的图数据存储模型,它减弱了点的重要性而更关注于边的属性,使基于边的查询的速度得以大大提升。 对于CMD存储方法在高维数据与大规模集群上会遇到的一些难题,我们给出了一些改进方案。我们提出的属性分组方案,使属性有层次的进行划分,解决了原始CMD在面对高维数据会产生大量碎片的问题。我们提出的节点分组方案,也解决了当CMD部署在大规模集群上会使数据划分过于零散而网络通讯代价激增的问题。


大数据环境下数据存储与查询的研究

收藏 推荐 打印 | 录入:574107552 | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款