你好,游客 登录 注册 发布搜索
背景:
阅读新闻

初学hadoop的一些学习记录

[日期:2014-03-26] 来源:CSDN  作者: [字体: ]

  倒排索引

  简介

  倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。

  有两种不同的反向索引形式:

  · 一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。

  · 一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。

  例子

  以英文为例,下面是要被索引的文本:

  · "it is what it is"

  · "what is it"

  · "it is a banana"

  我们就能得到下面的反向文件索引:

  "a": {2}

  "banana": {2}

  "is": {0, 1, 2}

  "it": {0, 1, 2}

  "what": {0, 1}

  检索的条件"what", "is" 和 "it" 将对应这个集合:。

  对相同的文字,我们得到后面这些完全反向索引,有文档数量和当前查询的单词结果组成的的成对数据。 同样,文档数量和当前查询的单词结果都从零开始。所以,"banana":{(2, 3)} 就是说 "banana"在第三个文档里 (),而且在第三个文档的位置是第四个单词(地址为 3)。

  "a": {(2, 2)}

  "banana": {(2, 3)}

  "is": {(0, 1), (0, 4), (1, 1), (2, 1)}

  "it": {(0, 0), (0, 3), (1, 2), (2, 0)}

  "what": {(0, 2), (1, 0)}

收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻       Hadoop 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款