网赚网址

Skip to content
您好,接待离开网赚网址有限公司![ 请登录 ] 新用户?[ 收费注册 ]

网赚网址有限公司 打造最便利的外链买卖平台

您的地位: 友谊链接平台 > 搜刮引擎优化教程 > 甚么是倒排索引?倒排的观点是甚么?

甚么是倒排索引?倒排的观点是甚么?

时辰:2021-06-23 12:50:33 来历:网赚网址有限公司    编辑:小雯

倒排索引源于现实利用中须要按照属性的值来查找记实。这类索引表中的每项都包罗一个属性值和具备该属性值的各记实的地点。因为不是由记实来肯定属性值,而是由属性值来肯定记实的地位,因此称为倒排索引(inverted index)。带有倒排索引的文件咱们称为倒排索引文件,简称倒排文件(inverted file)。



倒摆列表观点

倒摆列表用来记实有哪些文档包罗了某个单词。普通在文档调集里会有良多文档包罗某个单词,每一个文档会记实文档编号(DocID),单词在这个文档中呈现的次数(TF)及单词在文档中哪些地位呈现过等信息,如许与一个文档相干的信息被称做倒排索引项(Posting),包罗这个单词的一系列倒排索引项构成了列表布局,这便是某个单词对应的倒摆列表。右图是倒摆列表的表示图,在文档调集中呈现过的一切单词及其对应的倒摆列表构成了倒排索引。

在现实的搜刮引擎体系中,并不存储倒排索引项中的现实文档编号,而是代之以文档编号差值(D-Gap)。文档编号差值是倒摆列表中相邻的两个倒排索引项文档编号的差值,普通在索引构建进程中,能够保障倒摆列表中前面呈现的文档编号大于之前呈现的文档编号,以是文档编号差值老是大于0的整数。如图2所示的例子中,原始的 3个文档编号别离是187、196和199,经由过程编号差值计较,在现实存储的时辰就转化成了:187、9、3。



之以是要对文档编号停止差值计较,首要缘由是为了更好地对数据停止紧缩,原始文档编号普通都是大数值,经由过程差值计较,就有用地将大数值转换为了小数值,而这有助于增添数据的紧缩率。

倒排索引观点
倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引体例,被用来存储在全文搜刮下某个单词在一个文档或一组文档中的存储地位的映照。它是文档检索体系中最经常使用的数据布局。经由过程倒排索引,能够按照单词疾速获得包罗这个单词的文档列表。倒排索引首要由两个局部构成:“单词辞书”和“倒排文件”。
  倒排索引
倒排索引
倒排索引有两种差别的反向索引情势:
  一条记实的程度反向索引(或反向档案索引)包罗每一个援用单词的文档的列表。
  一个单词的程度反向索引(或完整反向索引)又包罗每一个单词在一个文档中的地位。
  后者的情势供给了更多的兼容性(比方短语搜刮),可是须要更多的时辰和空间来建立。
  古代搜刮引擎的索引都是基于倒排索引。比拟“署名文件”、“后缀树”等索引布局,“倒排索引”是完成单词到文档映照干系的最好完成体例和最有用的索引布局。

上一篇:甚么是正向索引?详细情势是甚么样的?下一篇:甚么是首选域设置

保举办事商

最新插手

?
回到顶部