[转载]Lucene 原理与代码分析完整版 – 觉先博客园.
Lucene 原理与代码分析系列文章已经基本告一段落,可能问题篇还会有新的更新。
完整版pdf可由以下链接下载。
目录如下:
目录
第三步:将得到的词元(Token)传给语言处理组件(Linguistic Processor)。
第四步:将得到的词(Term)传给索引组件(Indexer)。
3. 合并相同的词(Term)成为文档倒排(Posting List)链表。
2. 语法分析主要是根据查询语句的语法规则来形成一棵语法树。
2. 判断Term之间的关系从而得到文档相关性的过程,也即向量空间模型的算法(VSM)。
4.1.3. 域(Field)的数据信息(.fdt,.fdx)
4.1.3. 词向量(Term Vector)的数据信息(.tvx,.tvd,.tvf)
4.1、得到当前线程对应的文档集处理对象(DocumentsWriterThreadState)
4.2、用得到的文档集处理对象(DocumentsWriterThreadState)处理文档
4.3、用DocumentsWriter.finishDocument结束本次文档添加
5、DocumentsWriter对CharBlockPool,ByteBlockPool,IntBlockPool的缓存管理
2.1.2、通过segment_N文件中保存的各个段的信息打开各个段
2.4.1、创建Weight对象树,计算Term Weight
第八章:Lucene的查询语法,JavaCC及QueryParser
5.6、PayloadTermQuery及PayloadNearQuery
6.4、FieldCacheRangeFilter<T>及FieldCacheTermsFilter
6.5、MultiTermQueryWrapperFilter<Q>
6、不同的Analyzer就是组合不同的Tokenizer和TokenFilter得到最后的TokenStream
7.1、StandardTokenizerImpl.jflex
问题一:为什么能搜的到“中华 AND 共和国”却搜不到“中华共和国”?