[转载]Lucene.Net 2.4.0无障碍学习和使用：索引篇-Mikel

[转载]Lucene.Net 2.4.0无障碍学习和使用：索引篇 – 努力，天赋，笑容，自信 – 博客园.

项目中可能需要再次用到Lucene.Net，利用空闲时间写了个demo，主要涉及到索引的创建、删除、更新和一个简单查询。在本文示例中，Lucene.Net的版本是2.4.0，某些类和方法与最新版本或者较旧的版本有较多不同，希望您阅读顺利。

一、简单认识索引

Lucene.Net的应用相对比较简单。一段时间以来，我最多只是在项目中写点代码，利用一下它的类库而已，对很多名词术语不是很清晰，甚至理解可能还有偏差。从我过去的博客你也可以看出，语言表达一直不是个人所长，就算”表达“了也有大面积抄书的嫌疑，所以很多概念性的介绍能省则省（除非特别有别要说明），希望有心的初学者注意，理清概念和辨别技术名词非常重要，请参考相关文档。

Lucene的索引由1或多个segment（片段）构成，一个segment由多个document构成，一个document又由1个或多个field构成，一个field又由一个或多个term构成。下面这张图可以说明一切：

从图中不难看出，Lucene的索引是一个由点到线，由线到面的组成结构，这一点我们可以通过查看Lucene生成的索引文件看出来。

参考图片来源： http://alone2004.spaces.live.com/blog/cns!C2525069080D7BB!675.entry

二、创建、优化、删除和更新索引实践

备注：在解决方案所在文件夹中，有一个测试用的Resource文件夹，内有4个.txt文件。我在本地测试的时候，就使用了Resource下的四个文本文件。

1、索引保存至文件

（1）、创建索引

先初始化一个IndexModifier对象，然后执行创建索引的核心方法：

01
/// <summary>

02
/// 给txt文件创建索引

03
/// </summary>

04
/// <param name="file"></param>

05
/// <param name="modifier"></param>

06
private void IndexFile(FileInfo file, IndexModifier modifier)

07
{

08
 try

09
 {

10
 Document doc = new Document();//创建文档，给文档添加字段，并把文档添加到索引书写器里

11
 SetOutput("正在建立索引，文件名：" + file.FullName);

12

13
 doc.Add(new Field("id", id.ToString(), Field.Store.YES, Field.Index.TOKENIZED));//存储且索引

14
 id++;

15

16
 /* filename begin */

17
 doc.Add(new Field("filename", file.FullName, Field.Store.YES, Field.Index.TOKENIZED));//存储且索引

18
 //doc.Add(new Field("filename", file.FullName, Field.Store.YES, Field.Index.UN_TOKENIZED));

19
 //doc.Add(new Field("filename", file.FullName, Field.Store.NO, Field.Index.TOKENIZED));

20
 //doc.Add(new Field("filename", file.FullName, Field.Store.NO, Field.Index.UN_TOKENIZED));

21
 /* filename end */

22

23
 /* contents begin */

24
 //doc.Add(new Field("contents", new StreamReader(file.FullName, System.Text.Encoding.Default)));

25

26
 string contents = string.Empty;

27
 using (TextReader rdr = new StreamReader(file.FullName, System.Text.Encoding.Default))

28
 {

29
 contents = rdr.ReadToEnd();//将文件内容提取出来

30
 doc.Add(new Field("contents", contents, Field.Store.YES, Field.Index.TOKENIZED));//存储且索引

31
 //doc.Add(new Field("contents", contents, Field.Store.NO, Field.Index.TOKENIZED));//不存储索引

32
 }

33
 /* contents end */

34
 modifier.AddDocument(doc);

35
 }

36

37
 catch (FileNotFoundException fnfe)

38
 {

39
 }

40
}

最后，IndexModifier对象执行Close方法。

几个注意点：

a、IndexModifier类封装了平时经常使用的IndexWriter和IndexReader，而且不用我们额外考虑多线程；

b、StandardAnalyzer是经常使用的一个Analyzer，目前对中文分词支持的也还不错（大名鼎鼎的盘古分词请参考牛人eaglet的这几篇）；

c、IndexModifier的Optimize方法的执行可以优化索引文件，但是比较耗时间，根据我的测试，索引文件越大，优化时间线性增加，所以实际的开发中这个方法我们都会按照一定的策略执行；

c、IndexModifier的Close方法必须执行，否则你所做的一切都是无用功。

（2）、按照id删除一条索引

代码相对而言非常简单，直接利用IndexModifier 的DeleteDocuents方法：

1
Directory directory = FSDirectory.GetDirectory(INDEX_STORE_PATH, false);

2
IndexModifier modifier = new IndexModifier(directory, new StandardAnalyzer(), false);

3

4
Term term = new Term("id", id);

5
modifier.DeleteDocuments(term);//删除 

6
modifier.Close();

7
directory.Close();

其中，IndexModifier还有一个方法DeleteDocument，它的参数是整数docNum，通常我们也不知道索引文件的内部docNum是多少，所以非常少用它。

（3）、按照id更新一条索引

贴一下主要方法：

01
bool enableCreate = IsEnableCreated();//是否已经创建索引文件

02
Term term = new Term("id", id);

03
Document doc = new Document();

04
doc = new Document();//创建文档，给文档添加字段，并把文档添加到索引书写器里

05
doc.Add(new Field("id", id, Field.Store.YES, Field.Index.TOKENIZED));//存储且索引

06
doc.Add(new Field("filename", filename, Field.Store.YES, Field.Index.TOKENIZED));

07
doc.Add(new Field("contents", filename, Field.Store.YES, Field.Index.TOKENIZED));

08
LuceneIO.Directory directory = LuceneIO.FSDirectory.GetDirectory(INDEX_STORE_PATH, enableCreate);

09
IndexWriter writer = new IndexWriter(directory, new StandardAnalyzer(),IndexWriter.MaxFieldLength.LIMITED);

10
writer.UpdateDocument(term, doc);

11
writer.Optimize();

12
//writer.Commit();

13
writer.Close();

14
directory.Close();

需要注意，这一次，我们使用了IndexWriter对象的UpdateDocument方法，而IndexModifier没有找到现成的UpdateDocument方法。Optimize通常需要执行一下，否则索引文件中会有两个相同id的索引。

2、索引保存至内存

如果1你已经理解了，2其实可以不用细究。在IndexModifier的构造函数里有一个重载：

`1`	`public` `IndexModifier(Directory directory, Analyzer analyzer,` `bool` `create);`

下面的示例代码中第一个参数RAMDirectory就是一个Directory，我们可以把它定义成静态，创建索引的时候就完成了保存至内存的效果：

`1`	`private` `static` `RAMDirectory ramDir =` `null;`

`2`	`IndexModifier modifier = new IndexModifier(ramDir, new StandardAnalyzer(),` `true);`

经测试，增删改查原理同1。

3、利用Lucene.Net配合数据库查询

平时开发中，对于数据库中的海量数据，频繁读库可能不能满足效率和速度的需求。我们也可以利用Lucene.Net配合数据库快速查询结果。至于如何对数据库利用Lucene.Net创建索引，增删改查和同1中的介绍是一模一样的。比如本文demo中创建索引的实现，取前1000个人对他们的Id和姓名进行索引。在编码之前，我先往Person表中插入了一些数据：

1
INSERT Person(FirstName,LastName,Weight,Height) VALUES('明','姚',200,223)

2
INSERT Person(FirstName,LastName,Weight,Height) VALUES('建联','易',180,213)

3
INSERT Person(FirstName,LastName,Weight,Height) VALUES('德科','诺维斯基',180,211)

4
INSERT Person(FirstName,LastName,Weight,Height) VALUES('德怀特','霍华德',190,218)

5
INSERT Person(FirstName,LastName,Weight,Height) VALUES('约什','霍华德',178,197)

6
INSERT Person(FirstName,LastName,Weight,Height) VALUES('蒂姆','邓肯',183,211)

7
INSERT Person(FirstName,LastName,Weight,Height) VALUES('凯文','加内特',182,215)

8
INSERT Person(FirstName,LastName,Weight,Height) VALUES('德隆','威廉姆斯',166,197)

接着先取出1000个人：

`1`	`string` `SQL =` `"SELECT TOP 1000 Id,FirstName,LastName FROM Person(NOLOCK)";`

`2`	`IList<Person> listPersons = EntityConvertor.QueryForList<Person>(SQL, strSQLConn,` `null);`

然后建立索引即可：

01
private void IndexDB(IndexModifier modifier,IList<Person> listModels)

02
 {

03
 SetOutput(string.Format("正在建立数据库索引，共{0}人",listModels.Count));

04
 foreach (Person item in listModels)

05
 {

06
 Document doc = new Document();//创建文档，给文档添加字段，并把文档添加到索引书写器里

07
 doc.Add(new Field("id", item.Id.ToString(), Field.Store.YES, Field.Index.TOKENIZED));//存储且索引

08
 doc.Add(new Field("fullname", string.Format("{0} {1}",item.FirstName,item.LastName), Field.Store.YES, Field.Index.TOKENIZED));//存储且索引

09
 modifier.AddDocument(doc);

10
 }

11
 }

同样的道理，最后我们也执行这两个方法（Optimize方法不是一定要做的）：

`1`	`modifier.Optimize();//优化索引`

`2`	`modifier.Close();//关闭索引读写器`

三、搜索

本文示例代码中的搜索都是利用Lucene.Net的IndexSearcher默认的比较直接简单的一个搜索方法 Search(Query query, Filter filter, int n)，很多重载方法我也没有使用过：

01
/// <summary>

02
 /// 根据索引搜索

03
 /// </summary>

04
 /// <param name="keyword"></param>

05
 /// <returns></returns>

06
 private TopDocs Search(string keyword,string field)

07
 {

08
 TopDocs docs = null;

09
 int n = 10;//最多返回多少个结果

10
 SetOutput(string.Format("正在检索关键字：{0}", keyword));

11
 try

12
 {

13
 QueryParser parser = new QueryParser(field, new StandardAnalyzer());//针对内容查询

14
 Query query = parser.Parse(keyword);//搜索内容 contents  (用QueryParser.Parse方法实例化一个查询)

15
 Stopwatch watch = new Stopwatch();

16
 watch.Start();

17
 docs = searcher.Search(query, (Filter)null, n); //获取搜索结果

18
 watch.Stop();

19
 StringBuffer sb = "索引完成,共用时：" + watch.Elapsed.Hours + "时 " + watch.Elapsed.Minutes + "分 " + watch.Elapsed.Seconds + "秒 " + watch.Elapsed.Milliseconds + "毫秒";

20
 SetOutput(sb);

21
 }

22
 catch (Exception ex)

23
 {

24
 SetOutput(ex.Message);

25
 docs = null;

26
 }

27
 return docs;

28
 }

29

30
 /// <summary>

31
 /// 显示搜索结果

32
 /// </summary>

33
 /// <param name="queryResult"></param>

34
 private void ShowFileSearchResult(TopDocs queryResult)

35
 {

36
 if (queryResult == null || queryResult.totalHits == 0)

37
 {

38
 SetOutput("Sorry，没有搜索到你要的结果。");

39
 return;

40
 }

41

42
 int counter = 1;

43
 foreach (ScoreDoc sd in queryResult.scoreDocs)

44
 {

45
 try

46
 {

47
 Document doc = searcher.Doc(sd.doc);

48
 string id = doc.Get("id");//获取id

49
 string fileName = doc.Get("filename");//获取文件名

50
 string contents = doc.Get("contents");//获取文件内容

51
 string result = string.Format("这是第{0}个搜索结果,Id为{1},文件名为:{2}，文件内容为:{3}{4}", counter, id, fileName, Environment.NewLine, contents);

52
 SetOutput(result);

53
 }

54
 catch (Exception ex)

55
 {

56
 SetOutput(ex.Message);

57
 }

58
 counter++;

59
 }

60
 }

下一篇我会补充介绍一下Lucene.Net常用的搜索、排序和分页，今天偷懒一下。

最后，本文demo中的代码算不上优美，可读性还凑合，希望大家下载之后看看吧，我还在幻想万一对新手能有所帮助，或者引来某个误入的高手指点一二，于人于己那就真是善莫大焉了。

demo下载：LuceneNetApp

参考：

http://www.cnblogs.com/birdshover/category/152283.html

http://lucene.apache.org/lucene.net/

http://lucene.apache.org/lucene.net/docs/

[转载]Lucene.Net 2.4.0无障碍学习和使用：索引篇

一、简单认识索引

二、创建、优化、删除和更新索引实践

1、索引保存至文件

（1）、创建索引

（2）、按照id删除一条索引

（3）、按照id更新一条索引

2、索引保存至内存

3、利用Lucene.Net配合数据库查询

三、搜索

相关推荐

热门标签

分类

链接表

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

一、简单认识索引

二、创建、优化、删除和更新索引实践

1、索引保存至文件

（1）、创建索引

（2）、按照id删除一条索引

（3）、按照id更新一条索引

2、索引保存至内存

3、利用Lucene.Net配合数据库查询

三、搜索

相关推荐

热门标签

分类

链接表

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

切换注册登录

用户名或邮箱

密码

切换登录注册

昵称

邮箱