SQL Server 全文索引查询T-SQL学习笔记之一(Full-text index)

by shinichi_wtn 2009-12-11 11:29

引言

这段时间为了提高海量字符串数据的查询效率,我对字段添加了全文索引。首先全文索引相对于传统的索引是有区别的,这是因为传统的索引主要是以首字母开始建立的索引,处理like 'keword%'这样的查询会很高效,但是如果查询时不限定首字母,而只是包含某个词,比如like '%keyword%'这样的查询,实际操作中无法使用传统索引加速查询效率,而只能一项一项比较了。

而全文索引正是提供了“包含”式查询机制,查询一个长字符串中是否包含给定关键词的功能,这无论是在搜索引擎或是网站的搜索平台都是很有用处的。

首先,推荐一本学习SQL Server全文索引的书籍,这本书详细的讲解了全文索引的方方面面,甚至还阐述许多设计搜索引擎的思想和方法。书名是《Pro Full-Text Search in SQL Server 2008》,是Apress出版的。

这本书的内容是按章划分的,同时由浅入深,从一般的技巧到高级的技巧。我这里就简单分享一下基本的全文查询方法,更多高级的技巧应该在实际应用中按需进行学习。

要实现全文查询,首先安装的SQL Server实例要支持全文查询服务,可以查看windows服务是否有全文索引服务。如果没有,则要重新安装SQL Server并选择添加功能,将Full-Text功能选中,然后再安装或升级。

有了全文查询服务,还不能直接进行查询,需要先在想要建立全文索引的字段上建立一个全文索引。方法是打开企业管理器,选择字段所在表格,然后点击右键,选择"Full-text inde”,然后选择"define Full-text index"就能进入设置面板。

需要注意的是,全文索引只能建立在Unique(唯一)字段上,并且每个表最多只能有一个全文索引字段,因此要慎重。然后按照提示建立全文索引即可(可以参见我推荐的那本书,会有一步一步操作的详细说明和注释)

建立好全文索引后,就能够运用T-SQL的全文查询语法进行全文查询了。

主要有两个语法,一个是contains,另一个是freetext

Contains

contains从字面上就能很好理解,即包含,比如我们在表Sample的一个字段Column里查询包含“世界末日”这个关键词的所有记录,该表一共有60万条记录,传统的查询语法是

select * from Sample where [Column] like '%世界末日%'

我们修改一下查询语言,并记录查询时间,如下

declare @d datetime
set @d=getdate()
select [Column] as [result] from Sample where [Column] like '%世界末日%'
select [语句执行花费时间(毫秒)]=datediff(ms,@d,getdate())

执行结果如下:

下面,我们使用全文查询语法contains,如下

select [Column] as [result] from Sample where contains([Column],'世界末日')

执行结果如下

我们可以看出,全文索引极大的改变了查询效率,传统查询花费了503毫秒(半秒),而全文索引却不足一毫秒,效率提高了上千倍。由于表记录只有60万,如果记录数更多,几千万甚至上亿,那么全文索引必然会带来更大的效率优势。

当然,效率是需要空间来换取的,全文索引需要开销大量的磁盘空间,所以有时候索引比原数据还大也是正常现象

Freetext

freetext在搜索引擎方面具有大量应用,因为它提供了类似于“模糊查询”的机制,他的查询机制是只要含有查询关键词中的某个字符或词语,那么就选中该记录,因此它返回的结果会很多很多,往往我们需要用top语法来限定结果数量。还是查询“世界末日”,这个时候它会返回包含“世”或“界”或“末”或“日”的所有词语,因此结果集往往很大。它的查询语法如下:

select [Column] as [result] from Sample where freetext([Column],'世界末日') 

执行结果如下,一共返回了1820条记录

其实freetext语法和contains语法是一样的,只是执行的方式不一样罢了,contains是精确限定,而freetext是模糊限定,只要出现了关键词中的字,就被选中。freetext的好处就是提供模糊查询,往往用户给出的关键词我们库里没有,那么用contains将无法返回结果,而使用freetext就能返回相关结果,不过由于freetext是即挑即选,没有对结果关于关键词的匹配程度来排序,所以也是一个缺陷,但是我们可以通过SQL Server全文索引中的Top_k_by_rank方法来对结果进行排序,这个时候要用到更为高级的全文索引查询语法containstable和freetexttable,这将在学习笔记二中介绍。

更多内容参见学习笔记二

Comments (1) -

liumingaccp People's Republic of China
5/30/2010 9:40:23 AM #

很好,非常好,不一般的好,很受用 原来freetext有这种功效。

Reply

(仅用于Gavatar)

  Country flag

biuquote
  • Comment
  • Preview
Loading

About

shinichi_wtnI'm Shinichi_wtn

Software Engineering Manager at Microsoft

[More...]

Widget Recent Tweets not found.

The remote server returned an error: (403) Forbidden.X


Month List