当前位置：首页> 全文检索引擎的设计研究

全文检索引擎的设计研究

时间：下载该word文档

２００７年１０月第ｌｏ期
全文检索引擎的设计研究
陈立
（长春大学计算机科学技术学院，长春１３００２２）
［摘要】
本文主要从“全文检索引擎（ＦｕｌｌＳｅａｗ．ｈｄ）。的设计与实现出发。讨论了其中的主要技术：全文检
索、系统榘构、敷据的索引和搜索等。
【关键词】
［Ａ鼬ｃｔ］
全文检索；系统架构；敷据索引；敖据搜索
Ｂａｓｅｄ
ｄｄｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｔ／ｏｎｄＦｕｌｌＳｅａｒｃｈｅｒ，ｔｈｉｓｐ旧ｌｐｅｒｄｉｓｃｕｓｓｅｓｔｈｅｐｒｉｍａｒｙｔｅｃｈ啪丑。盯ｉｎ
ＦｕＵＳｅａｒｃｈｅｒ：ｆｕｌｌ
ｔｅｘｔ
ｓｅａｍｈ，ｓｙｓｔｅｍａｒｃｈｉｌｅｃｔｕｒｅａｎｄｄａｔａｉｎｄｅＪｆｉｎｇ＆ｓｅａｒｃｈ。ｅｔｃ．一
［Ｋｅｙｗｏｒｄｓ］ｆｕｌｌ
ｔｅｘｔ
ｓｅａｒｃｈ；ｓｙｓｔｅｍａｒｃｈｉｔｅｃｔｍ＇ｅ；ｄａｔａｉｎｄｅｘｉｎｇ；ｄａｔａｓｅａｒｃｈ
【中图分类号】ＴＰ３１【文献标识码）Ａ［文章编号】１００８—０８２１【２００７）１０—０２２３—０３
全文检索是指计算机索引程序通过扫描文章中的每一是当前全文检索技术尤其是中文全文检索技术中的难点，个词．对每一个词建立一个索引，指明该词在文章中出现在此不做详述。
的次数和位置，当用户查询时，检索程序就根据事先建立全文检索系统是按照全文检索理论建立起来的用于提的索引进行查找。并将查找的结果反馈给用户的检索方式。供全文检索服务的软件系统。一般来说．全文检索需要具这个过程类似于通过字典中的检索字表查字的过程。
备建立索引和提供查询的基本功能。此外现代的全文检索全文检索的方法主要分为按字检索和按词检索两种。系统还需要具有方便的用户接口、面向ＷＷＷ的开发接口、按字检索是指对于文章中的每一个字都建立索引．检索时二次应用开发接口等等。功能上。全文检索系统核心具有将词分解为字的组合。对于各种不同的语言而言，字有不建立索引、处理查询返回结果集、增加索引、优化索引结同的含义。比如英文中字与词实际上是合一的，而中文中构等等功能。外围则由各种不同应用具有的功能组成。结字与词有很大分别。按词检索指对文章中的词，即语义单构上。全文检索系统核心具有索引引擎、查询引擎、文本位建立索引。检索时按词检索，并且可以处理同义项等。分析引擎、对外接口等等，加上各种外围应用系统等等共英文等西方文字由于按照空白切分词，因此实现上与按字同构成了全文检索系统。全文检索系统的结构与功能如图
处理类似，添加同义处理也很容易。中文等东方文字则需１所示。
要切分字词。以达到按词索引的目的，关于这方面的问题．
情报纵磺
图１全文检索系统的结构与功能
全文检索系统中最为关键的部分是全文检索引擎，各统添加处理某种语言或者文本格式的功能，比如在英文系种应用程序都需要建立在这个引擎之上。一个全文检索应统中添加中文处理功能，在纯文本系统中添加ＸＭＬ或者用的优异程度。根本上由全文检索引擎来决定。因此提升ＨＴＭＬ格式的文本处理功能，系统的开放性和扩充性就十
全文检索引擎的效率即是我们提升全文检索应用的根本。分的重要。
另一个方面，一个优异的全文检索引擎．在做到效率优化我们设计开发了一套较实用的全文检索引擎的同时，还需要具有开放的体系结构．以方便程序员对整（ＦｕｌｌＳ倒ｄ职）。本文将从。ＦｕｌｌＳｅａｒｃｈｅｒ”的检索技术和系统个系统进行优化改造。或者是添加原有系统没有的功能。架构出发。阐述全文检索引擎的设计与实现的方案。
比如在当今多语言处理的环境下．有时需要给全文检索系
收稿日期：２∞７＿．ｏ㈣
作者简介：陈立（１９７３一），男．长春大学计算科学与技术学院讲师，硕士，研究方向：分布式检索技术、数据库技术、软件组件。
・－——２２３－・——
万　
方数据
２００ｒ７年１０月第ｌＯ期
ｌ实现原理
全文检索引擎的实现原理，大体上分为４个步骤：（１）从互联网上抓取网页；（２）建立索引数据库；（３）在索引数据库中搜索；（４）对搜索结果进行处理和排序。
引数据库。
１．３在索引数据库中搜索
当用户输入关键词搜索后，分解搜索请求，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关
网页。
１．１从互联网上抓取网页
利用能够从互联网上自动收集网页的网络蜘蛛程序，自动访问互联网。并沿着任何网页中的所有ＵＲＬ爬到其它网页．重复这过程，并把爬过的所有网页收集到服务器中。
１．４时搜索结果进行处理排序
所有相关网页针对该关键词的相关信息在索引库中都有记录，只需综合相关信息和网页级别形成相关度数值，然后进行排序，相关度越高，排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
１．２建立索引数据库
由索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在ｕＲＬ、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索
２系统架构
如图２所示是一个典型的全文检索引擎系统架构图，全文检索引擎的各部分都会相互交错相互依赖。
情报纵横
图２全文检索引擎系统架构
词的识别；（３）标引库的建立。
互联网上大部分信息都是以Ｉ－ｒｒＭＬ格式存在，对于索引来说。只处理文本信息。因此需要把网页中文本内容提取出来，过滤掉一些脚本标示符和一些无用的广告信息，同时记录文本的版面格式信息。词的识别是搜索引擎中非常关键的一部分。通过字典文件对网页内的词进行识别。对于西文信息来说，需要识别词的不同形式．例如：单复数、过去式、组合词、词根等，对于一些亚洲语言（中文、日文、韩文等）需要进行分词处理。识别出网页中的每个词，并分配惟一的ｗ弧ｉＤ号。用于为数据索引中的标引模块服务。
标引库的建立是数据索引中结构最复杂的一部分。一般需要建立两种标引：文档标引和关键词标引。文档标引
其处理流程按照如下描述：
２．１
“网络蜘蛛”从互联网上抓取网页，把网页送入“网
页数据库”，从网页中“提取ＩＪｌ也”。把ＵＲＬ送入“ＵＲＬ数据审”。“蜘蛛控制”得到网页的ＵＲＬ。控制“网络蜘蛛”抓取其它网页。反复循环直到把所有的网页抓取完成。２．２系统从。网页数据库”中得到文本信息。送入“文本索引”模块建立索引，形成“索引数据库”。同时进行“链接信息提取”。把链接信息（包括锚文本、链接本身等信息）送入。链接数据库”。为“网页评级”提供依据。
２．３
“用户”通过提交查询请求给“查询服务器”。服务器
在“索引数据库”中进行相关网页的查找，同时“网页评级”把查询请求和链接信息结合起来对搜索结果进行相关度的评价。通过。查询服务器”按照相关度进行排序，并提取关键词的内容摘要，组织最后的页面返回给“用户”。
分配每个网页一个惟一的ｄｏｄＤ号。根据ｄＤ皿ｌ标引出在这
个网页中出现过多少过ｗｏｒｄＩＤ。每个啪ｌｄＤ出现的次数、位置、大小写格式等。形成＆ｒｉＤ对应ｗｏｚｄＩＤ的数据列表；
３数据的索引和搜索
数据的索引分为３个步骤：（１）网页内容的提取；（２）
・－～２２４・・—・
万方数据　

２００７年１０月第１０期
关键词标引其实是对文档标引的逆标引，根据ｗｏｒｄｌＤ标引出这个词出现在那些网页（用ｗｏｒｄＩＤ表示），出现在每个网页的次数、位置、大小写格式等，形成ｗｏｒｄｌＤ对应ｄｏｃｌＤ的列表。
搜索的处理过程是对用户的搜索请求进行满足的过程，通过用户输入搜索关键字，搜索服务器对应关键词字典，把搜索关键词转化为ｗｏｒｄＩＤ，然后在标引库中得到ｄｏｃｌＤ列表，对ｄｏｃｌＤ列表进行扫描和ｗｏｒｄｌＤ的匹配，提取满足条件的网页，然后计算网页和关键词的相关度，根据相关度的数值返回前Ｋ篇结果（不同的搜索引擎每页的搜索结果数不同）返回给用户。如果用户查看的第二页或者第多少页，重新进行搜索，把排序结果中在第Ｋ＋１到２＊Ｋ的网页组织返回给用户。其处理流程如图３所示。
４结论
本文以全文检索引擎的设计与实现为例，简单地介绍了全文检索技术的基本概念、原理和具体应用。随着搜索引擎市场空间越来越大，搜索引擎也分得越来越细。数以亿计的网民，搜索需求不可能都一样，不同类型的用户需要不同类型的搜索引擎，全文检索只是搜索需求中的一种，这就决定了搜索引擎会不断细化，各具特色的搜索引擎也陆续出现。而本文中的所使用的技术，在这些不同的应用领域中，都将会有一定的使用价值。
参考文献
，
［１］考盛韬・基！主题的Ｗｅｂ＂ｆ￥息采集技术研究［Ｄ］・中国科竺研究院计算苎术？李所翟士毕兰论毫，，２００２－［２３许洪波・大规模信息过滤技术研究及其在Ｗｅｂ问答系
．．
，，
［３］谭建龙．串品萋妻裟瑟容分析中的应用
ｆ葫．中国科学院计算襄术研究所博士毕业论文：之０３．
文全文检索网．２００４．
［４］ｗｉｎｔｅｒ．中文搜索引擎技术揭密：系统架构［ＥＢ］．中
情
系列处理过程都是由计算机自动完成的，用户要做的只是输入查询要求，最后得到的就是若干个符合要求的宾馆以及它们的一些基本信息。
语义Ｗｅｂ是下一代互联网发展的一个方向，其构建的基本工具如ＸＭＬ和ＲＤＦ等已经具备，但语义Ｗｅｂ的真正实现还要走一段相当长的路：利用ＲＤＦ描述的信息非常利于人阅读，但并非完全利于计算机处理；基于ＸＭＬ的语义Ｗｅｂ代理可以使计算机高效地进行信息的分析处理，而用户直接理解起来还比较困难。网络的发展是越来越智能化人性化，因此只有借助ＲＤＦ这样一些技术结合ＸＭＬ语言再融合其他人工智能技术才能构建起较为完全的语义Ｗｅｂ。
［４］Ｔ钿Ｂｅｍｅｒｓ—ｌｅｅ，Ｊａｍｅｓ
ｍａｎｔｉｃ
Ｈｅｎｄｌｅｒ，Ｏｒａ
Ｉｍｓｉｌａ．ＩＩｋ
Ｓｅ—
报
Ｗ幽【ＥＢ］．ｈｔ【ｐ：∥Ｗｗｗ．ｓｃｉａｍ．ｃｏｒｎ／ａｒｔｉｃｌｅ．ｅｌｍ？ａｒｔｉ．
纵
耩
ｃＭＤ＝０００４８１４４一１０Ｄ２—１Ｃ７０—８４Ａ９８０９ＥＣ５８８日陀ｌ【５］ＰｅｔｅＪｏｈｎｓｔｏｎ．Ｇｕｉｄｅｌｉｎｅｓ
ｆｏｘＩｍｐｌｅｍｅｎｔｉｎｇＤｕｂｌｉｎＣｏｒｅ
ｉｎ
ＸＭＬ［ＥＢ／ＯＬ］．Ｉｎｔｐ：∥ｄｕｂｌｉｎｅｏｘｅ．ｏｘｇ／ｄｏｃｕｍｅｎｔｓ／２００３／０４／
０２／ｄｏｘｍｌ—ｇｕｉｄｅ—ｌｉｎｅｓ／．２００３—０４—０２．
［６］Ｏｒａ１．ａｓｓｕｌａ，ｅｔ
ａ１．．删Ｗｉｄｅｗ曲ｃｏｎｓｏ而ｕｍ．Ｒｅ－
ＳｙｎｔａｘＳｐｅｃ／ｆｉｅａ—ｒｄｆ—ｓｙｎｔａｘ一
ＳＯＩ／／Ｌ－把Ｄｅｓｃｒｉｐｔｉｏｎ
Ｆｒａｍｅｗｏｒｋ（ＲＤＦ）Ｍｏｄｅｌａｎｄ
ｔｉｏｎ［ＥＢ／ＯＬ］．ｈｔｔｐ：｝｝ｗｗｗ．记．ｏｒｇ／１９９９／ＲＥＣ
１９９９—０２—２２．１９９９．
［７］肖珑，等．中文元数据标准框架及其应用［Ｊ］．大学
图书馆学报，２００１，（５）：２９—３５．．
［８］姜恩波．ＲＤＦ原理结构初探［Ｊ］．现代图书情报技术，２００１，（５）：３２—３３．
参考文献
［１］Ｄｅｃｋｅｒ
Ｓ．ＴｈｅＳｅｍａｎｔｉｃ
Ｗｅｂ，ｔｈｅＲｏｌｅｓｏｆＸＭＬａｎｄＲＤＦ．
ＩＥＥＥＩｎｔｅｍｅｔＣｏｍｐｕｔｉｎｇ．２０００—０９—１０．
［９］凌海云，等．语义标注元数据及其抽取技术［Ｊ］．计
算机应用研究，２００４，（７）：１４７—１４９．［１０］Ｔ
Ｂｅｍｅｒｓ
［２］ＨｅｎｄｌｅｒＪ．Ａｇｅｎｔｓ
ａｎｄ
ｔｈｅＳｅｍａｎｔｉｃＷｅｂ．ＩＥＥＥＩｎｔｅｎｉｇｅｎｔ
Ｓｙｓｔ锄，２００１—０３一０４．
［３］刘炜．数字图书馆的体系结构与元数据方案［Ｊ］．情
Ｌｅｅ．ＪＨａｎｄｌｅｒ．０Ｌａｓｓｉｌａ，ＴｈｅＳｅｍａｎｔｉｃＷｅｂ．
ＳｃｉｅｎｔｉｆｉｃＡｍｅｒｉｃａ．Ｍａｙ２００１：２７９．
万方数据　
・－－——２２５・－－——

阅读全文