聪明文档网

聪明文档网

最新最全的文档下载
当前位置: 首页> 全文检索引擎的设计研究

全文检索引擎的设计研究

时间:    下载该word文档
2007年10月第lo期
全文检索引擎的设计研究
陈立
(长春大学计算机科学技术学院,长春130022)
[摘要】
本文主要从“全文检索引擎(FullSeaw.hd)。的设计与实现出发。讨论了其中的主要技术:全文检
索、系统榘构、敷据的索引和搜索等。
【关键词】
[A鼬ct]
全文检索;系统架构;敷据索引;敖据搜索
Based
designandimplementat/onFullSearcher,thisp旧lperdiscussestheprimarytech啪丑。盯in
FuUSearcher:full
text
seamh,systemarchilectureanddataindeJfing&search。etc.
[Keywords]full
text
search;systemarchitectm'e;dataindexing;datasearch
【中图分类号】TP31【文献标识码)A[文章编号】1008—0821【2007)10—0223—03
全文检索是指计算机索引程序通过扫描文章中的每一是当前全文检索技术尤其是中文全文检索技术中的难点,个词.对每一个词建立一个索引,指明该词在文章中出现在此不做详述。
的次数和位置,当用户查询时,检索程序就根据事先建立全文检索系统是按照全文检索理论建立起来的用于提的索引进行查找。并将查找的结果反馈给用户的检索方式。供全文检索服务的软件系统。一般来说.全文检索需要具这个过程类似于通过字典中的检索字表查字的过程。
备建立索引和提供查询的基本功能。此外现代的全文检索全文检索的方法主要分为按字检索和按词检索两种。系统还需要具有方便的用户接口、面向WWW的开发接口、按字检索是指对于文章中的每一个字都建立索引.检索时二次应用开发接口等等。功能上。全文检索系统核心具有将词分解为字的组合。对于各种不同的语言而言,字有不建立索引、处理查询返回结果集、增加索引、优化索引结同的含义。比如英文中字与词实际上是合一的,而中文中构等等功能。外围则由各种不同应用具有的功能组成。结字与词有很大分别。按词检索指对文章中的词,即语义单构上。全文检索系统核心具有索引引擎、查询引擎、文本位建立索引。检索时按词检索,并且可以处理同义项等。分析引擎、对外接口等等,加上各种外围应用系统等等共英文等西方文字由于按照空白切分词,因此实现上与按字同构成了全文检索系统。全文检索系统的结构与功能如图
处理类似,添加同义处理也很容易。中文等东方文字则需1所示。
要切分字词。以达到按词索引的目的,关于这方面的问题.

图1全文检索系统的结构与功能
全文检索系统中最为关键的部分是全文检索引擎,各统添加处理某种语言或者文本格式的功能,比如在英文系种应用程序都需要建立在这个引擎之上。一个全文检索应统中添加中文处理功能,在纯文本系统中添加XML或者用的优异程度。根本上由全文检索引擎来决定。因此提升HTML格式的文本处理功能,系统的开放性和扩充性就十
全文检索引擎的效率即是我们提升全文检索应用的根本。分的重要。
另一个方面,一个优异的全文检索引擎.在做到效率优化我们设计开发了一套较实用的全文检索引擎的同时,还需要具有开放的体系结构.以方便程序员对整(FullS倒d职)。本文将从。FullSearcher”的检索技术和系统个系统进行优化改造。或者是添加原有系统没有的功能。架构出发。阐述全文检索引擎的设计与实现的方案。
比如在当今多语言处理的环境下.有时需要给全文检索系
收稿日期:2∞7_.o㈣
作者简介:陈立(1973一),男.长春大学计算科学与技术学院讲师,硕士,研究方向:分布式检索技术、数据库技术、软件组件。
・-——223-・——
 
方数据
200r7年10月第lO期
l实现原理
全文检索引擎的实现原理,大体上分为4个步骤:(1)从互联网上抓取网页;(2)建立索引数据库;(3)在索引数据库中搜索;(4)对搜索结果进行处理和排序。
引数据库。
1.3在索引数据库中搜索
当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关
网页。
1.1从互联网上抓取网页
利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网。并沿着任何网页中的所有URL爬到其它网页.重复这过程,并把爬过的所有网页收集到服务器中。
1.4时搜索结果进行处理排序
所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
1.2建立索引数据库
由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在uRL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索
2系统架构
如图2所示是一个典型的全文检索引擎系统架构图,全文检索引擎的各部分都会相互交错相互依赖。

图2全文检索引擎系统架构
词的识别;(3)标引库的建立。
互联网上大部分信息都是以I-rrML格式存在,对于索引来说。只处理文本信息。因此需要把网页中文本内容提取出来,过滤掉一些脚本标示符和一些无用的广告信息,同时记录文本的版面格式信息。词的识别是搜索引擎中非常关键的一部分。通过字典文件对网页内的词进行识别。对于西文信息来说,需要识别词的不同形式.例如:单复数、过去式、组合词、词根等,对于一些亚洲语言(中文、日文、韩文等)需要进行分词处理。识别出网页中的每个词,并分配惟一的w弧iD号。用于为数据索引中的标引模块服务。
标引库的建立是数据索引中结构最复杂的一部分。一般需要建立两种标引:文档标引和关键词标引。文档标引
其处理流程按照如下描述:
2.1
“网络蜘蛛”从互联网上抓取网页,把网页送入“网
页数据库”,从网页中“提取IJl也”。把URL送入“URL数据审”。“蜘蛛控制”得到网页的URL。控制“网络蜘蛛”抓取其它网页。反复循环直到把所有的网页抓取完成。2.2系统从。网页数据库”中得到文本信息。送入“文本索引”模块建立索引,形成“索引数据库”。同时进行“链接信息提取”。把链接信息(包括锚文本、链接本身等信息)送入。链接数据库”。为“网页评级”提供依据。
2.3
“用户”通过提交查询请求给“查询服务器”。服务器
在“索引数据库”中进行相关网页的查找,同时“网页评级”把查询请求和链接信息结合起来对搜索结果进行相关度的评价。通过。查询服务器”按照相关度进行排序,并提取关键词的内容摘要,组织最后的页面返回给“用户”。
分配每个网页一个惟一的dodD号。根据dD皿l标引出在这
个网页中出现过多少过wordID。每个啪ldD出现的次数、位置、大小写格式等。形成&riD对应wozdID的数据列表;
3数据的索引和搜索
数据的索引分为3个步骤:(1)网页内容的提取;(2)
・-~224・・—・
方数据 

2007年10月第10期
关键词标引其实是对文档标引的逆标引,根据wordlD标引出这个词出现在那些网页(用wordID表示),出现在每个网页的次数、位置、大小写格式等,形成wordlD对应doclD的列表。
搜索的处理过程是对用户的搜索请求进行满足的过程,通过用户输入搜索关键字,搜索服务器对应关键词字典,把搜索关键词转化为wordID,然后在标引库中得到doclD列表,对doclD列表进行扫描和wordlD的匹配,提取满足条件的网页,然后计算网页和关键词的相关度,根据相关度的数值返回前K篇结果(不同的搜索引擎每页的搜索结果数不同)返回给用户。如果用户查看的第二页或者第多少页,重新进行搜索,把排序结果中在第K+1到2*K的网页组织返回给用户。其处理流程如图3所示。
4结论
本文以全文检索引擎的设计与实现为例,简单地介绍了全文检索技术的基本概念、原理和具体应用。随着搜索引擎市场空间越来越大,搜索引擎也分得越来越细。数以亿计的网民,搜索需求不可能都一样,不同类型的用户需要不同类型的搜索引擎,全文检索只是搜索需求中的一种,这就决定了搜索引擎会不断细化,各具特色的搜索引擎也陆续出现。而本文中的所使用的技术,在这些不同的应用领域中,都将会有一定的使用价值。
参考文献

[1]考盛韬・基!主题的Web"f¥息采集技术研究[D]・中国科竺研究院计算苎术?李所翟士毕兰论毫,,2002-[23许洪波・大规模信息过滤技术研究及其在Web问答系
..
,,
[3]谭建龙.串品萋妻裟瑟容分析中的应用
f葫.中国科学院计算襄术研究所博士毕业论文:之03.
文全文检索网.2004.
[4]winter.中文搜索引擎技术揭密:系统架构[EB].中

系列处理过程都是由计算机自动完成的,用户要做的只是输入查询要求,最后得到的就是若干个符合要求的宾馆以及它们的一些基本信息。
语义Web是下一代互联网发展的一个方向,其构建的基本工具如XML和RDF等已经具备,但语义Web的真正实现还要走一段相当长的路:利用RDF描述的信息非常利于人阅读,但并非完全利于计算机处理;基于XML的语义Web代理可以使计算机高效地进行信息的分析处理,而用户直接理解起来还比较困难。网络的发展是越来越智能化人性化,因此只有借助RDF这样一些技术结合XML语言再融合其他人工智能技术才能构建起较为完全的语义Web。
[4]T钿Bemers—lee,James
mantic
Hendler,Ora
Imsila.IIk
Se—

W幽【EB].ht【p:∥Www.sciam.corn/article.elm?arti.


cMD=00048144一10D2—1C70—84A9809EC588日陀l【5]PeteJohnston.Guidelines
foxImplementingDublinCore
in
XML[EB/OL].Intp:∥dublineoxe.oxg/documents/2003/04/
02/doxml—guide—lines/.2003—04—02.
[6]Ora1.assula,et
a1..删Widew曲conso而um.Re-
SyntaxSpec/fiea—rdf—syntax一
SOI//L-把Description
Framework(RDF)Modeland
tion[EB/OL].http:}}www.记.org/1999/REC
1999—02—22.1999.
[7]肖珑,等.中文元数据标准框架及其应用[J].大学
图书馆学报,2001,(5):29—35..
[8]姜恩波.RDF原理结构初探[J].现代图书情报技术,2001,(5):32—33.
参考文献
[1]Decker
S.TheSemantic
Web,theRolesofXMLandRDF.
IEEEIntemetComputing.2000—09—10.
[9]凌海云,等.语义标注元数据及其抽取技术[J].计
算机应用研究,2004,(7):147—149.[10]T
Bemers
[2]HendlerJ.Agents
and
theSemanticWeb.IEEEIntenigent
Syst锄,2001—03一04.
[3]刘炜.数字图书馆的体系结构与元数据方案[J].情
Lee.JHandler.0Lassila,TheSemanticWeb.
ScientificAmerica.May2001:279.
方数据 
・--——225・--——

免费下载 Word文档免费下载: 全文检索引擎的设计研究

  • 29.8

    ¥45 每天只需1.0元
    1个月 推荐
  • 9.9

    ¥15
    1天
  • 59.8

    ¥90
    3个月

选择支付方式

  • 微信付款
郑重提醒:支付后,系统自动为您完成注册

请使用微信扫码支付(元)

订单号:
支付后,系统自动为您完成注册
遇到问题请联系 在线客服

常用手机号:
用于找回密码
图片验证码:
看不清?点击更换
短信验证码:
新密码:
 
绑定后可用手机号登录
请不要关闭本页面,支付完成后请点击【支付完成】按钮
遇到问题请联系 在线客服