全文检索系统整体方案设计

格式：doc
大小：1.94 MB
文档页数：24

下载文档原格式

/ 24

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1全文检索系统方案

1.1全文检索需求

1)系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检

索、跨库检索等多种检索途径；

2)支持字索引和词索引；

3)检索条件具有完整的关键词布尔逻辑运算AND、OR、NOT能力，支持复

合式布尔逻辑运算查询，并且可以配合多组左括号"("与右括号")"作关

键词查询优先级的设置；

4)提供用户多次递进查询的功能，用户可根据上一次查询关键词得到的检

索结果集，增加查询关键词与缩小搜索日期范围，而得到更准确的查询

结果集；

5)能够支持对以上文件中的中文（简体/繁体）、英文、日语、韩语内容实

现关键字检索；

6)支持对Word、TXT、PDF等多种主流文档格式全文检索，并提供开发接

口以支持特殊文档格式的全文检索；

7)在数据源数据发生更新时，能在索引库中反映出来，保证搜索的信息为

最新，即支持增量索引机制；

8)用户可自行设定时间，让系统自动定时进行更新索引；

9)对于百万级记录数的搜索以及结合模糊搜索等查询方式，搜索时间不得

超过10秒；

10)提供跨数据源、数据格式的搜索；

11)同过相关性搜索，能够把和搜索条件相关联的信息搜索出来；

12)不但能够对图片的描述信息进行搜索，还能对图片内容的检索；

13)提供COM与SOAP的搜索接口(Interface) 可让其它应用程序或查询网

页能够提供用户查询入口和查询结果的呈现，用户可通过应用程序或浏

览器访问全文检索服务器，提交查询条件，可在浏览器中查看检索结果；

14)查询结果集中应包含结果集总数、命中的结果文件的完整路径，以及符

合关键词出现的内容片断；

15)在搜索结果集中，关键词应被标识出来，用特殊的字体及颜色和其他文

字进行区别，查询者可在查询结果片断中一目了然的看到关键词出现的

位置；

16)查询结果可按照关键词命中次数，命中结果文件的修改时间，大小等条

件进行排序；

17)可提供用户对检索命中结果文件在索引库中进行标记，从而再次检索

时，不在标记过的文件中进行查询；

1.2全文检索系统总体方案

系统将采用以下全文检索流程。

针对企业内部的信息，包括文件服务器上的文件、网站网页、ERP 等系统存放信息的数据库信息、办公应用中的公文档案文档已经内容管理系统中流转的内容，本系统提供了两种数据适配器来提取其中的正文内容和属性内容，形成一个相对结构化的数据虚拟层；本系统的索引引擎（Indexer ）对结构化的数据虚拟层进行中文切分词、文件特征分析和逐步索引，以及其它索引算法，生成索引数据库；使用者（user ）在搜索页面中输入查询字串等搜索条件并提交给本系统后，本系统的全文检索查询引擎（Searcher ）会在索引库中进行搜索，并将符合搜索条件的搜索结果返回给使用者；使用者（user ）可于查询结果页面，进一步链接到信息原文查看详细内容。

对于系统管理，管理员可通过相应web 方式的管理程序来管理整个系统运行环境及设置文件；并通过索引引擎（Indexer.exe ）实时或定时创建索引，更新索引数据库的内容，使检索信息维持在最新状态。

1.3 全文检索系统带来的效益

高效率的整合搜索，大幅减少组织成员在取得信息时花费的时间！

本系统和其它搜索系统只针对特定信息源搜索不同，它能对企业内部绝大多数的信息创建索引和搜索，

具备强大的信息整合及快速回应能力，让企业成

IRMS.Indexer

Index Database IRMS.SearchEngine

(User Interface)Application (User Interface)

Application

Term Extract Term Index Folder/Share Folder with Documents

Web Site Robot/Spider By URL Entry

RDBMS

(ODBC /

OLEDB / JDBC)

Lotus Domino R5,R6(NSF)

FileNET

內容管理Fuzzy Search

Synonym Phrase

Wild-Card

Multi-field Filter IRMS Adapter

Data Source Composer

File Extractor

员以单一搜索页面、简易的操作方式，即可在最短时间内，完整、准确、及时地掌握企业内外所有信息，不必再耗费大量时间的找寻信息！

✓信息过量不会造成企业成员的信息焦虑！

通过本系统强大的索引/搜索能力，大量的信息也可在瞬间过滤出符合使用者条件的信息，不必担心迷失在漫漫的信息洪流之中！

✓非结构/非组织的信息，不再是知识管理的盲点！

文件/档案以及非经过分类管理的信息，因为附加信息稀少，往往成为知识利用上难以判断、分析的信息。本系统直接针对内容全文分析、关联，使这类信息同样可让使用者以检索方式，快速筛选利用！

✓整合容易，使用简易，导入迅速，易于接受！

套装化、模块化的设计及灵活的整合能力，能在企业内迅速的安装设置；操作方式简单，企业成员易于接受，导入方便。以最经济的时间、人力及费用成本为企业创建信息流通、充分分享的知识环境。

1.4全文检索系统平台架构

本系统基于组件化和松散耦合架构和设计，系统平台架构示意图如下：

整个系统主要分为信息整合、信息萃取和服务、应用整合三个部分。

✓信息整合

此部分主要作用是将企业内部存储于不同应用系统中的结构化信息、半结构化信息、非结构化信息通过本系统提供的两种数据适配器进行信息提取，形成一个相对结构化的数据虚拟层，以备后期信息萃取和服务。

✓信息萃取和服务

在信息整合层形成的相对结构化的数据虚拟层基础上，本系统将对其中的每笔记录进行中文切分词、索引、文件特征分析、自动分类等各种演算算法处理，形成可以提供搜索服务的索引库。用户利用本系统的搜索引擎处理提供的强大的搜索功能，如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等，快速、准确、完整、及时、有效地搜索到符合自己搜索条件的信息。

✓应用整合

本系统还提供了完整的外部程序整合机制。所有组件均提供SDK完整开发接口，方便应用整合和应用扩展。

1.4.1信息整合

此部分主要提供对

据信息源建立自动化数

据汇入功能。根据用户实

际需求，用户可以选择导

入包含Text、Microsoft

Office、XML、RTF、PDF、

HTML、MHT、AutoCAD及

E-mail（含附件文件）等

格式及文件影音附件（如影片的文件名或摘要、图片的文件名或摘要、及文字）自动化建立索引数据，建立索引数据所处理之文字包括繁体中文、简体中文等；

同时用户可以选择导入数据库数据，如Oracle、 Informix、Sybase、MS SQL

等。此外和Notes系统也已经有了无缝整合，可挂载Notes Composer对nsf库

全文检索系统整体方案设计

合集下载

相关主题

文档推荐

最新文档