第2章 计算机信息检索技术

  • 格式:pptx
  • 大小:1.38 MB
  • 文档页数:96

下载文档原格式

  / 96
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 数据库:是计算机检索的对象。是由一个或数个文档构
成,并能够满足某一特定目的或某一特定数据处理系统 需要的一种数据集合。
2.2 数据库的构成
一定专业范围内的信息记录及其索引的集合体,是计算机信息检索系统的
一重定要专组业成部范分围,内是信的息信资息源,记是检录索及对其象。索引的集合体,是计算机 信息检索系统的重要组成部分,是信息资源,是检索对象。
2020/10/16
25
(2)二次文献检索*
是针对全文检索而言,也就是分别将文献的内部特征 (题名、分类等)和外部特征(作者、出处、年代、 ISSN、语言等)作为存储和检索的匹配标识而形成 的数据集合,利用检索系统的检索结果是文献信息的 题录及文摘。
学科领域覆盖面广,信息量大,可以利用文献线索获 取到一次文献。
其中的某些字、符号或短语、图形和图像起着“热链路” (Hotlink)的作用,在显示出来时其字体或颜色变化或者标有下 横线、以区别于一般的正文。当鼠标器的光标移到某个热链路上, 并且按了一下鼠标键之后,鼠标器光标便沿着这条链路跳到该文 件的另一处或另一个文件。
计算机信息检索在经历了传统信息检索、全文文本检索之后,随 着多媒体技术的发展和应用,出现目前这种超文本检索方式。可 用于检索人物、新闻、文档、文艺小说、旅游景点、绘画、古文 物、生物等内容广泛的各种信息。
各大网站均可进行多媒体信息的检索,如:GOOGLE、 百度等搜索引擎、新华社多媒体数据库是国内最大规模 的多媒体、多文种新闻信息综合性数据库。
2020/10/16
27
(4)超文本检索
超文本(Hyper text) 是利用计算机将多介质信息按照一定的逻辑 联接关系加工、贮存起来,构成可任意连接的、有层次的网状结 构数据库,是一种联想式的综合信息管理系统。
特性 的文献数据、人口统计资料、市场调 研数据等。
2020/10/16
22
全文数据库
存储的是原始文献的全文,如杂志论文、报纸 新闻、法院案例等。
全文检索可直接获取原始资料,而不是书目检 索时的线索,提高了用户的检索效率。 如:中国知网(CNKI)、万方、维普、 Elsevier等全文数据库。
2020/10/16
顺排文档是数据库的主体,又称主文档,按每条记 录的顺序号大小排列,检索结果都来自于顺排文档。 倒排文档是从顺排档中抽取有检索意义的检索标识,
如主题词、著者姓名、化学物质名、刊名等,并按 索引词的字顺排列,同时在检索标识后注明入藏顺 序号,这就是常见的数据库中的主题词索引、著者 索引、刊名索引。
2020/10/16
全文检索的应用范围包括:各种科技期刊、专利文献、新闻 报纸、年鉴、百科、手册、图书等全文数据库,例如:我国 引进的OCLC的first search、IEL、Springer Link、EBSCO 等全文数据库以及我国CNKI的中国期刊全文数据库、重庆维 普的中文科技期刊数据库、超星数字图书馆、万方资源系统 的数字化期刊、学位论文、会议论文等。
例如:COMPENDEX、INSPEC、SCI等国外数据库; 万方数据的学位论文、会议论文数据库、全国报刊索 引、Calis西文期刊目次数据库等
2020/10/16
26
(3)多媒体检索
就是把文字、声音、图像(形)等多种信息的传播载体 通过计算机进行数字化加工、处理而形成的一种综合存 储技术。
利用多媒体检索系统可分别进行视频检索、声音检索、 图像检索。多媒体信息检索系统有着广阔的应用前景, 它将广泛用于电子会议、远程教学、远程医疗、电子图 书馆、艺术收藏和地球资源管理、天气预报、时装设计、 智能群体决策、计算机支持协同工作、金融市场、军事 指挥系统、防汛指挥系统等方面。
信息存贮是将文献、数值、事实等按一定的格式输入到计 算机中,加工处理成可供检索的数据库。
信息检索是将检索提问式按一定的要求输入计算机中,经 计算机系统与已存贮在计算机中的数据库进行匹配运算, 然后将符合检索提问的数据按要求的格式输出。
2020/10/16
5
1.3 计算机信息检索特点
检索速度快,效益高; 检索功能强,数量大; 检索途径多,手段灵活; 检索范围广; 服务方式多。
2020/10/16
11
2 计算机信息检索系统组成
2.1 系统设备
➢ 硬件:运算器、控制器、存储器、输入输出装置等 ➢ 软件:系统操作程序、数据库管理程序、联机控制程序、
应用程序等。
➢ 通讯线路:电话通讯网、数据通讯网、卫星通讯网等。 ➢ 检索终端:信息用户与检索系统主机进行人机对话,实
现联机检索的设备。包括上网设备、调制解调器等。
如名人录、机构指南、大事记、百科全书、手 册、地图集、企事业名录、计算机程序、音乐 等,均可归入事实数据库。
例如:中国咨询行、国研网、万方数据(中国 企业、公司及产品、中国科技名人、中国科研 机构等等)
2020/10/16
21
数值数据库
主要包含的是数字数据,如各种统计数据、 科学实验数据、科学测量数据等。 ➢ 气像数据、地质资料、化学或物理化合物
该系统是70年代出现的一门现代化情报检 索手段,目前已发展到相当高的水平,计 算机联机网络和检索终端已遍及世界所有 主要国家和地区。 优点: (1)可以实现资源共享; (2)检索速度快; (3)信息资源专业化; (4)查全率和查准率较高。
国际联机检索的缺点
➢ 检索费用高; ➢对检索系统及其文档(数据库)的收录、
2020/10/16
3
国外计算机信息检索发展阶段(P5)
➢ 脱机检索阶段(20世纪50-60年代) ➢ 联机检索阶段(20世纪60-80年代) ➢ 光盘检索阶段(20世纪80年代中-90年代) ➢ 网络信息检索阶段(1995-)
2020/10/16
4
1.2 计算机信息检索的定义
计算机信息检索的实质就是由计算机将输入的检索策略与 系统中存储的文献特征标识及其逻辑组配关系进行类比、 匹配的过程,需要人——机协同作用来完成。
记录则代表一个信息单元。记录越多,数据库的
容量就越大。
2020/10/16
16
2020/10/16
17
字段(Field)
字段是构成记录的基本单元,是对文献某一方 面的特征(包括外表特征和内容特征)进行描 述的结果。
例如:题名、作者、作者地址、出版年、来源 (出处)、主题词、文摘等字段是书目数据库 中必备字段。为识别每一个字段所表达的文献 特征,通常每个字段都有固定的名称和缩写 (或称字段标识符),如,题名字段的标识符 为TI,作者字段的标识符为AU等。
2020/10/16
10
信息检索过程
用户对检索课题加以分析,明确检索范围,弄清主题 概念,然后用系统检索语言来表示主题概念,形成检 索标识及检索策略,输入到计算机进行检索。计算机按 照用户的要求将检索策略转换成一系列提问,在专用 程序的控制下进行逻辑运算,选出符合要求的信息输 出。
计算机检索的过程实际上是一个比较、匹配的过程, 检索提问只要与数据库中的信息的特征标识及其逻辑 组配关系相一致,则属“命中”,即找到了符合要求 的信息。
23
3 计算机信息检索的分类
1 按信息资源的存储形式分 2 按信息访问模式分
3.1 按信息资源的存储形式分* (P7-8)
(1)全文检索。
以全文数据库存储为基础的检索方式,所谓全文数据库是将 一个完整的信息源的全部内容转化为计算机可以识别、处理 的信息单元而形成的数据集合。
全文检索系统对全文数据库进行词(字)、句、段落等深层 次的编辑、加工,同时允许用户采用自然语言表达,借助逻 辑组配、截词、邻词匹配等检索手段直接查阅文献原文信息。
和主题词等。 这类数据库占用很大的比例,其代表性的数据库有 《EI Compendex Plus》(工程索引)、《INSPEC》(科学
文摘)和《全国报刊索引》等。 图书馆提供的基于网络的联机公共检索目录(OPAC)系统
2020/10/16
20
事实数据库
存储的是用来描述人物、机构、事物等信息 的情况、过程、现象的事实数据。
第二章 计算机信息检索技术
郑州大学信息检索教研室
2020/10/16
1
第1节 计算机检索概述 第2节 计算机信息检索系统组成 第3节 计算机信息检索的分类 第4节 计算机信息检索技术 第5节 信息检索的方法* 第6节 信息检索的策略*
2020/10/16
2
1.1 国内外计算机信息检索发展阶段
➢ 1975年,从国外引进数据库开展机检服务; ➢ 1980年,建立国际联机终端开展检索服务; ➢ 20世纪80年代中后期,自建数据库; ➢ 90年代初,发展光盘检索; ➢ 90年代中期,Internet网络化检索阶段。
百度文库用由用户平摊,随机存储。 缺点:一次机会检索,检索结果延误,委
托性检索。
(2) 联机信息检索
联机检索是用户利用终端设备,通过通信 网络或通信线路与检索系统联机,进行 “人机对话”,从检索中心的数据库查找 所需要的文献信息过程。 特点:检索的速度快,检索结果可以得到
及时修改。 缺点:检索费用高。
(3)国际联机检索*
构成数据库的三大要素: 文档——记录——字段
检索时,计算机按输入检索词的字顺先从指定的倒排文档 中找到相匹配的索引词,然后根据索引词后的记录顺序号 到顺排档中调出相应的记录。
2020/10/16
13
文档(File)
数据库中一部分记录的集合,文档由若干记录构成。 数据库是由一个顺排文档和若干个倒排文档所构成
2020/10/16
8
信息的著录
对所收集的原始信息的外表特征(如题名、 著者、文献出处等)和内容特征(如分类 号、主题词、摘要等)进行描述,形成一 条条款目或记录的过程。
在数据库中,其外表特征和内容特征通常 称之为字段,一条记录由若干个不同字段 构成。
2020/10/16
9
信息的标引
标引:根据一定的规则和程序(主题词典或词 表),对文献的主题内容进行分析,给予每篇文 献主题词、关键词作为存储和检索标识;或者根 据文献的学科归属,采用某种文献资料分类法, 给予分类号作为检索标识。
2020/10/16
18
2.3 数据库的类型*(P3-4)
参考(文献书目型)数据库 全文数据库 事实数据库 数值数据库
2020/10/16
19
参考(文献书目型)数据库
是指包含各种数据、信息或知识的原始来源和属性的数据 库;是机读的目录、索引和文摘检索工具,检索结果是文 献的线索而非原文。 存储的是二次文献,包括文献的外部特征、题录、文摘
标引、特点等问题较难了解、熟悉; ➢检索技术和技巧不易掌握
2020/10/16
33
世界上最著名的国际联机检索系统
1、DIALOG系统*
是世界最大的国际联机检索系统 1963年,原属美国洛克希德公司,系统设在加洲Palo
Alto市,1988年转让给美国Knight-Ridder公司。2000年 又转入DIALOG公司经营。目前,该系统的联机服务网遍 布世界70多个国家和地区的200多个城市,共设有联机检 索终端25000余台。 系统中各类型数据库数量的发展速度相当快, 拥有数据库约900多个,占全世界机存总量的60%,内容 涉及自然科学、社会科学、经济、商业等各个领域。
2020/10/16
28
3.2 按信息访问模式分(P5)
根据检索方式分: (1)脱机检索 (2)联机检索 (3)国际联机检索 (4)光盘检索 (5)镜像检索 (6)网络检索
2020/10/16
29
(1) 脱机信息检索
是六十年代发展起来的批次检索,用户不与检索系 统发生直接联系,只需把检索要求送往检索中心, 由检索人员在计算机主机进行文献检索的一种方式。 优点:价格便宜,无网络通讯费,检索费
14
2020/10/16
15
记录(Record)
由若干字段组成的文献单元,是数据库中的基本
文献单元,每条记录描述了原始信息的外部和内
部特征。数据库中的一条记录通常代表一篇文献。
例如:在书目型数据库中,一条记录相当于一条
题录或文摘;在全文型数据库中,一条记录相当
于一篇完整的文献;在其它类型数据库中,一条
1.4 计算机信息检索的原理(P8-11)
信息存储
信息检索
原始信息 主题
著录
信息主题
数据库记录及 信息特征标识
分析
信息需求 主题
分析
检索主题 标引 检索语言(主题词表) 选定
编制
检索提问式及 提问标识
计算机
类比
输出
检索结果
2020/10/16
7
信息存储过程
信息存储就是按照一定标准,将收集 到的原始文献进行主题概念分析,用 系统规定的语言(主题词、分类号) 进行标引,形成信息的特征标识,进 行整理与排序,构成可供检索的数据 库,主要包括:信息的采集、著录、 标引和整序等过程。

相关主题