网络信息检索工具研究论文(详细)
- 格式:docx
- 大小:25.03 KB
- 文档页数:9
网络信息检索工具研究
摘要网络信息资源的迅猛增长,使人们获得有用信息越来越困难,网络检索工具应运而生,文章介绍了网络信息检索工具的类型和功能,提出了检索工具的发展趋势。
关键词因特网;网络检索;检索工具
Abstract The quick increase of net in formation makes it more and more difficult for people to get useful information. Net search tools emerged as the times require. The paper introduce several kinds and functions of net search tools , put forward the development tendency of net search tools.
Key words Internet ; net search ; search tool
席卷而来的因特网正将全世界的丰富信息资源带到我们每一个人面前,已成为知识经济时代不可或缺的基本工具。然而在这样无边无尽的信息世界,找寻所需要的信息却成为一个极大的难题。网络信息检索工具由此产生并迅速繁荣发展,毫无疑问地成为这一信息海洋的航标与灯塔。了解网络信息检索工具,熟悉其功能,将大大提高我们的检索效率。
1 网络信息检索工具的类型
网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。按检索资源的类型,可分为两大类:即非web资源检索工具和web资源检索工具。
1.1非web资源检索工具
非web 资源检索工具是以 FTP、Telnet、Gopher等为检索对象。
(1)FTP类的检索工具
这是一种实时的联机检索工具,用户首先要登陆到对方的计算机,登陆后即可以进行文献搜索及文献传输有关的操作。使用 FTP(文件传输协议)几乎可以传输任何类型的正文文件、二进制文件、图像文件、声音文件、数据压缩文件等。在这类检索工具中,Archie是最常用的。Archie是自动标题检索软件,它借助于FTP来访问。用户只需告诉其要检索文件名的有关信息便可获得文件所在的主机名、路径。与一般检索工具不同的是,它不用主题来实现相应的检索,而只能根据文件名和目录名进行检索。它是获取免费软件和共享软件资源不可缺少的工具。(2)Telnet 类的检索工具
它指的是借助远程登陆在网络通信协议的支持下,在远程计算机上登陆,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问,使用远程计算机中对外开放的资源。
使用Telnet协议进行远程登陆时需要满足以下条件:本地计算机上必须装
有包含Telnet协议的客户程序;必须知道远程主机的IP地址或域名;必须知道登录标识与口令。Telnet远程登录服务分为以下4个过程:
a.本地与远程主机建立连接。该过程实际上是建立一个TCP连接,用户必须知道远程主机的IP地址或域名;
b.将本地终端上输入的用户名和口令及以后输入的任何命令或字符以NVT( Net Virtual Termin al )格式传送到远程主机。该过程实际上是从本地主机向远程主机发送一个IP数据报;
c.将远程主机输出的NVT格式的数据转化为本地所接受的格式送回本地终端,包括输入命令回显和命令执行结果;
d.最后,本地终端对远程主机进行撤消连接。该过程是撤销一个TCP连接。Telnet类的检索工具的特点为只有文字模式,缺乏展现多媒体的能力;不同的系统,采用不同的指令与操作方式;必须拥有登陆口令和密码;使用者人数受到限制;查得的资料需逐页的显示,不利于大幅度的翻页检视。
HYTE LNET是用于 Telnet 信息资源的检索工具。它以超文本形式分门别类的汇集并罗列了数量相当多的 Telnet信息资源,在远程登录后,对方系统往往设有专门的检索型工具,以方便用户查找和利用。
(3)基于菜单式的检索工具----Gopher
Gopher是一种交互式、菜单式信息查询软件,它将各种信息资源加以分类,再用菜单的形式显示给用户。Gopher采用客户机/服务模式。当用户启动一Gopher 客户程序时,建立与Gopher服务器的连接,Gopher 服务器发送一 Gopher 菜单给用户的客户程序。菜单中的每一项都对应一个信息文件或另一个菜单。若用户选定的菜单项对应一个信息文件,则Gopher 将检索这个文件并显示其内容;若选定的菜单项对应另一个菜单,Gopher 将检索这个新菜单,使用户能够在这个新菜单中挑选一个新菜单项。这样,在菜单的引导下,当用户选择了一个菜单项时,Gopher软件将自动确定该菜单项所驻留的计算机,用户可以对因特网上的远程联机系统进行实时访问。Gopher只支持纯文字环境,无法提供影像、声音服务。目前通过Gopher可以进行以下类型信息查询:文本文件信息查询、 Telnet 信息查询、电话簿查询、专有格式文件查询。
这类检索工具是一种分布式信息查询工具,它将用户的请求自动转换成FTP 或Telnet 命令,在一级一级的菜单引导下,用户可以选取自己感兴趣的信息资源。这对于不熟悉网络资源、网络地址和查询命令的用户是十分简便的方法。在这类检索工具中最常见的是 Veronica和Jughead。如Veronica用于检索可由 G opher 菜单访问的信息资源,是与Gopher配套的检索工具。它根据用户给出的检索词进行检索,可检索文件名、目录名、文档及其他信息资源。
1.2 web资源检索工具
web信息资源是指建立在超文本、超媒体技术基础上,集文本、图形、图像、声音为一体,并以直观的图形用户界面展现和提供信息的网络资源形式,与之对应的 web 检索工具多种多样,大体分为三类:搜索引擎、目录型检索工具、多元搜索引擎。
(1)搜索引擎
搜索引擎使用自动索引软件来发现、收集并标引网页 ,建立数据库;以 Web 形式提供给用户一个检索界面,供用户输入检索关键词、词组或短语等检索项;代替用户在数据库中找出与提问匹配的记录 , 并返回结果且按相关度排序输出。使用此类工具的检索方法被称为“关键词搜索”,可以在主页查询,也可以在类目下查询。此类检索工具的优点是信息量大且新 , 速度快;缺点是准确性较差。著名的搜索引擎如Meta Vista、Excite、天网、悠游等。
根据其逻辑功能的不同,可分为:搜索器、分析器、索引器、检索器、用户接口。搜索器,也称为蜘蛛系统(Spider)或爬虫系统( Crawler),其功能是遵循一定的协议,在互联网中及时发现、搜索新的网页信息,并更新索引数据库中的已有网页信息,避免死链接。分析器的功能是借助于词频统计、词语位置认定和一些特殊的算法,对搜索器抓回的网页进行标引,并对其中的网页超链接进行关联。索引器的功能是根据分析器生成的关键词,建立从关键词到网页 URL 的关系索引倒排文档,即建立索引数据库。检索的功能是根据用户输入的提问词,在索引数据库中进行提问词与索引词的匹配运算,然后将查询结果按相关程度排序并输出到用户接口子系统。用户接口,其功能是提供人机交互的检索接口,接收输入的用户检索提问并输出检索结果。搜索引擎是自动标引,故收录、加工信息的范围广、速度快,能及时地向用户提供新增信息。但由于缺乏人工干预,准确性较差,信息重复率高,误检率较高;另外,检索策略的构造和输入方式也会直接影响其检索结果。一般来说,搜索引擎适合于检索特定的信息及较为专、深、具体或类属不明确的课题。
(2)目录型检索工具
它是按照某种分类体系编制的一种可供检索的等级结构式目录。分类方法以学科分类为主,也有采用图书分类方法的。使用此类工具的检索方法被称为“分类搜索”,这是一种“自顶向下、逐步细化”的搜索方法。自顶开始,每一层都分布有若干“链接点”,选择其中一个,就可沿此分支进入下一层,直到出现所需目标。此类检索工具的优点是检索质量较高,缺点是检索到的信息数量有限,且新颖性不够。有代表性的目录型检索工具如 Y ahoo、G alaxy、Lycos、网易、263 等。现在,搜索引擎和目录型检索工具逐渐整合在一起,以增强检索能力。