自然语言处理技术在中文全文检索中的应用
- 格式:pdf
- 大小:173.15 KB
- 文档页数:4
3本文为国家社会科学基金项目“基于中文X ML 文档的全文检索研究”的成果之一,项目编号:04CT Q005。
●熊回香,夏立新(华中师范大学 信息管理系,湖北 武汉 430079)
自然语言处理技术在中文全文检索中的应用
3
摘 要:自然语言处理技术是中文全文检索的基础。首先介绍了全文检索技术及自然语言处理技术,接着详细地阐述了自然语言处理技术在中文全文检索中的应用,并对目前基于自然语言处理技术的中文全
文检索技术的局限性进行了分析,探讨了中文全文检索技术的未来发展方向。
关键词:自然语言处理;全文检索;智能检索
Abstract:Natural language p r ocessing technol ogy is the basis of Chinese full 2text retrieval .This paper firstly intr oduces the full 2text retrieval technol ogy and natural language p r ocessing technol ogy .Then,it gives a detailed 2descri p ti on of the app licati on of natural language p r ocessing technol ogy in Chinese full 2text retrieval .The p resent li m itati ons of the Chinese full 2text retrieval system based on natural language p r ocessing technol ogy is als o ana 2lyzed .Finally,the paper exp l ores the devel opment trend of Chinese full 2text retrieval technol ogy in future .
Keywords:natural language p r ocessing;full text retrieval;intelligent retrieval
随着社会网络化、信息化程度的日益提高,网上信息呈指数级剧增,人们越来越强烈地希望用自然语言同计算机交流,并能方便、快捷、准确地从互联网上获得有价值的信息,因此,自然语言处理技术和中文全文检索技术成为当今计算机科界、语言学界、情报学界共同关注的课题,并共同致力于将自然语言处理技术的研究成果充分运用到全文检索中,从而促进了全文检索技术的发展。
1 全文检索技术
全文检索是一种面向全文和提供全文的检索技术,其核心技术是将文档中所有基本元素的出现信息记录到索引库中,检索时允许用户采用自然语言表达其检索需求,并借助截词、邻词等匹配方法直接查阅文献原文信息,最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础,它以特定的结构存储了数据资源的全文信息,从而为全文检索系统提供可检索的数据对象。在中文全文检索系统中,建立索引库的前提是运用自然语言处理技术对中文信息进行基于词(字)、句、段落等更深层次的处理。
2 自然语言处理技术
自然语言是指作者所使用的书面用语,在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参
考文献中的具有一定实质意义的词语[1]。自然语言处理
(Natural Language Pr ocessing,NLP )是语言信息处理的一
个重要分支,在我国就是中文信息处理。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,具体来说就是用计算机对包括汉语(字)的形、音、义等信息及词、句子、篇章的输入、输出、存储和识别、分析、理解、生成等多方面的加工处理[2]。由于自然语言处理侧重于词、句子、篇章,因而词法分析、句法分析、语义分析、语用分析、语境分析便构成了自然语言处理研究内容的基础部分。
211 词法分析
词法分析包括词形和词汇两个层次,其中词形主要是对各种词形和词的可识别部分的处理。如前缀、后缀及复合词的分析;词汇的重点在于复合对词操作和词汇系统的控制。其主要目的是有助于确认词性以及做到部分理解词与词、词与文档之间的关系,提高检索的效率。由于计算机内部存储的中文信息没有明显的词与词之间的分隔符,因此,在中文全文检索系统中,词法分析首要任务之一是对文本信息进行词语切分,即汉语自动分词,汉语自动分词是中文信息处理中的关键技术,也是中文全文检索的瓶颈,只有对汉语词进行正确的切分后,才能准确地提取文献的特征信息,对文献进行正确标引,才能正确分析用户的查询意图,为用户提供准确的信息服务。
212 句法分析
句法分析是对句子中词汇短语进行分析以便揭示句子的语法结构。目的是通过对句型结构的分析,自动抽取复
杂的标识单元来代替由统计方法得到的关键词进行索引。213 语义分析
语义分析是在词法分析和句法分析的基础上进行的,它是指对自然语言文本意义的识别、理解和表示,它涉及各级语言单位(单词、词组、句子、句群)所包含的意义及其在语言使用过程中所产生的意义。
214 语用分析
语用分析涉及上下文和语言交际环境以及背景意义和联想意义的语义分析。语用学研究不同种类文本的结构,从文章的结构提取附加的含义。
215 语境分析
语境分析是对语言的目的性应用的理解,主要依赖于文件或原查询语言以外的知识,这些知识包括一般的知识、特定应用领域的知识以及关于在一个查询语言中用户的需要、偏好以及目的的知识[3]。
3 自然语言理解技术
自然语言理解是自然语言处理的高级阶段,它是研究如何能让计算机理解并生成人们日常所使用的语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答[4]。目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动。其常用技术包括3个方面:机器翻译、语义理解和人机会话技术,它们是实现中文智能检索的前提。
4 自然语言处理技术在中文全文检索中的应用信息检索系统的工作主要分为4个部分:①文献信息处理,对文献进行分析,提取关键信息,建立转换文档及数据库;②提问处理,解释查询提问;③问题匹配,将查询提问与转换文档及数据库进行匹配;④对查询结果进行排序处理。中文全文检索是利用自然语言进行标引和检索,它的各个阶段都需要自然语言处理技术的支持。411 文献信息处理
在文献信息处理阶段,采用自然语言处理技术对各种文献源进行分析,提取关键信息,建立索引数据库,在这个阶段对文献分析得越深其未来的潜力越大,数据库的智能也越高。
41111 自然语言标引 自然语言标引是指采用原文中的信息作为标引源,从中选取能够有效表征信息内容的特征词,以实现信息检索系统的最大功能。目前,对网上日益丰富的信息资源的标引多是通过计算机自动标引来实现的,其目的是赋予文献自然语言标引词,以使检索时直接用自然语言词进行匹配查找。①字索引。所谓字索引,就是将文本中的每个汉字(除停用字表中的字)均作为标引词,不加选择判断地进行标引,检索时先匹配单字,再进行词组重组。单汉字标引法避开了语词切分的问题,增强了标引的客观性和一致性,也节省了索引建立的时间;缺点是检索速度较慢、索引存储空间较大、误检率高等。
②词索引。建立词索引数据库时,需要扫描整个文档,并利用自动分词技术对文档中的汉字串进行切分,对切分出来的每一个有效词,计算其在文档中出现的位置和频率,同时将该位置信息和频率的值以及所属文档号加入到词索引库中,建立基于词的倒排索引。其优点是索引存储空间较小、检索速度较快、并能根据词义进行扩检和缩检等;缺点是歧义难以消除。③短语索引。为了提高系统对文献的理解能力,研究者提出了借助词典对文本进行标注并进行句法分析的办法,抽取相邻或相近的词汇,并根据词汇间的关联构成短语索引项,存入短语索引库。与字索引和词索引相比,短语索引更能表达网页中丰富而复杂的概念及其相互关系[5]。
41112 主题词自动抽取 主题词抽取主要是根据文献所论述和研究的具体对象和问题,赋予文献以恰当的主题词,使其有序化而存入检索系统和文献库,它是互联网上信息建库的一项重要工作。目前,主题自动抽取的算法,主要是指综合词频、位置等因素的统计方法。信息提取时通过一定算法得到认为是在文档中比较重要的句子,称之为主题句。在提取主题句的基础上,对主题句进行句法、语义分析,得到主题句内各部分之间的语义关系[6]。41113 文摘自动生成 它是把文档内容从逻辑和语义上进行分析,缩写成有限的可读摘要,标志文章的主题内容,从而有助于用户快速评价检索结果的相关程度。常用的文摘自动生成的方法是基于统计的方法,这种方法的基本思想是,首先对全文进行自动分词,然后统计文章中各个词出现的频率和权重,并按照某种准则确定出关键词,将关键词所在的语句抽取出来,依据各种句子权重指标计算句子综合权重,选出一组最能代表文献主题内容的句子,并对句子进行排序作为文摘句,最后生成文摘[7]。41114 文本自动分类 文本自动分类就是计算机系统自动地根据文本的内容或属性,将大量的用自然语言写成的文本归到一个或多个主题类别的过程,从而使用户能够更加准确地查找所需的信息。文本分类包括自动聚类和自动归类,两者的主要区别就是自动聚类不需要事先定义好分类体系,而自动归类则需要确定好类别体系,并且要为每个类别提供一批预先分好的对象作为训练文集。不管是自动聚类还是自动归类,都需要充分运用自然语言处理技术,如汉语自动分词、词频统计、特征提取、相似度计算、分类算法,等等。因而文本自动分类是自然语言处理