计算语言学7_790805368
- 格式:pdf
- 大小:1.67 MB
- 文档页数:41
一、计算语言学的起源及其发展从世界上第一台电子计算机诞生至今,计算机的功能已经远远超出了最初的数值计算范围,进入到了更广泛的非数值领域,例如语言处理领域。
而在计算机出现之前,对语言的研究大都是由语言学家来完成的。
利用计算机这一现代计算工具来研究语言,仿佛给计算机赋予了更多的智能化色彩,而“计算语言学”(Computational Linguis-tics,CL)这一语言学和计算机科学的交叉学科此时则应运而生。
当然,在计算语言学的研究过程中,还涉及到数学、认知科学、逻辑学、心理学等许多其他学科。
实际上,“计算语言学”这一术语是伴随着“机器翻译”这一应用而出现的。
传说中,上帝为阻止人类建造通天塔的壮举,故意让不同种族的人讲不同的语言,使人类不能自由交流,无法齐心协力。
为了跨越语言的障碍,远在古希腊时代,就有人提出要用机器来代替人进行不同语言之间的翻译。
1933年,前苏联发明家特罗扬斯基设计了一种用于翻译的机器,但是并没有成功。
事实上,真正的机器翻译研究是在计算机发明之后开始的,1954年,美国Georgetown大学与IBM公司合作开发了世界上第一个机器翻译的原型系统,当时的目的主要是将其用于美俄之间军事情报的翻译工作,该系统首次通过机器将俄语翻译为英文并取得了初步的成功。
这项工作使学者们备受鼓舞,也吸引了政府大量资金的注入,计算语言学的研究也开始了其萌芽时期。
初期的机器翻译系统大都是以词典驱动,直接采用词对词的模式匹配的翻译方式,由于不同的语言之间词法、句法都存在很大差异,显然,这样的翻译结果不会令人满意。
1966年,ALPAC报告中指出,机器翻译的研究在当时的条件下并不具备很好的前景,不宜给予大力支持。
另外,后来有学者认为,虽然“计算语言学”一词之前早已出现,但作为术语第一次正式提出“计算语言学”及其近义术语详解*◇邵艳秋(北京大学)摘要:本文介绍了计算语言学的起源及其发展历史,对该领域的一些相近术语概念及其各概念之间的关系进行了详细的解释,包括计算语言学、自然语言处理、自然语言理解、人类语言技术、语言信息处理、中文信息处理等等。
计算机语言学
1、计算机语言学:计算语言学(Computational Linguistics)指的是这样一门学科,它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。
2、计算机语言都可以用来控制计算机来解决一些实际问题。
这些问题可以是数值计算问题,其操作对象就是一些由符号构成的符号串;也可以是非数值计算问题如声音、图像处理问题,其操作对象就是声音和图像等。
我们应知道各种计算机语言都不是万能的,每种计算机语言都有自己的特点、优势及运行环境,有自己的应用和操作对象。
计算机语言学来说,全国有几所高校开设了这个方向,一般下设自然语言处理,机器翻译,信息检索等分支。
论实力来说北大,哈工大,复旦大学在这方面有很强的实力,区别在于北大计算语言所侧重语言学资源的构造,比如汉语词典,什么人民日报词性标注语料库等等,要知道研究计算语言学,资源是必不可少的。
哈工大拥有全世界最大的自然语言研究中心(其实就是全国规模最大的,当然就是全世界最大的了,呵呵!)主要以应用为主,资源不及北大,主要是因为北大有北大中文系为依托。
因为计算机语言学会涉及很多语言学的知识,这是工科院校所不具备的。
所以哈工大以应用为主,要知道微软拼音输入法就是由哈工大王晓龙教授研发的,所以在这方面,哈工大实力也是不容小视,只是地理位置上稍稍欠缺一点。
复旦大学有个上海市智能信息处理重点实验室,里面很多牛人,其中有搞自然语言处理的。
其他的开设院校有,中科院计算机所,清华,北语,东北大学,大连理工大学,山西大学等等。
南京大学好像有机器翻译。
基本上就是这些了,每个学校不管名气如何,都是有一两个很厉害的导师做支撑的,比如东北大学,山西大学。
这些教授的相关信息都是可以从网上查得到的。
一学校北京语言大学(国内对外汉语系第一!)南京大学北京大学北京师范大学北京外国语大学上海外国语大学吉林大学黑龙江大学厦门大学暨南大学广东外语外贸大学这几个大学从师资到生源到环境, 一流.北京语言大学,2006年中国大学研究生院文学类A等学校排名13,“对外汉语”教学界的“大哥大”。
顺便提一句,“对外汉语”教学现在还不是一个专业,而仅是一个研究方向,因为到目前为止它仍是一个三级学科,通常都设置在“语言学及应用语言学”这个专业下面,作为它的一个研究方向。
北京语言大学招收属于文学硕士的“对外汉语”教学的研究生和属于教育学硕士的“课程与教学论”专业的“对外汉语”教学的研究生。
考试的内容基本相同,语言学概论,现代汉语,古代汉语。
“课程与教学论”专业要多考一个“对外汉语教学概论”。
第一章计算语言学导论计算语言学(ComputationalLinguistics)指的是这样一门学科,它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。
计算语言学的研究内容:(1)从计算的角度来研究语言的性质(2)将语言作为计算对象来研究相应的算法。
从计算角度研究语言:所谓从计算的角度来看语言的性质,就是要求将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来,而不是像其他语言学研究那样,在表述语言的结构规律时一般采用非形式化的表达形式。
将语言作为计算对象来研究相应的算法,是研究如何以机械的、规定了严格操作步骤的程序来处理语言对象(主要是自然语言对象,当然也可以是形式语言对象),包括一个语言片断(比如词组、句子或篇章)中大小语言单位的识别,该语言片断的结构和意义的分析(自然语言理解),以及如何生成一个语言片断来表达确定的意思(自然语言生成),等等。
第二章语言知识的形式化表示1.有限状态自动机(FSA)的形式定义:一个有限状态自动机M是一个五元组:(Q, Σ, q0, F, δ)有限个状态组成的状态集: Q有限字母组成的字母表: Σ开始状态q0 ∈Q终止状态的集合F ⊆Q状态转移函数δ(q,i): Q xΣ→Q但是FSA:无法描述自然语言的层次结构特性2.上下文无关文法符号字母表:有限个任意符号组成的非空集合Σ例1:所有汉字组成的集合构成一个字母表。
例2:汉语中所有的词也构成一个字母表。
例3:字母a, b, c也组成一个字母表。
字符串:由字母表Σ上的字符组成的长度有限的序列若字母表Σ={a, b},则a, b, ab, aba, aabb 等等都是字母表上的字符串。
语言:是字母表上的字符串的任意集合。
3.形式文法:形式文法:一个形式文法G由四个部分组成,可记作G={VN , VT , S , P },其中:VN :称为文法G的非终结符号字母表,VN不出现在G所表示的语言集合的句子中;VT :称为文法G的终结符号字母表,G所表示的语言的句子由VT中的元素组成,VN ∩VT =φ;S :代表句子符号,S∈VN 。
计算机语言学导论全文共四篇示例,供读者参考第一篇示例:计算机语言学导论是计算机科学领域中的一个重要分支,它研究的是计算机与人类语言之间的相互关系以及如何让计算机理解和处理人类语言。
计算机语言学导论的研究内容涉及计算机的自然语言处理、文本挖掘、语音识别、语义分析等多个方面,是一个极具挑战性和前景广阔的领域。
在计算机语言学导论中,我们首先要了解计算机语言的种类。
计算机语言主要分为两类:自然语言和形式语言。
自然语言是人类使用的语言,如中文、英文等,它具有复杂的语法和语义规则,是人类交流思想和情感的主要方式。
形式语言是为了解决特定问题而设计的语言,如编程语言、逻辑语言等,它具有严格的语法和语义规则,能够被计算机直接处理和执行。
计算机语言学导论涉及的一个重要领域是自然语言处理(Natural Language Processing,NLP)。
自然语言处理是研究如何让计算机理解和处理人类语言的技术,它包括词法分析、句法分析、语义分析、文本生成等多个方面。
自然语言处理在机器翻译、信息检索、问答系统等领域有着广泛的应用,是人工智能领域的重要研究方向之一。
另一个重要的研究领域是文本挖掘(Text Mining)。
文本挖掘是一种从大量文本数据中发现有价值信息的技术,它包括文本分类、情感分析、主题模型等多个技术。
文本挖掘在舆情分析、新闻推荐、舆情分析等领域有着广泛的应用,可以帮助人们从海量的文本数据中挖掘出有用的信息。
计算机语言学导论还涉及语音识别、语音合成、自然语言生成等多个方面。
语音识别是研究如何让计算机识别和理解人类语音的技术,语音合成是研究如何让计算机生成自然流畅的语音的技术,自然语言生成是研究如何让计算机生成符合语法和语义规则的自然语言文本的技术。
这些技术在语音助手、语音识别系统、智能对话系统等领域都有广泛的应用。
计算机语言学导论是一个涵盖面广、实用性强的研究领域,它涉及计算机与人类语言之间的交互,旨在让计算机更好地理解和处理人类语言。
《计算语言学基础知识概述》一、引言计算语言学是一门融合了语言学、计算机科学和数学等多学科的交叉领域,旨在利用计算机技术来处理和分析自然语言。
随着信息技术的飞速发展,计算语言学在自然语言处理、机器翻译、语音识别、信息检索等众多领域发挥着至关重要的作用。
本文将对计算语言学的基本概念、核心理论、发展历程、重要实践以及未来趋势进行全面的阐述与分析。
二、基本概念1. 自然语言自然语言是人类日常交流所使用的语言,如汉语、英语、法语等。
它具有复杂性、歧义性和多样性等特点。
与形式语言不同,自然语言的语法和语义规则较为灵活,且存在大量的模糊性和不确定性。
2. 计算语言学计算语言学是研究如何利用计算机技术来处理和分析自然语言的学科。
它涉及自然语言的理解、生成、翻译、检索等多个方面,旨在实现人与计算机之间的自然语言交互。
3. 语言模型语言模型是计算语言学中的一个重要概念,它用于描述自然语言的概率分布。
语言模型可以预测一个句子或文本序列出现的概率,从而为自然语言处理任务提供基础。
常见的语言模型有 n-gram 语言模型、神经网络语言模型等。
三、核心理论1. 形式语言理论形式语言理论是计算语言学的基础理论之一,它主要研究形式语言的语法和语义。
形式语言是一种严格定义的语言,具有明确的语法规则和语义解释。
形式语言理论为自然语言的形式化表示和分析提供了方法和工具。
2. 统计语言模型统计语言模型是基于统计方法的语言模型,它通过对大量文本数据的统计分析来学习语言的概率分布。
统计语言模型在自然语言处理中得到了广泛的应用,如机器翻译、语音识别、信息检索等。
3. 深度学习理论深度学习是近年来发展迅速的一种机器学习方法,它在计算语言学中也取得了显著的成果。
深度学习模型如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)等被广泛应用于自然语言处理任务中,如文本分类、情感分析、机器翻译等。
四、发展历程1. 早期阶段计算语言学的早期发展可以追溯到 20 世纪 50 年代,当时人们开始尝试利用计算机来进行自然语言处理。
1. 什么是计算机语言学?发展史?计算语言学:指的是这样一门学科,它通过建立形式化的数学模型来分析,处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到一机器来模拟人的全部或者部分语言能力的目的。
计算语言学是利用电子数字计算机进行的语言分析。
虽然许多其他类型的语言分析也可以运用计算机,计算分析最常用于处理基本的语言数据-例如建立语音、词、词元素的搭配以及统计它们的频率。
计算语言学是语言学的一个研究分支,用计算技术和概念来阐述语言学和语音学问题。
已开发的领域包括自然语言处理,言语识别,自动翻译,语法的检测,以及许多需要统计分析的领域。
发展史:第一个时期是计算语言的萌芽期(1950 -1960年代)第二个时期是计算语言的发展期(1970 -1980年代)第三那个时期是计算语言的繁荣期(1990 -至今)2什么是语言资料库?它与语言知识库有什么区别?语言库在自然语言处理方面有什么应用?答:语料库顾名思义就是存放语言材料的仓库。
它是以电子计算机为载体承载语言知识的基础资源;语料库中存放的是在语言的实际使用中真实出现过的语言材料;真实语料需要经过加工(分析和处理),才能成为有用的资源;语言资料库与语言知识库的区别是:语料库是一种承载自然语言的形式,它的特点是以语言的真实材料为基础来呈现语言知识的。
语言知识库可以说是由专家从大量的实例中提炼、概括出来的系统的语言知识,语料库则基本上是以知识的原始形态表现出来。
在自然语言处理方面的应用如:基于大规模语料库的语音识别;基于大规模语料库的音字转换技术(中文输入);基于大规模语料库的自动文本校对技术;利用语料库训练HMM模型进行分词,词性标注,词义标注等等;基于语料库的句法分析;局域原料库的机器翻译;基于机器学习技术,通过语料库获取语言知识,包括搭配特征,句法规则,等等;基于语料钜的语言模型训练以及语言模型的评价;3. 中文自动分词的重要性;举例说明分词算法中的主要难点有哪些类型?答:中文分词的重要性:首先自动分词是汉语信息处理系统的重要组成部分;其次,自动分词是中文信息处理的基础。