基于音素的方言识别方法

格式：pdf
大小：2.92 MB
文档页数：3

下载文档原格式

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

A c a d e m i c F o r u m /学术论坛
基于音素的方言识别方法
姜玉璞，赵澄东
(商丘工学院信息与电子工程学院，河南商丘476000)
摘要：随着跨民族、跨区域之间的交流的增加，对各地的方言进行研究就显得十分必要文章试图通过对新
疆维吾尔地区一部分方言的分析研究，从语言的发音音素级别，找出区分方言的音素要素：通过分析元音音素的发音特征，得出音素共振峰在划分性别、区分方言所属区域方面有近乎决定性的作用通过对音素共振
峰特征的分析，得出了与现实相符的喀什、和田女性发音相近的结论
关键词：维吾尔语；方言；音素；特征
1维吾尔语方言
语言是一个民族的精神外壳，是一个民族的文化的重要载体。

方言是指某一民族共用语言在不同地区由于某些因素导致的分化而形成的变体。

特定语言的某一种方言具有不同于其它方言，也不同于这种语言的某些语音特征。

它为某一特定地域内的成员所使用，一般只在该区域流行。

社会语言学的研究发现，与语言变异最明显相关的社会因素是性别、年龄、社会阶 k、民族和种族。

男女在语言使用上的差别是显而易见的事实。

从生理上说，男女就有差别，女性的声带比男性短，声调比较高。

更重要的是男女在语言上的差别是社会造成的。

语言变异的定量研究中也发现了大量的性别差异现象。

例如拉波夫在研究美国方言语音变化时就发现女性在所有被调查的社团中处于较为领先的地位。

传统上认为女性总是比男性更倾向于使用标准变体和标准变式。

维吾尔语属于结构语法中的黏附语言类型。

维吾尔语具有自己的标准语言和方言。

维吾尔语分为罗布泊方言、和田方言和中部方言。

其中，中部方言分为喀什、伊犁、哈密、吐鲁番、塔里木等方言。

除了与方言相同的特征外，每种母语都有其独特的特征。

维吾尔方言之间没有太大区别。

不同方言的维吾尔族人口语交流没有困难。

但是，由于地区环境和经济发展等诸多因素的影响，词汇使用和发音存在一定差异。

和田、阿图什、吐鲁番、喀什4地的维吾尔族人口集中度远超新疆其他区域，另外，哈密区的维吾尔族语言中地且有明显的方言特性。

民族人口的聚居有利于当地口语语音的保持与传承，为了定量分析维吾尔语发音的区域特征，选择以上几个维吾尔族人口区位商值较高的区域，作为研究维吾尔语语音的代表。

2方言参数库的构建
从新疆多语种实验室提供的语音库中，选择部分地区的自由聊天、讲故事的语音，特别是自由对话部分的语音，以便能更真实地保留当地方言的特性。

然后选择清晰的语音用P r a a t软件来进行6层次手工标注了，标签级别包括6个信息级别，例如因素、音节、音节类型、单词、韵律短语和句子。

对从已建立的和田，喀什、阿图什、哈密、吐鲁番、罗普、伊犁等各地人的方言语音资源库里的语音文件和对应的T e x tG rid标注文件中筛选部分数据，通过P ra a t软件自动提取了方言口音参数，建立了维吾尔语方言语音参数库。

参数包括：句子（包括单词数），句子内容，单词持续时间，单词（包括音节编号），音节类型，音节名称，音素序列号，音素名称，音素持续时间，音素第一共振峰到音素第四共振峰，音素能量等18种种参数。

初步分析了从不同地区收集的维吾尔口音数据，以确定是否存在地区差异和性别差异，以及是否可以有效地对方言进行分类。

为此，做了如下的分析并通过实验对分析进行验证。

为了本次研究，实地深入以上5个区域。

采集当地维吾尔族居民对22 510个维语句子的自然状态下的读音。

从中筛选出句子中所含的维语中的8个元音。

为保证数据的质量，这里只选取无歧义歧音的元音，共计8 496个。

分析了和田、喀什、阿图什、哈密、吐鲁番等地区的自然重音的部分重音数据。

目标变量主要是方言类型和性别。

其中，有5种方言，有男女发音。

由吐鲁番和哈密样本仅具有女性发音，因此共有8个类别。

用于分析的功能包括7个变量，例如音素名称，音素持续时间，音素第一共振峰，音素第二共振峰，
67
学术论坛/ A c a d e m i c F o r u m
音素第三共振峰，音素第四共振峰，音素能量。

表1样本分布
性别男女男女a1170830 a430660 e230280 i15501550 o220170 08080 u570510 u3030总计42804110
男女男女男女1062356493871722752024 399336219151126971 6930906557102464 1743769765912494983174 2959108683857398 91243131211116 601254192871122061317 10325632 4869402650160469612818496
最后一列中的总计表示该元音在所有地区的总的样本数，最后一行中的总计表示该地区中所有8个元音的样本数。

但元音i i、6的样本太少，不足以呈现其统计特性，故而不再对其进行分析。

该批数据的最值信息如下，首先是最大（小）值信息。

其中的“最值”表示该列或该行中的最大（小）值。

3分析与研究
在一般的采样中，最值的价值有限，仅能作为一个参考。

统计学上为了得到一组样本的平均状况，往往采用由下式得出的均值。

其中N为某一地区的总样本数，X,为该地区的某个样本。

-1V
^ = N/_X i⑴
[=1
由上式得出的音素的平均值表，对音素时长的平均值进行分析还能降低个别异常值对总体的影响。

标准偏差(Standard D eviation)它是一种数据分布分散程度的度量，用于测量数据值与算术平均值的偏离程度。

标准偏差越小，这些值与平均值的偏差就越小，并且数据越集中。

反之亦然。

标准偏差的大小可以通过标准偏差和平均值之间的比率来测量。

标准偏差S由以下公式得出：
S=」忐巧办-幻2U)给出音素能量的均值和标准差。

计算公式与音素时长相同。

共振峰是指能量相对集中在声谱中的区域。

共振峰不仅是声音质量的决定因素，还反映了音带（共振腔）的物理特性。

它是元音和辅音声谱包络曲线上的峰巅值。

共振峰的本义是指声腔的共鸣频率。

在元音和辅
音的生产中，声源频谱是由声腔调制的。

原始谐波幅度不再随频率的增加而依次减小，而是有的增强而有
的减弱，从而形成了一个具有起伏的新结果。

曲线的频率值与声腔的共振频率一致。

在元音方面，前3个共振峰在音质上起决定性作用。

前两个共振峰对舌头的高度特别敏感，并且基于这两个共振峰的频率值绘制了元音图。

一切元音都有一个基音，并有至少2个语音加强
频带，亦即有2个共振峰；一般用?2等表示。

在发大多数浊音时，每次声带振动会产生三个共振峰。

声道中的共鸣作用使一个音的加强区有别于另一个音的加强区，因此不同音素的不同共振峰标度就有所不同。

并且，。

下图是全部样本按性别划分，从左到右分别为第一、二、三共振峰的平均值。

方言和地域之间有着密切的关系，阿图什、喀什、和田3地接壤，如考虑标准差，则5个地方的方言的发音能量、发音时长等较为接近。

这说明在维吾尔语地区，音素能量更多的是依赖于语种本身。

所以无论是单词时长还是音素时长，5个地方的数据没有大的差异，这里更多的是表现出了同语种内部不同区域的方言之间细微的不同。

和田地区的方言在样本最大，但其大多数的元音标准方差并不大，说明和田地区的维吾尔语方言在元音上的发音较为统一。

喀什的发音样本较小，但其各元音的发音标准差都较大，这可能是由于喀什地区有较多的外来人口。

另外，各地方言中元音i的标准差都是较大的，这是由于维吾尔语中元音i使用较多且有很多变体的原因。

4实验与分析
单独地分析发音时长或音素并不能很好地对不同地域的方言进行区分。

为了更好地对不同地域的方言进行分析，我们对性别和地域进行结合，统一分析。

在同时考虑音素时长、音素能量，第一、第二和第三共振峰的时候，使用l o g i t回归方法仅依元音i 能正确区分不同地区方言的概率为0.840 8。

对不同性别的区分正确率为0.915 2。

这说明性别之间的发
其中：N表示某一地区的样本数，X i表示该地区的第i个样本，不代表顺序，又表示所有样本的均值。

音素能量是声音大小的重要度量，鉴于最大值最小值容易受异常情况的影响，分析意义不大。

这里只音差异远大于地区之间的差异。

通过下面由元音i得出的决策树也可以看到，不同的方言是由很多语言特征（音素能量、共振峰等）共同表征的。

用l o g i t回归方法对数据量较大的元音i，用不同
68
A c a d e m i c F o r u m /学术论坛
的音素特征作性别区分，可以由此反推出性别对语音
特征的影响。

当预测数据取音素时长、3个共振峰和音素能量，
共五个特性同时，在测试集上的性别分类正确率为
0.915;当不含音素能量时，正确率为0.863;不含第
三共振峰时的性别分类正确率为0.841;不含第二第
三共振峰时的性别分类正确率为0.736;仅含音素时
长时的性别分类正确率为0.744;仅含音素时长和音
素能量时的性别分类正确率为0.737。

这说3个音素
共振峰和音素能量在维吾尔语音中受不同性别的影响
很大，性别对音素能量几乎没有影响。

然而，在使用随机森林（取单词时长、音素时长、
第一共振峰、第二共振峰、第三共振峰、音素能量）
对数据进行分类时，所得到的正确率为0.812 6。

在
这个数据集上，随机森林的识别结果如表2所示：
表2不同特征下的识别结果单位（人）
取嗥词时长、音素时长、第一共振峰、第二共振峰、第三共振峰、音素能量对性别进行识别个共振峰对性别进行识别
女女
女514
108
112
440
502117
120435
由表2可见，即便是只取三振峰峰3个参数，随机森林对性别的区分正确率也达到了 0.798。

由此可知，当条件允许的情况下，为了获得更好的分类性能，所能获得的发音特征越多越好。

对数据量较大的和田男、和田女、嘻什男、喀什女，根据元音i的发音进行地区识别。

用随机森林算法进行方言划分，得到如下结果：
表3地区识别单位（人)
和田男和田女喀什男喀什女和田男28 3 41
和田女636 47
喀什男2 3 17
1喀什女0 3 1
1由表3可知，根据音素特征对地区进行识别的正确率约为0.70,其中喀什女与和田女较易被混淆。

在现实中，喀什女性的发音与和田女性的发音确实较为接近。

5总结
由以上分析可以看到，同一语言内部的语言分化
更多地是在地域之间产生。

且方言的差异不是突变的，
而是在空间上渐变的。

一般来讲，人们在特定的或所
属的区域内活动更为频繁，这也是方言保持特性的原
因。

但在各所属区域的交界部分也不可避免地产生交
流，这使得不同区域相邻的部分说话人在口音上相互
影响。

这也符合拉波夫语言学就是社会语言学的论断。

在以后的工作中，如果能通过对方言更深入的研
究，找出造成不同说话人声音各异的具体信息，就能
对这些特征进行处理，提高语音识别、说话人识别和
说话人自适应等系统的性能。

还可以和语音合成相结
合，使合成的语音更加自然。

作者简介：姜玉璞（ 1988-),男，籍贯：河南商丘，
学历：硕士研究生，职称：助教，研究方向：语音识别、
计算机视觉。

基金项目：河南省高等学校重点科研项目：
19B520020;河南科技攻关：182102210481; 2020
年度商丘市哲学社会科学规划课题。

参考文献：
[1] 拉波夫.拉波夫语言学自选集[M].北京：北京语言文化大学出版社,2001.
[2] 努尔麦麦提•尤鲁瓦斯，张力文.吾守尔•斯拉木.说话人自适应技术在维吾尔语语音识别中的应用
研究D].中文信息学报.2016(03):79-84,
[3] 木哈拜提•哈斯木.现代维吾尔语方言词拾零⑴. 民族语文，2005(05):69-73.
[4] 牛汝极.现代维吾尔语方言土语的划分与历史人文地理[)].语言与翻译，1997(02):13-14.
[5] 彼得.赖福吉.语音学教程（第五版）[M].北京：北京大学出版社.2011.
[6] 董绍克，阎俊杰.汉语知识词典[M].北京：警官教育出版社.1996.
[7] 鲍怀翘，阿西木.维吾尔语元音声学初步分析[J].民族语文，1988(05):4-13.
[8] 丁信善.试论拉波夫的社会语言学观及其方法
论U].外国语（上海外国语大学学报）.1999(02):1-9,80.
69。

基于音素的方言识别方法

合集下载

文档推荐

最新文档