文档之家
首页
教学研究
幼儿教育
高等教育
外语考试
建筑/土木
经管营销
自然科学
当前位置:
文档之家
›
混合双语语音识别的研究
混合双语语音识别的研究
格式:pdf
大小:539.56 KB
文档页数:7
下载文档原格式
下载原文件
/ 7
下载本文档
合集下载
下载提示
文本预览
1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
声学模型
ModelⅣ
Model卫 Model..ME ModeljrCM70
,Il龆tM 20.9
25.2 21.5
PhrER(%) 7n磐tE
45.3 47.7 42.1
rIbtB
16.8 14.5
可供检索的歌曲或歌手名列表由中文、英文或中英 混合短语构成。测试集由10179句测试语音组成,其 中中文短语8183句,英文短语1650句,中英混合短 语346句。表2给出了中文、英文和中英混合测试短 语的典型例子.为了能真实反映出实际环境的不同 状况,这里的测试语音都是在实网环境下录制,涵盖 了多种背景噪音类型,包括饭店、街道、运动馆以及 其他噪声场所;除此以外,对于说话人口音、声音强 度以及流利度等方面,采集过程中也尽量保证其多 样性.
model derived by phone set merging and clustering is developed.In our study,a novel Two-pass phone clustering
method based on Confusion Matrix(TCM)is presented and compared with the log-likelihood measure method.In order to deal with the nonnative accents in the bilingual speech recognition.a novel bilingual model modification approach is presented to improve nonnative speech recognition,considering these great variations of accented pronunciations. Experiments testify that with these proposed methods,the Chinese-English bilingual speech recognition system can handle the bilingual speech recognition effectively and efficiently.
随着信息全球化,中国与世界的交流日益紧密,
外国语(特别是英语)的使用也越来越频繁,人们在 交谈过程中插入英文词汇表达的现象日益普遍,这使 得中英双语的语音识别研究成为必需.在本文中,我 们致力于研究现实生活中双语识别系统的应用一中 英文歌曲检索(该系统应用于中国电信彩玲下载). 我们的目标为设计一个中英双语识别系统,该系统 基于有限的自适应数据提高带有中文口音的英文语 音识别率,同时保证在中文语音上的识别性能。研究 过程中的创新部分主要有:(1)建立一个统一的双语 混合声学模型,使其能够处理中英文句间转换(m- ter—sentence language switching)和句内转换(intra- sentence language switching);(2)提出一种新型基于 混淆矩阵的两遍(Two-pass)音素聚类算法(TCM); (3)提出一种新型的双语模型修正算法用于提高非母 语语音的识别性能。虽然该任务是特定研究域的,但 文章中采用的方法也同样能够运用于一般性的混合 识别任务。
事实上,非母语说话人的发音变异性是非常大 的【91。他们可能在流利性,对目标语言的熟悉程度 以及对不熟悉发音的选择替代方面都有着差异。为 了建立较为鲁棒的非母语声学模型,训练过程中需 要包含尽可能多样的非母语语音数据。然而,获取如 此多样的训练数据是非常困难的,特别是那些口音 相对较重、发音相对较差的语音数据,因为通常情况 下非母语训练数据都是由一些对目标语言相对较熟 悉的说话人录制的.
Received Feb.2,2010
Revised Feb.11,2010
Abstract In recent years,bilingual communication becomes a common phenomenon as a result of globalization.It presents a new challenge to the real world applications of speech recognition technology.The main difficulties to
木 国家高技术研究发展计划(863计划,2006AA010102)、国家科技支撑计划(2008BAl50800)、国家重点基础研究发展规划项目 计划(973计划,2004CB318106)和国家自然科学基金(10874203,60875014,60535030)资助项目.
万方数据
2期
张晴晴等:混合双语语音识别的研究
Research on Chinese-English bilingual speech recognition
ZHANG Qingqing
PAN Jielin
YAN Yonghong
(ThinklT Speech Lab,Chinese Academy o/Sciences BeUing 100190)
1.1训练数据集 标准中文训练集采用国家863高科技计划提供
的数据集(DB863)。标准英文训练集采用LDC提 供的WSJ数据集(Wall Street Journal).中文口 音的英文数据集在安静环境下自己录制(记为IT— Lab(ThinklT Libratory)),由60男60女的朗读语音 组成。这些说话人的英语水平大都在平均水平之上。 这些数据集都通过电话信道降采样到8 kHz.表1给 出了关于这三个训练集的说明。
271
tive speakers)录制的标准发音单语种语句(monolin- gual utterances)构成.虽然上述双语系统在这些标 准发音测试集上都体现出不错的性能,但在非母语 (non-native)测试集上性能严重下降:在词错误率上 基本是母语语音识别词错误率的两到三倍【4】.双语 识别系统通常会面l临这样一个问题:将原用语(ma, trix language)作为母语的使用者不可能再将插入语 (embedded language)(原用语定义为说话人使用的主 要语言或者说话时词语的主要来源语言,而其它语言 称之为插入语。(Myers-Scotton’S Matrix Language Frame model,1993a/1997)[5])作为自己的母语。因 此,提高非母语发音的插入语识别性能是双语识别 系统可实用化的关键【6】.
1.2测试数据集
我们以歌曲检索为任务域进行研究。使用者通过 电话说出歌血名或者歌手名进行相应歌曲的检索,
万方数据
声
学
学
报
2010钜
训练集名称 nainM TlainE nainA
表1训练数据集说明
类型 标准中文 标准英文 中文口音英文
来源 DB863 WSJ ITLat)
时间(小时)
865 400 20
引言
随着现代社会信息的全球化,双语以及多语通 信成为越来越普遍的现象.这为语音识别技术带来
了新的挑战.目前,双语识别的研究工作取得了显 著进展.文献1和文献2分别描述了英德双语识别 以及斯洛文尼亚一克罗地亚双语识别系统。在文献3 中,S Yu等研究了中英双语识别系统。这些研究的 共同点在于,实验测试集都是由相应母语说话人(na-
当前,说话人自适应技术(如MAP、MLLR)已 广泛的应用于处理非母语语音识别中[6,101,通过基于 少量非母语语音数据进行自适应,母语发音声学模型 能够一定程度上逼近非母语的发音特点。在这些方法 中,自适应数据和测试数据的相似性是决定识别性能 好坏的关键因素。尽管他们在提高非母语语音识别性 能上都有贡献,但通过自适应以后的模型在非母语语 音识别中的性能相比母语语音模型在母语语音识别 的性能,仍然较低。文献11研究了自适应算法的局 限性,指出导致非母语语音识别率低的主要原因来 自于说话人母语语系中无法涵盖的目标语言发音. 如何使声学模型对非母语发音变异更加鲁棒是双语 识别研究工作中的核心问题之一.
第35第2期 2010年3月
献给马大猷教授95华诞
声学学报
ACTA ACUSTICA
V01.35,No.2 Mar.,2010
பைடு நூலகம்
混合双语语音识别的研究冰
张晴晴 潘接林 颜永红
(中国科学院声学研究所,中科信利语音实验室北京100190) 2010年2月2日收到 2010年2月11日定稿
摘要 随着现代社会信息的全球化,双语以及多语混合的语言现象日趋普遍,随之而产生的双语或多语语音识别也成为语音 识别研究领域的热门课题.在双语混合语音识别中,主要面临的问题有两个-一是在保证双语识别率的前提下控制系统的复杂 度;二是有效处理插入语中原用语引起的非母语口音现象.为了解决双语混合现象以及减少统计建模所需的数据量,通过音 素混合聚类方法建立起一个统一的双语识别系统.在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法,并将 该方法与传统的基于声学似然度准则的聚类方法进行比较;针对双语语音中非母语语音识别性能较低的问题,提出一种新型 的双语模型修正算法用于提高非母语语音的识别性能.实验结果表明,通过上述方法建立起来的中英双语语音识别系统在有 效控制模型规模的同时,实现了同时对两种语言的识别,且在单语言语音和混合语言语音上的识别性能也能得到有效保证. PACS数:43.71,43.72
文章结构安排如下:第一部分给出本文所涉及 到的训练以及测试数据集;第二部分对基线模型做 简要介绍;在第三部分里我们详细描述了双语识别 系统的构建,通过TCM方法建立混合声学模型;第 四部分详细说明如何通过混合模型状态修正算法提 高基线声学模型的性能。第五部分给出结论.
1双语数据集
这部分简述了本文中所用到的数据集以及相 应的特征。训练数据分为三部分构成:标准中文数 据集、标准英文数据集以及中文口音的英文数据集 (Chinese accented English Corpus)。数据都为电话信 道数据,8 kHz采样,16 Bits/S。语音提取特征为 36维的MFCC,由12维MFCC以及它们的一阶二 阶差分组成。
测试集名称 Te8tM ’rbtE TbtB
表2测试集组成以及相应的例句
语言 中文 英文 中英双语
测试数目(句)
8183 1650 346
例子(歌曲名;歌手名) 在那遥远的地方张学友 Hey jude backstreetboys One night in北京;阿ben
表3基线单语言声学模型以及双语声学模型在三个测试集上的识别率
handle the bilingual speech recognition for real world application are focused on two aspects:the first is to balance the performance on inter-and intra-sentential language switching and to reduce the complexity of the bilingual speech recognition system;the second is to effectively deal with the matrix language accents in embedded language.In order to process the intra-sentential language switching and reduce the amount of data required to robustly estimate statistical models,instead of using two separate monolingu_al models for each language,a compact single set of bilingual acoustic
非母语语音识别的困难主要来自于训练数据和 测试数据的不一致:通常声学模型都是用母语发音 语音数据训练得到,这样得到的模型表征出母语发 音的特点.然而,测试数据中非母语说话人的发音和 训练数据中的母语发音是非常不一样的,其中的差 异导致了母语发音模型用于识别非母语测试数据时 性能急剧下降【71。文献8得出结论,当训练过程中 包含了一定量的非母语发音数据,相应的非母语测 试性能将有较大幅度的提高。
相关主题
语音识别方法
语音识别的研究
语音识别技术的应用
语音识别技术研究
语音识别和语音合成
语音识别算法研究
文档推荐
语音识别技术的发展与未来
页数:4
语音识别技术研究
页数:4
语音识别研究的背景意义及现状
页数:3
语音识别研究的背景意义及现状
页数:3
语音识别技术的发展与未来
页数:4
语音识别算法研究
页数:27
语音识别研究及应用
页数:1
语音识别的研究现状和应用前景
页数:5
语音识别技术的研究与发展
页数:3
语音识别的研究现状和应用前景
页数:7
最新文档
八年级数学上册第十三章《实数》教案(第一部分)
广西部分重点中学2018届高三第二次联考地理试题 Word版含答案
材料力学(I)第三章
羽毛球基本战术
浅谈稻谷的储藏新技术的发展与研究
s7-200PLC基本指令系统及编程
我国农业面源污染研究与进展
一年级下册道德与法治教案-大家一起来合作 部编版
地理:新人教版7年级下册导学案2012-2013学年七年级(2013春人教版下册)导学案:7.2 东南亚
中考易读错500个字音集录