基于声学模型的语音识别专利技术综述

  • 格式:doc
  • 大小:15.50 KB
  • 文档页数:3

下载文档原格式

  / 3
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于声学模型的语音识别专利技术综述

作者:尤鑫陈雪梅

来源:《科学与信息化》2018年第34期

摘要语音识别是以语音为研究对象,让机器通过识别和理解过程把语音信号转变为相应的文本或命令,使人机能自然地进行语音交流的技术。语音识别涉及生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及人的体态语言,其最终目标是实现人与机器进行自然语言通信。本文从基于声学模型的语音识别的研究现状及原理、技术路线演进等方面进行技术分析。

关键词语音识别;声学模型;技术路线演进

1 总览

现在语音识别系统已经开始从实验室走向实用,出现了比较成熟的已推向市场的产品。许多发达国家如美国、日本、韩国以及IBM、Apple、Microsoft、AT&T等著名公司都为语音识别系统的实用化开发研究投以巨资[1]。

1.1 专利技术分解

语音识别基于声学模型,从技术上可以分解为两类:模型拓扑结构与模型训练方法。目前最常用也最有效的声学识别模型包括隐马尔科夫高斯混合模型(HMM)和深度神经网络隐马尔科夫模型等。声学模型训练通常采用最大似然估计准则、区分性训练准则、自适应方法、有监督训练、和无监督训练方法。

1.2 专利申请量趋势

国外对语音产品的研究开始比较早,经过几十年的努力和沉淀,尤其进入20世纪90年代后,语音技术进一步成熟,开始向市场提供商业化运作比较成熟的产品。自2011年以后,申请量增长极为迅速;此后近3年来的申请都达到了较大值。国内,基于声学模型的语音识别技术发展相对国外较为滞后,在萌芽期阶段每年的申请量几乎为0,从2000 年到2011,国内专利申请呈现缓慢增长趋势。2011年后,随着需求的提升以及国外、国内语音识别成为热点,国内申请量也随之迅速增长[2]。

1.3 主要申请人

微软作为全球最大的PC软件公司以及后来中国IT产业百度等公司的兴起,使得中国的申请量占据了大部分比重。其他传统的IT巨头,如IBM、英特尔、百度等以及专业语音技术厂商,如Nuance等,都占据了极大的比重。

2 技术演进

随着技术的不断进步,基于声学模型用于识别语音的技术均有不同阶段的发展和演化特点。

2.1 高斯混合模型-隐马尔科夫模型的技术演进

1993年,美国专利EP0533491A2提出了一种用于语音识别系统的单词识别方法,使用两个隐马尔科夫模型(HMM)来允许说话者动态地指定关键词并通过单个关键词的关键词来训练相关的HMM。2013年,中国科学院声学研究所CN103117060A提出了一种用于语音识别的声学模型的建模方法,能够有效地缓解所述网络预训练时容易陷入局部极值的风险,并进一步提高声学模型的建模精度[3]。

2.2 深度神经网络的技术演进

2003年,美国微软公司专利US2005025355A1提出的使用弹性失真法则自动生成已标记数据的系统,其通过弹性失真生成训练数据,并且通过以失真模式重复训练学习算法来让学习算法推断相应的变换不变性。2012年美国微软的专利US2012065976A1提出了一种用于大词汇量连续语音识别的深度信任网络,其通过使用DBN更好地预测senone(状态),依赖于上下文的DBN-HMM可以实现在与常规三音素GMM-HMM相比时改善的识别精确度。

2.3 最大似然估计训练方法的技术演进

早期如1988年美国专利US4718088A公开了一种语音识别训练方法,采用语音处理电路,用于以帧重复率从语音输入中重复地导出多个声学参数,声学参数装置用于在声学参数和语音模板模式之间产生似然成本,以及处理用于确定语音输入信号中的语音单元的似然成本。2005年的专利申请CN1591570A公开了一种构建用于语音识别器的紧凑声学模型的方法,将划分好的来自于具有相似语音特征的训练说话人的语音数据组合在一起;使用每个组合中的语音数据为该组合训练一个声学泡模型。

2.4 区分性训练方法的技术演进

2006年美国专利US2006074656A1提出了一种用于训练用于语音识别的声学模型的系统,基于第一识别结构集合,第二识别结构集合,过滤文档和对应于过滤文档中未标记为不可靠的文本的口述音频流的部分,对声学模型执行区分性训练。2013年科大讯飞公司的

CN102999161A提出了语音唤醒模块的实现方法,利用基于最大似然估计和最小音素错误区分性训练准则下的得到音素声学模型。

2.5 自适应训练方法的技术演进

专利申请CN1298533A(公开日:20010606)提出了一种自适应语音识别器的生成器,使用通过无监督的采集来提供的附加语音数据语音资料库通过讲话人自适应技术重新估算所述基本语音识别器的声学模型参数的重新估算装置。2007年的美国专利US2007219798A1中的训练组件实现无监督语言模型交叉自适应的多次迭代,其中使用一个训练集合的识别来构建用于识别另一个集合的自适应语言模型[4]。

3 结束语

本文梳理了基于声学模型的语音识别技术的演进路线,对基于声学模型的语音识别技术的专利申请趋势及主要申请人进行了分析,结果表明基于声学模型的语音识别在国内外正受到越来越高地重视。随着各个国家和地区对该技术的重视和关注,持续的专利申请增长体现了人们认识到该技术对未来发展影响巨大,将会对全球商业和个人生活产生重要作用。

参考文献

[1] 崔文迪,黄关维.语音识别综述[J].福建电脑,2008,(1):28-29.

[2] 赵英娣,李冠宇,张丹烽.语音识别声学模型发展现状综述[J].科技风,2017,(22):76.

[3] 张震,赵庆卫,颜永红.基于语音识别与特征的无监督语音模式提取[J].计算机工程,2014,40(5):262-265.

[4] 丰洪才,卢正鼎.基于置信度的无监督说话人自适应语音识别[J].计算机工程与科学,2005,27(9):93-96.