语音信号的考试部分知识点

  • 格式:doc
  • 大小:26.50 KB
  • 文档页数:3

下载文档原格式

  / 3
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音信号处理复习资料

一、名词解释:

1、基音周期:声带开合一次的时间为基音周期(pitch period)。它的倒数称为基频。

2 、音色:也叫音质;由混入基音中的倍音决定。

3 、音高:声音的高低;主要用基频反映。基频值越大,反映出的音高越高。

4、音强:发音的轻重;可以用声压或声强来表示声音的强度,一般用相对声压或相对声强表示。

5、音长:声音的长短,取决于发音持续时间的长短。

6、响度:是一种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。一样的音强,不一样的频率,则响度也会有所不同。

7、听觉掩蔽效应:一个更响的音调可以将其频率附近的较低的音调掩蔽。可以分为同时掩蔽和异外时掩蔽。

8、临界频带:一个纯音可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,即称这一带宽为临界带宽。

临界带宽有许多近似表示,一般在低于500 Hz的频带内,临界带宽约为100Hz,在高于500Hz 时,临界带宽约为中心频率的20% 。

人耳的基底膜具有与频谱分析仪相似的作用。频率群的划分相应地将基底膜分成许多小的部分,每一部分对应一个频率群。掩蔽效应就是在这些频率群内发生,这是因为对应的那一频率群的基底膜部分的声音,在大脑中似乎是叠加在一起来评价的,如果这时同时发声,可以互相掩蔽。

9、采样的基础知识:对于一个有限带宽的模拟信号,其频谱的最高频率为F0,在对其进行采样时,其采样频率在Fs>2F0时,采样后的信号才能保证信息不丢失。

语音信号中人耳可以感知的最大频率在3.4KHz左右

采样频率在8KHz~16KHz之间

短时分析:内平稳语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10~30ms,语音信号近似不变。于是,我们把变化的语音信号分成一些相继的短时间段来处理。而每一段时间段具有固定的特性,这种方法称为“短时”处理方法。二·短时能量分析

10、端点检测:由于从背景噪声中准确地找出待分析的有用语音信号是进行语音识别的前提,因此一般采用短时能量和短时过零率两个参数。图3为一幅经端点检测选出的语音信号图,图4是其中一段语音信号的放大图,可以看出基音周期大致为8ms

11、

二、简答题

1、全极点模型:)采用全极点模型分析语音信号的理论依据。全极点模型最易于计算,对全极点模型作参数估计是对线性方程组的求解过程;有时无法知道输入序列;人的听觉对于那种只能用零点来表示的频谱陡峭谷点是迟钝的;如果不考虑鼻音和摩擦音,那么语音的声道传递函数就是一个全极点模型。

LPC:LPC是通过分析语音波形来产生声道激励和转移函数的参数,对声音波形的编码实际就转化为对这些参数的编码,这就使声音的数据量大大减少。在接收端使用LPC分析得到的参数,通过语音合成器重构语音。合成器实际上是一个离散的随时间变化的时变线性滤波

器,它代表人的语音生成系统模型。时变线性滤波器既当作预测器使用,又当作合成器使用。分析语音波形时,主要是当作预测器使用,合成语音时当作语音生成模型使用。随着语音波形的变化,周期性地使模型的参数和激励条件适合新的要求

2、简述如何利用听觉掩蔽效应。

一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,3kHz—5kHz绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在800Hz--1500Hz范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度,使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为掩蔽量(或称阈移)。

3量化编码:(1)均匀量化编码:整个量化范围的量化间隔是均匀的

(2)非均匀量化编码:整个量化范围的间隔是不均匀的。

(3)PCM编码,分为3步:

采样。在某瞬间测量模拟信号的值。采样速率8kHz/s。

量化。用256个不同的具体量化电平来表示对应的模拟信号瞬间抽样值。

编码。每个量化值用8个比特的二进制代码表示,组成一串具有离散特性的数字信号流。用这种编码方式,数字链路上的数字信号比特速率为64kbit/s 。

固定电话采用的就是这种数字化的方法,因此每个话音信道的速率是64kbit/s。

4k-means算法:

k-means 算法接受输入量k ;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

k-means 算法基本步骤

(1)从n个数据对象任意选择k 个对象作为初始聚类中心;

(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

(3)重新计算每个(有变化)聚类的均值(中心对象);

(4)计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤(2)。3

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

6特征提取:

7说话人识别-GMM;为说话人建立GMM模型,实际上就是通过训练,估计GMM模型的参