第3章
CHAPTER 3
语音信号的特征分析
前面讨论了语言学、汉语语音学和信号模型等基础知识。语音信号处理虽然包括语音通信、语音合成、语音识别等,但其前提是对语音信号的分析。只有将语音信号分析表示成其本质特性的参数,才有可能利用这些参数进行高效的语音通信,才能建立用于语音合成的语音库,也才可能建立用于识别的模板或知识库。而且,语音合成的音质好坏、语音识别率的高低,都取决于对语音信号分析的准确性和精度。例如,利用线性预测分析来进行语音合成,其先决条件是要先用线性预测方法分析语音库,如果线性预测分析获得的语音参数较好,则用此参数合成的语音音质就好。又如,利用带通滤波器组法来进行语音识别,其先决条件是要弄清楚语音共振峰的幅值、个数、频率变化范围及其分布情况。因此,应先对语音信号进行特征分析,得到提高语音识别率的有用数据,并据此来设计语音识别系统的硬件和软件。
国内外的经验说明,语音分析的工作必须先于其他的语音信号处理工作。例如,20世纪40年代,贝尔实验室的研究人员就对语音信号分析做了大量的、卓有成效的工作,这些成果推动了语音信号处理的发展。
根据所分析的参数不同,语音信号分析可分为时域、频域、倒谱域等方法。进行语音信号分析时,最先接触到的、最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使用且应用范围最广的一种方法。时域分析具有简单直观、清晰易懂、运算量小、物理意义明确等优点,但更为有效的分析多是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起着很小的作用。
常用的频域分析方法有带通滤波器组方法、傅里叶变换法和线性预测分析法等,其中线性预测方法将在第4章中具体介绍。频谱分析具有如下优点: 时域波形较易随外界环境变化,但语音信号的频谱对外界环境变化具有一定的顽健性。另外,语音信号的频谱具有非常明显的声学特性,利用频域分析获得的语音特征具有实际的物理意义,如共振峰参数、基音周期参数等。
倒谱域是将对数功率谱进行反傅里叶变换后得到的,它可以将声道特性和激励特性有效地分开,因此可以更好地揭示语音信号的本质特征。
按照语音学的观点,可将语音信号分析分为模型分析法和非模型分析法两种。模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的特征参数; 共振峰模型分析及线性预测分析即属于这种方法。凡不进行模型化分析的其他方法都属于非模型分析法,包括上面提到的时域分析法、频域分析法及同态分析法等。
贯穿于语音信号分析全过程的是“短时分析技术”。根据对语音信号的研究,其特性是随时间而变化的,所以它是一个非稳态过程。但从另一方面看,虽然语音信号具有时变特性,但不同的语音是由人的口腔肌肉运动构成声道的某种形状而产生的响应,而这种肌肉运动频率相对于语音频率来说是缓慢的,因而在一个短时间范围内,其特性基本保持不变,即相对稳定,所以可以将其看作是一个准稳态过程。基于这样的考虑,对语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”。将语音信号分为一段一段来分析,其中每一段称为一“帧”(frame)。由于语音信号通常在10~30ms之内是保持相对平稳的,因而帧长一般取10~30ms。
本章首先介绍语音信号的数字化处理,接着介绍语音信号的时域处理技术及频域和倒谱域的相应处理。此外,还将介绍常见的倒谱特征、基音周期和共振峰参数的提取等。
3.1语音信号数字化
语音信号数字化之前,必须先进行防混叠滤波及防工频干扰滤波。其中防混叠滤波指滤除高于1/2采样频率的信号成分或噪声,使信号带宽限制在某个范围内; 否则,如果采样率不满足采样定理,则会产生频谱混叠,此时信号中的高频成分将产生失真; 而工频干扰指50Hz的电源干扰。由于防混叠和工频干扰滤波器在一个集成块中,实现起来很简便,在这里不再赘述。
3.1.1语音信号的采样和量化
语音信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要先进行采样和量化,将它变成时间和幅度都离散的数字信号。
在语音信号处理中,需要将信号表示成可以处理的函数的形式。对于模拟信号xa(t),它表示函数值随着连续时间变量t的变化趋势。如果以一定的时间间隔T对这样的连续信号取值,则连续信号xa(t)即变成离散信号x(n)=xa(nT),这个过程称为采样,其中两个取样点之间的间隔T称为采样周期,它的倒数Fs称为采样频率。
根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失信息,并且可以用采样后的信号重构原始信号。实际的信号常有一些低能量的频谱分量超过采样频率的一半,如浊音的频谱超过4kHz的分量比其峰值至少要低40dB; 而对于清音,即使超过8kHz,频率分量也没有显著下降,因此语音信号所占的频率范围可以达到10kHz以上。虽然这样,但对语音清晰度有明显影响部分的最高频率为5.7kHz左右。CCITT(国际电报电话咨询委员会)提出的G.711标准建议采样频率为8kHz,但一般情况下这只适合电话语音的情况,因为电话语音的频率为60~3400Hz。在实际的语音信号处理中,采样频率一般为8~10kHz。有一些系统为了实现更高质量的语音合成,或者使语音识别系统得到更高的识别率,将可处理的语音信号扩展到7~9kHz,这时的采样频率一般为15~20kHz。 表31给出了采样率对语音识别系统性能的影响。