一种基于倒谱分离信号的非特定人语音情感识别方法与流程

文档序号：14685538发布日期：2018-06-13 00:11阅读：来源：国知局

技术特征：

1.一种基于倒谱分离信号的非特定人语音情感识别方法，其特征在于，具体包括如下步骤：

S1.对情感语音库进行预处理；

S2.对预处理后的情感语音库提取传统特征；

S3.对处理后的情感语音库的语音信号进行倒谱域分离与重构；

S4.对重构后的语音信号进行特征提取，得到重构后的情感语音库；

S5.将经过步骤S4后的重构后的情感语音库分成训练集和测试集，训练集采用SVM分类器进行训练后，将测试集输入训练后的训练集中，进行语音识别后，输出判决结果；

经过上述步骤，完成非特定人语音的情感识别。

2.根据权利要求1所述的一种基于倒谱分离信号的非特定人语音情感识别方法，其特征在于，步骤S1中，所述的情感语音库，含有7种情感，采用16Khz采样率，8bit量化，对情感语音库进行分帧加窗处理。

3.根据权利要求2所述的一种基于倒谱分离信号的非特定人语音情感识别方法，其特征在于，所述的7种情感包括中性、生气、害怕、高兴、悲伤、厌恶、无聊。

4.根据权利要求2所述的一种基于倒谱分离信号的非特定人语音情感识别方法，其特征在于，所述的分帧，取10--30ms内进行分帧。

5.根据权利要求2所述的一种基于倒谱分离信号的非特定人语音情感识别方法，其特征在于，所述的加窗，采用汉明窗。

6.根据权利要求1所述的一种基于倒谱分离信号的非特定人语音情感识别方法，其特征在于，步骤S2中，所述的提取传统特征，是对分帧后的情感语音库的语音进行传统声学特征的提取，采用256点帧长、帧移128点，提取的声学特征包括：韵律特征参数提取、声音质量特征提取、非线性特征提取、谱特征提取；

韵律特征参数提取，包括：基音频率的均值、短时能量均值和过零率变化率；

声音质量特征提取，包括：频率微扰熵和振幅微扰熵；

非线性特征提取，包括：Hurst指数；

谱特征提取，包括：梅尔频域倒谱系数(MFCC)、线性预测系数LPC和非线性梅尔频域参数(NFD_Mel)；

所述的梅尔频域倒谱系数(MFCC)，是提取12维MFCC特及其一阶差分共24维，然后计算其平均值。

所述的线性预测系数LPC，是提取12维LPC，并计算其平均值；

所述的非线性梅尔频域参数(NFD_Mel)，具体的计算步骤为：

S2-1.首先对分帧后的每帧信号做短时傅里叶变换，然后加入Teager能量算子，并取频谱幅度做2次方得到能量谱；

S2-2.将S2-1中求得的能量谱输入Mel频率滤波器组中，并求出每个滤波器输出的对数能量；

S2-3.将S2-2中取得的对数能量经离散余弦变换得到静态的12阶NFD_Mel参数；

S2-4.将S2-3中的NFD_Mel系数进行一阶差分，得到动态的12阶NFD_Mel参数；

S2-5.将S2-3与S2-4中的参数结果组合到一起，最终形成24阶的NFD_Mel参数。

7.根据权利要求1所述的一种基于倒谱分离信号的非特定人语音情感识别方法，其特征在于，步骤S3中，所述的对语音信号进行倒谱域分离与重构，分帧采用256点帧长，帧移128，具体是：

S3-1.取S1分帧后的每帧信号x(n)计算复倒谱，每帧语音信号x(n)是由声门脉冲激励e(n)经声道响应v(n)滤波而得到，即对x(n)进行Z变换将卷积信号变为乘积信号，然后取对数运算将乘积信号变为加性信号，最后对加性信号取Z反变换，即可得到复倒谱；

S3-2.取S1分帧后的每帧信号x(n)计算倒谱信号，我们对x(n)进行Z变换后，计算取其实部做对数运算，最后做Z反变换即可得到倒谱；

S3-3.人声的基音周期范围在50hz～700hz，在此范围的倒谱中寻找激励源冲激的最大值，若最大值冲激幅度超过0.08则记录下峰值点A的位置并判断为浊音，否则为清音并跳过该帧；

S3-4.倒谱由于计算时失去了信号的相位信息，当判断为浊音时，在复倒谱上对信号进行分离操作，在复倒谱上以A点为分界点将信号分为声道响应与声门激励，为了保留全部声门信息的同时，逐步包含声道信息，将A点沿向原点移动，移动距离记为L，L＝b*A，移动后的端点记为A1，其中b为可调节参数，0≤b≤1；

S3-4.根据复倒谱的对称性，在A1点的对称点取到原点信号，并把对称的两段信号合并设为对做复倒谱逆变换，即可重构回时域信号x1(n)，经过重构后的语音信号x1(n)只包含部分声道信息和全部的声门信息。

8.根据权利要求1所述的一种基于倒谱分离信号的非特定人语音情感识别方法，其特征在于，步骤S4中，对重构后的语音信号进行特征提取，采用256点帧长，帧移128，具体包括如下步骤：

S4-1-1.取x1(n)语音信号做短时傅里叶变换，求出频谱，并取频谱幅度做2次方得到能量谱；

S4-1-2.将S4-1-1中求得的能量谱输入Mel频率滤波器组中，并求出每个滤波器输出的对数能量；

S4-1-3.将S4-1-2中取得的对数能量经离散余弦变换得到静态的12阶CSS-MFCC参数；

S4-1-4.将S4-1-3中的CSS-MFCC系数进行一阶差分，得到动态的12阶CSS-MFCC参数；

S4-1-5.将S4-1-3与S4-1-4中的参数结果组合到一起，最终形成24阶的MFCC参数，取24阶的CSS-MFCC均值作为全局特征；

S4-2-1.取x1(n)做短时傅里叶变换，通过公式对信号加入teager能量算子，并取频谱幅度做2次方得到能量谱，teager能量算子为：

ψ(x(n))＝x²(n)-x(n-1)x(n+1)；

S4-2-2.将S4-2-1中求得的能量谱输入Mel频率滤波器组中，并求出每个滤波器输出的对数能量；

S4-2-3.将S4-2-2中取得的对数能量经离散余弦变换得到静态的12阶CSS-NFDMel参数；

S4-2-4.将S4-2-3中的CSS-NFDMel系数进行一阶差分，得到动态的12阶CSS-NFDMel参数；

S4-2-5.将S4-2-3与S4-2-4中的参数结果组合到一起，最终形成24阶的NFD_Mel参数，采用了24阶的CSS-NFDMel均值作为全局特征。

9.根据权利要求1所述的一种基于倒谱分离信号的非特定人语音情感识别方法，其特征在于，步骤S5中，将经过步骤S4后的重构后的情感语音库分成65％的训练集和35％的测试集，训练集采用SVM分类器进行训练后，将测试集输入训练后的训练集中，进行语音识别后，输出判决结果，具体是：

S5-1.将对情感语音库提取的特征：基音频率的均值、短时能量均值、过零率变化率、频率微扰熵、振幅微扰熵、Hurst指数、梅尔频域倒谱系数(MFCC)、线性预测系数LPC和非线性梅尔频域参数NFD_Mel进行特征组合；

S5-2.将S5-1的特征中的65％作为训练集用SVM分类器进行训练，剩下35％作为测试集用于测试训练集的分类器性能，将测试集输入训练后的训练集中，进行语音识别后，输出判决结果。

完整全部详细技术资料下载

当前第2页1 2 3