1.一种基于语音信号的情感识别方法,其特征在于,包括:
对语音输入信号进行预处理,得到由静态特征和一阶差分特征组成的混合的梅尔频率倒谱系数MFCC输入特征;
将所述输入特征输入到经过语音情感训练的卷积神经网络模型中;
使用所述经过语音情感训练的卷积神经网络模型作为分类器对所述输入特征进行分类,识别出与所述语音信号对应的情感。
2.根据权利要求1所述的方法,其特征在于,所述语音输入信号通过截取一段语音信号的前1.5s的语音信息获得。
3.根据权利要求1所述的方法,其特征在于,所述预处理包括:
对所述语音信号进行预加重处理;
对预加重处理后的信号进行分帧处理;
对分帧处理后的信号进行加窗处理;
对加窗处理后的信号作快速傅里叶变换处理;
对快速傅里叶变换处理后的信号作梅尔Mel滤波处理;
对Mel滤波处理后的信号作离散余弦变换处理;
对离散余弦变换处理后的信号作差分MFCC处理。
4.根据权利要求1所述的方法,其特征在于,所述使用所述经过语音情感训练的卷积神经网络模型作为分类器对所述输入特征进行分类,包括:
利用第一卷积层对所述输入特征进行特征提取得到第一特征图;
利用第一池化层对所述第一特征图进行特征采样,得到第一采样结果;
利用第二卷积层对所述第一采样结果进行特征提取得到第二特征图;
利用第二池化层对所述第二特征图进行特征采样,得到第二采样结果;
其中,在所述第一卷积层对所述输入特征进行特征提取之后,通过激活函数提高所述卷积神经网络的非线性表达能力,防止所述卷积神经网络在反向传播时梯度消失;
以及在所述第二卷积层对所述第一采样结果进行特征提取之后,通过激活函数提高所述卷积神经网络的非线性表达能力,防止所述卷积神经网络在反向传播时梯度消失;
利用全连接层,通过非线性变换和拟合将再次特征采样获得的第二采样结果映射到情感类型。
5.根据权利要求4所述的方法,其特征在于,所述激活函数为线性整流Relu函数。
6.根据权利要求4所述的方法,其特征在于,所述利用全连接层,通过非线性变换和拟合将再次特征采样获得的第二采样结果映射到情感类型后,所述方法还包括:
利用Dropout层以概率p舍弃神经元。
7.一种基于语音信号的情感识别装置,其特征在于,所述装置包括:
预处理模块用于对语音输入信号进行预处理,得到由静态特征和一阶差分特征组成的混合的梅尔频率倒谱系数MFCC输入特征;
输入模块用于将所述输入特征输入到经过语音情感训练的卷积神经网络模型中;
分类模块用于使用所述经过语音情感训练的所述卷积神经网络模型作为分类器对所述输入特征进行分类,识别出与所述语音信号对应的情感。
8.根据权利要求7所述的装置,其特征在于,所述预处理模块包括:
预加重处理模块,用于通过一阶数字滤波器对所述语音信号进行预加重处理;
分帧处理模块,用于对预加重处理后的信号进行分帧处理;
加窗处理模块,用于对分帧处理后的信号进行加窗处理;
快速傅里叶变换处理模块,用于对加窗处理后的信号作快速傅里叶变换处理;
Mel滤波处理模块,用于对快速傅里叶变换处理后的信号作Mel滤波处理;
离散余弦处理模块,用于对Mel滤波处理后的信号作离散余弦变换处理;
差分MFCC处理模块,用于对离散余弦变换处理后的信号作差分MFCC处理。
9.根据权利要求7所述的装置,其特征在于,所述分类模块包括:
第一特征提取模块,用于利用第一卷积层对所述输入特征进行特征提取得到第一特征图;
第一采样模块,用于利用第一池化层对所述第一特征图进行特征采样,得到第一采样结果;
第二特征提取模块,用于利用第二卷积层对所述第一采样结果进行特征提取得到第二特征图;
第二采样模块,用于利用第二池化层对所述第二特征图进行特征采样,得到第二采样结果;
激活模块,用于在所述第一卷积层对所述输入特征进行特征提取之后,通过激活函数提高所述卷积神经网络的非线性表达能力,防止所述卷积神经网络在反向传播时梯度消失,
以及在所述第二卷积层对所述第一采样结果进行特征提取之后,通过激活函数提高所述卷积神经网络的非线性表达能力,防止所述卷积神经网络在反向传播时梯度消失;
全链接模块,用于利用全连接层,通过非线性变换和拟合将再次特征采样获得的第二采样结果映射到情感类型。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6任一项所述方法的步骤。