一种单麦克风的组合感知增益函数语音增强方法与流程

文档序号:15744521发布日期:2018-10-23 22:53阅读:391来源:国知局

本发明涉及语音增强领域,更具体地,涉及一种单麦克风的组合感知增益函数语音增强方法。



背景技术:

在语音处理系统中,语音信号在经过各式各样噪声的干扰后变成含噪语音,含噪语音经过语音增强模块从而得到增强的语音,最后便可对语音信号进行其他处理。实际生活中,会对语音信号会进行各种各样的实际处理,如语音编码、语音识别、车载系统等,背景噪声的干扰会严重影响运行系统的性能。多年来,基于统计模型的语音增强一直是研究的热点。单麦克风语音增强由于其复杂度低,硬件要求简单被广泛应用。语音增强作为语音处理系统的预处理模块,是对抗噪声污染的有效方式,从而达到抑制噪声、提高语音质量的目的。增益函数的好坏直接影响了语音增强的性能。相较于高斯先验,Gamma先验更符合语音DFT幅度系数的分布。听觉掩蔽效应是指听觉系统对于共振峰附近的量化噪声不容易听出来,可以利用这一特性用来修整误差频谱。因此,采用广义Gamma模型对语音DFT幅度系数进行建模,并考虑听觉掩蔽效应的方法是很有价值的。



技术实现要素:

本发明提供一种单麦克风的组合感知增益函数语音增强方法,该方法可实现从带噪语音中恢复纯净语音信号。

为了达到上述技术效果,本发明的技术方案如下:

一种单麦克风的组合感知增益函数语音增强方法,包括以下步骤:

S1:利用基于MMSE的无偏噪声功率谱估计得到

S2:利用判决引导方法估计先验信噪比;

S3:根据广义Gamma先验的感知MMSE准则来计算增益函数,

S4:利用增益函数来增强语音

进一步地,所述步骤S1中在加性噪声模型中,S(k,i)与N(k,i)分别表示第k帧,第i个频谱分量的语音信号与噪声信号。带噪语音信号通过离散傅立叶变换后在频域表示为:X(k,i)=S(k,i)+N(k,i),设语音的功率谱密度为且噪声的功率谱密度为则先验信噪比定义与后验信噪比分别定义为与其中,E[·]是期望算子,噪声功率谱采用MMSE估计。

进一步地,所述步骤S2中使用DD方法估计先验信噪比:

其中,P[·]表示半波整流,之前帧的语音谱估计,β=0.98。

进一步地,所述步骤S3中:

在幅频域,利用极坐标来表示X(k,i)=S(k,i)+N(k,i),则

Rexp(jθ)=Aexp(jφ)+Dexp(jψ)。X,S,N的幅度系数分别为为R,A,D。幅频域语音增强的目的就是求得A的估计

语音DFT幅度系数分布采用单边广义Gamma模型进行建模:

其中,Γ(·)表示Gamma函数,τ与v是Gamma分布的形状参数,而β为缩放比例参数,当τ=1时,β表达式如下:

噪声DFT系数采用高斯模型进行建模:

其中,I0(·)为零阶贝塞尔函数;

感知的加权欧式失真测度为则风险函数

取风险函数的最小值,得到

则有:当γ=1时,没有闭式解,则对贝塞尔方程取近似值求解,令Υx(·)为x阶的抛物柱面函数:

1)、低信噪比时,利用I0在w=0的泰勒级数展开有

2)、高信噪比时,利用I0在值很大时的近似函数有

与现有技术相比,本发明技术方案的有益效果是:

本发明在DFT域用判决引导方法估计先验信噪比;其次,利用基于广义Gamma先验与加权欧式失真测度得到的组合增益函数来增强语音,在该情况下,所得的增益函数没有闭合解,则采用其数值解的组合表示形式;最后,对语音的频谱分量进行DFT的逆变换,则获得增强语音的时域形式,通过该方法,可有效实现从带噪语音中恢复纯净语音信号。

附图说明

图1为DFT域的单麦克风语音增强系统;

图2为DFT域的单麦克风语音增强处理过程;

图3为本发明流程图;

图4为随瞬时信噪比变化的感知MMSE的增益函数。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;

对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

在加性噪声模型中,S(k,i)与N(k,i)分别表示第k帧,第i个频谱分量的语音信号与噪声信号。带噪语音信号通过离散傅立叶变换后在频域表示为:

X(k,i)=S(k,i)+N(k,i)。设语音的功率谱密度为且噪声的功率谱密度为则先验信噪比定义与后验信噪比分别定义为与其中,E[·]是期望算子,噪声功率谱采用MMSE估计。

使用DD方法估计先验信噪比其中,P[·]表示半波整流,之前帧的语音谱估计。一般情况下β=0.98。

为表达式简便,省略帧指数k和频率指数i。在幅频域,利用极坐标来表示X(k,i)=S(k,i)+N(k,i),则Rexp(jθ)=Aexp(jφ)+Dexp(jψ)。X,S,N的幅度系数分别为为R,A,D。幅频域语音增强的目的就是求得A的估计

语音DFT幅度系数分布采用单边广义Gamma模型进行建模:

其中,Γ(·)表示Gamma函数,τ与v是Gamma分布的形状参数,而β为缩放比例参数。当τ=1时,β表达式如下:

噪声DFT系数采用高斯模型进行建模:

其中,I0(·)为零阶贝塞尔函数。

感知的加权欧式失真测度为则风险函数取风险函数的最小值,得到则有:当γ=1时,没有闭式解,则对贝塞尔方程取近似值求解,令Υx(·)为x阶的抛物柱面函数:

1)、低信噪比时,利用I0在w=0的泰勒级数展开有

2)、高信噪比时,利用I0在值很大时的近似函数有

如图1所示,这是DFT域的单麦克风语音增强系统的框图。如图2所示,这是图1中处理过程的对每帧每频谱处理的详细情况,即DFT域的单麦克风语音增强处理过程。如图3所示,这是本发明的具体实现流程图。

首先,带噪语音信号经过采样(采样频率8000HZ)、分帧(140*129)、加窗(50%的重叠)、DFT变换到频域。用MMSE法估计无偏噪声功率谱

其次,分别根据如后两式计算后验信噪比γ与先验信噪比ξ,取β=0.98。

再次,将幅度与相位分离,计算出幅频域的增益函数。根据后验信噪比和先验信噪比通过式

其中,将先验信噪比ξ与后验信噪比γ取一个范围值(-40dB~50dB,以1dB为间距)先计算增益函数并制成表(91*91),在具体情况下不同先验后验信噪比对应的增益函数值由查表获得,p=-0.1,v推荐使用0.7。

如图4所示,即为随瞬时信噪比变化的增益函数。

然后,将频谱增益作用于带噪语音信号并将幅度与相位组合,则得到语音的频域表达式。

最后,对带噪语音信号进行傅里叶逆变换、去窗、合帧(17967*1),则可输出语音的时域表达,可对语音进行主观和客观听觉测试。

相同或相似的标号对应相同或相似的部件;

附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1