用于语音活动性检测的方法和设备的制造方法

文档序号:8287966阅读:630来源:国知局
用于语音活动性检测的方法和设备的制造方法
【技术领域】
[0001] 本公开大体上涉及用于语音活动性检测(VAD)的方法和设备。
【背景技术】
[0002] 在用于对话话音的话音编码系统中,通常使用非连续发送(DTX)来增加编码的效 率。原因是对话话音包含了大量被嵌入话音中的停顿,例如当一个人在说话而另一个人在 聆听时。因此在DTX的情况下,话音编码器平均仅在大约50%的时间上是活动的,且可以 使用舒适噪声对其余时间进行编码。具有该特征的一些示例编解码器是自适应多速率窄带 (AMR NB)和增强型可变速率编解码器(EVRC)。AMR NB使用DTX,而EVRC使用可变比特率 (VBR),其中速率确定算法(RDA)基于VAD判决来决定针对每个帧使用哪个数据速率。在DTX 操作中,使用编解码器对话音活动帧进行编码,而用舒适噪声替换活动区域之间的帧。在编 码器中对舒适噪声参数进行估计,并使用降低的帧速率和比用于活动话音的比特速率更低 的比特率将其发送到解码器。
[0003] 对于高质量DTX操作,S卩,在没有劣化的话音质量的情况下,在输入信号中检测话 音的周期是重要的。这一般是通过语音活动性检测器(VAD)(用于DTX和RDA两者)来实现 的。图1示出了一般VAD 100的示例的整体框图,其获取根据实现通常被划分为5至30ms 的数据帧的输入信号111作为输入,并产生VAD判决作为输出(一般对于每个帧有一个判 决)。即,VAD判决是针对每帧的该帧是包含话音还是噪声的判决。
[0004] 在本示例中,初步判决(vad_prim 113)由初级语音检测器101作出,并且在本示 例中基本上仅是针对当前帧的特征和背景特征(一般根据先前输入帧进行估计)的比较, 其中大于阈值的差产生活动初级判决。在其他示例中,初步判决可以以其他方式实现,以下 进一步简单地讨论其他方式中的一些。初级语音检测器的内部操作的细节对本公开不是特 别重要,并且产生初步判决的任意初级语音检测器在本上下文中将是有用的。在本示例中, 尾响添加 (hangover addition)块102用于基于过去初级判决来扩展初级判决,以形成最 终判决vad_flag 115。使用尾响的原因主要是为了减少/消除"讲到一半"(mid speech) 的风险以及"突发语音"(speech burst)的后端截断(backend clipping)。然而,该尾响 也可以用于避免音乐段落的截断。
[0005] 为了 DTX,还可以添加附加尾响。在图1中,已经由可选的输出vad_flag_dtx 117 对其进行表示。应当注意的是,当输出要用于DTX时,仅存在一个输出vad_flag而尾响逻 辑使用其他设置并非罕见。在本说明书中,为了简化描述,两个最终判决输出vad_flag 115 和vad_flag_dtx 117在大多数实施例中是分离的。然而,基于备选尾响设置和一个单独输 出的方案同样是可应用的。
[0006] 根据VAD判决是否用于DTX来使用不同最终判决输出或尾响设置存在两个主要原 因。第一,从话音质量的角度看,当VAD用于DTX时,存在对VAD更高的要求。因此,希望确 保在切换到舒适噪声之前话音已经结束。第二个动机是,附加尾响可以用于估计背景噪声 的特征。例如,在AMR NB中,在解码器中基于所使用的特定DTX切换,进行第一舒适噪声估 计。
[0007] 如上所述,存在可用于VAD检测的多个不同特征。一个可能特征是仅查看帧能量, 并将其与阈值进行比较以判决该帧是否包含话音。对于信噪比(SNR)良好的条件但不针对 低SNR的情况,该方案具有相当好的表现。在低SNR中,优选地使用其他度量,例如将话音 与噪声信号的特性进行比较。对于实时实现,对VAD功能的附加要求是计算复杂度,计算复 杂度在标准编解码器中的子带SNR VAD的频率表示中得到反映。子带VAD -般将不同子带 的SNR合并到与阈值进行比较以进行初级判决的公共度量。
[0008] VAD 100包括:提供特征子带能量的特征提取器106和提供自带能量估计的背景 估计器105。对于每个帧,VAD 100计算特征。为了识别活动帧,将针对当前帧的特征与该 特征对于背景信号"看起来"如何的估计进行比较。
[0009] 尾响添加块102用于基于过去的初级判决来扩展来自初级VAD的VAD判决,以形 成最终VAD判决"vad_f lag",即还计入更早的VAD判决。如上所述,使用尾响的原因主要是 为了减少/消除"讲到一半"(mid speech)的风险以及"突发语音"(speech burst)的后 端截断(backend clipping)。然而,该尾响还可以用于避免音乐段落的截断。操作控制器 107可以根据输入信号的特性,调整对于初级检测器的阈值和尾响添加的长度。
[0010] 还存在将具有不同特性的多个特征用于初级判决的已知解决方案。对于基于子带 SNR原理的VAD,已经证明将非线性引入子带SNR计算(有时称为重要性阈值)可以改进针 对具有非平稳噪声(嘈杂声或办公室噪声)的条件的VAD性能。然而,在这些情况下,一般 存在用于尾响添加的一个初级判决(可以适配于输入信号条件)以形成最终判决。此外, 许多VAD具有用于静默检测的输入能量阈值,即对于足够低的输入电平,强制初级判决为 不活动状态。
[0011] 在公开的国际专利申请W02008/143569 Al中描述了重要性阈值用于创建双VAD 方案的一个示例。在此情况下,双VAD用于改进背景噪声更新和音乐检测。然而,仅将激进 的初级VAD用于最终vad_f lag判决。
[0012] 在W02008/143569 Al中,将基于低通滤波的短期活动性的度量用于检测音乐的存 在。该低通滤波度量提供缓慢改变量,适于发现更多或更少连续型声音(针对例如音乐是 典型的)。然后可以将附加 vadjnusic判决提供给尾响添加,使得能够以特定方式处理音乐 声音。
[0013] 存在用于生成多个初级VAD判决的不同方式。最基本的将是使用与原始VAD相同 的特征但使用第二阈值来实现第二初级判决。另一选项是根据所估计的SNR条件来切换 VAD,例如通过针对高SNR条件使用能量,并针对中和低SNR条件切换到子带SNR操作。
[0014] 在公开的国际专利申请W02011/049516 A1,公开了语音活动性检测器及其方法。 该语音活动性检测器被配置为检测所接收的输入信号中的语音活动性。VAD包括:组合逻 辑,被配置为从VAD的初级语音检测器接收指示初级VAD判决的信号。组合逻辑还从外部 VAD接收指示来自外部VAD的语音活动性判决的至少一个信号。处理器对所接收的信号中 指示的语音活动性判决进行组合以生成修改的初级VAD判决。将修改的初级VAD判决发送 到尾响添加单元。
[0015] 尾响的一个问题是判决何时使用以及使用多少。从话音质量的角度看,尾响的 添加基本上是肯定的。然而,不希望添加过多尾响,因为任何附加尾响将降低DTX方案的 效率。因为不希望将尾响添加到每个短的活动突发,在考虑添加一些尾响以创建最终判决 vad_flag之前,通常存在对来自初级检测器vad_prim的活动帧的最小数量的要求。然而, 为了避免话音中的截断,希望保持该所要求的活动帧的数量尽量低。
[0016] 对于非平稳噪声的情况,低数量的所要求的活动帧可以允许噪声自身产生将触发 尾响添加的足够长的VAD事件。因此为了避免过多的活动性,这种解决方案常不允许长尾 响。
[0017] 在对高效VAD添加尾响之前的所要求数量的活动帧的另一问题是其检测话语中 的短停顿的能力。在此情况下,存在已经正确检测的话语,但讲话者在继续之前作出轻微停 顿。这使VAD检测停顿并在添加任意尾响之前再次需要新时段的活动初级帧。这可以产生 具有拖尾话音段的末端截断的令人不快的产物,例如以清辅音爆破结尾的话语。

【发明内容】

[0018] 本发明的实施例的目的是解决上述问题中的至少一个,并且该目的是通过根据所 附独立权利要求的方法和设备并通过根据从属权利要求的实施例来实现的。
[0019] 根据本发明的一个方面,提供了一种用于语音活动性检测(VAD)的方法,所述方 法包括:创建指示初级VAD判决的信号;以及确定是否要执行初级VAD判决的尾响添加。根 据短期活动性测量和/或长期活动性测量,作出尾响添加的确定。然后,至少根据尾响添加 确定,创建指示最终VAD判决的信号。
[0020] 在一个实施例中,根据N_st个最新的初级V
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1