音频信号解码器中的改进的频带扩展的制作方法

文档序号:9568702阅读:624来源:国知局
音频信号解码器中的改进的频带扩展的制作方法
【技术领域】
[0001] 本发明设及对音频信号(诸如语音、音乐或其他运样信号)进行编码/解码和处 理W便它们的传输或存储的领域。
[0002] 更具体地,本发明设及一种在产生音频率信号增强的解码器或处理器中的频带扩 展方法和设备。
【背景技术】
[0003] 存在许多技术用于(有损地)压缩语音或音乐运样的音频信号。
[0004] 用于对话应用的传统的编码方法一般被分类为波形编码(PCM即"脉冲编码调 制"、ADCPM即"自适应差分脉冲编码调制"等)、参数编码(LPC即"线性预测编码"、正弦编 码等)W及通过"综合分析"使用参数的量化的参数混合编码,其中CELP("编码激励线性 预测")编码是最有名的例子。
[0005] 对于非对话应用,用于(单声道)音频信号编码的现有技术包含通过变换进行感 知编码或者在子带中通过带复制对高频进行参数编码。
[0006] 关于传统的语音和音频编码方法的回顾可W见于W. B. KleUn和K. K.化Iiwal (主 编)的"Speech Coding and Synthesis"巧Isevier, 1995 年)、M. Bosi 和R.E. Goldgerg 的"Introduction to Digital Audio Coding and Standards" (Springer, 2002 年)W及 J. Benesty、M. M. Son化i、Y. Huang(主编)的"Hanclbook of Speech P;rocessing"(Sp;ringe;r, 2008年)等工作中。
[0007] 运里更具体地关注于3GPP标准化AMR-WB("自适应多速率宽带")编解码器(编 码器和解码器),其W16曲Z的输入/输出频率进行操作,其中信号被划分成两个子带,即W 12. 8曲Z采样并且通过CELP模式来编码的低带(0-6. 4曲Z)W及通过"带扩展"(或B肥,即 "带宽扩展")根据当前帖的模式使用或不使用附加信息而在参数上(parametrically)重 构的高带化.4-7曲Z)。运里可W注意到,7曲Z的AMR-WB编解码器的经编码的带的限制在 本质上与如下事实有关:在标准化巧TSI/3GPP然后口U-T)时,根据在标准口U-TP. 341中 定义的频率掩模,并且更具体地通过使用在标准口U-TG. 191中定义的切除7曲ZW上的频 率(该滤波器遵守在P. 341中定义的掩模)的所谓的"P341"滤波器,来估计宽带终端的传 输中的频率响应。然而,在理论上,众所周知,W16曲Z采样的信号可W具有从0至8000化 的定义的音频带;因此,AMR-WB编解码器通过与8曲Z的理论带宽的比较来引入对高带的限 制。
[0008] 3GPP AMR-WB语音编解码器在2001年被标准化,主要用于关于GSM (2G)和 UMTS (3G)的电路模式(C巧电话应用。运个相同的编解码器还在2003年由口U-T W推荐 G. 722.2 "Wideband coding speech at around 16kbit/s using Adaptive Multi-Rate Wideband(AMR-WB)"的形式而标准化。
[0009] 其包括被称为模式的从6. 6至23. 85化it/s的9比特率,并且包括具有来自静默 描述帖(SID,即"静默插入描述符")的舒适噪声生成(CNG)和声音活动检测(VAD)的连续 传输机制值TX,即"不连续传输")W及丢失帖校正机制(FEC,即"帖擦除隐藏",有时称为 化C,即包丢失隐臧)。
[0010] 运里不重复AMR-WB编码和解码算法的细节;该编解码器的详细描述可见于3GPP 规范灯S26. 190、26. 19U26. 192、26. 193、26. 194、26. 204)、ITU-T-G. 722. 2(W及对应的 附件和附录)、B.Bessette等人的标题为"Theadaptivemultiratewidebandspeech codec(AMR-WB) "(IEEETranscationsonSpeechandAudioProcessing,第 10 卷,第 8 号,2002年,620-636页)的文章W及相关联的3GPP和口U-T标准的源代码中。
[0011] 在AMR-WB编解码器中的带扩展的原理是相当基本的。实际上,通过时间(W每个 子帖的增益的形式来应用)和频率(通过应用线性预测合成滤波器或LPC即"线性预测编 码")包络来构成白噪声,由此生成高带化.4-7曲Z)。在图1示出该带扩展技术。
[001引针对每5ms子帖,W16曲Z,通过线性同余生成器(块100)来生成白噪声叫Bi(n),n= 0,…,79。该噪声Uhm(n)在时间上通过应用每个子帖的增益来格式化;运个操作被分 成两个处理步骤(块102、106或109):
[001引?计算(块101)第一因子,W将白噪声叫Bi(n)设置(块10。为与在低带中W12. 8曲Z解码的激励(u(n),n= 0,…,6扣相似的级别:
[001引运里可W注意到,通过比较不同大小(针对u(n)为64,而针对叫M(n)为80)的块 来完成能量的标准化,而不补偿采样频率(12. 8或16曲Z)的差异。
[001引?然后,获得(块106或109)如下形式的高带中的激励:
[0017] ,乂微(K)记妾化斯巧)(")
[0018]其中,根据比特率而获得不同的增益I徽。如果当前帖的比特率<23. 85化it/ S,则将增益Iw;估计为"无化Iind)"(也就是说,没有附加信息);在运种情况下,块 103通过具有截止频率为400化的高通滤波器过滤在低带中解码的信号W获得信号 (K== 0,…,紛),其中该高通滤波器消除可能扭曲在块104中做出的估计的非常低 的频率的影响,然后,由标准化的自校正(块104)来计算出信号、^,如巧勺被标记为etiit的 "倾斜"(频谱斜率的指标):
[0020] 最后,计算出如下形式的I微.
[0021 ]吝好公= Wwgw +W-心《公G
[002引其中,gsp= 1-etilt是应用在活动语音(activespeech)佛)帖中的增益,gBG= 1.25gsp是应用在与背景度G)噪声相关联的不活动语音(inactivespeech)帖中的增益, 并且Wsp是取决于声音活动检测(VAD)的加权函数。要理解,对倾斜(etiit)的估计使得能 够根据信号的频谱性质来调整高带的级别;当经CELP解码的信号的频谱斜率在频率增加 时平均能量降低的情况(在et…接近于1并且因此gSP= 1-et…降低的情况下的声音信号 的情况)下,该估计特别重要。还应当注意,在AMR-WB解码中的因子被限制为在范围 [0. 1,1. 0]内取值。
[0023]在23. 85化it/s时,校正信息项通过AMR-WB编码器传输并解码(块107、108),W 便改进针对每个子帖(每5ms4比特,或者0.8化it/s)估计的增益。
[0024] 然后,通过传递函数IAw(Z)的并且W16曲Z采样频率进行操作的LPC合成滤波 器(块111)对伪(artificial)激励叫B(n)进行滤波(块111)。该滤波器的结构取决于 当前帖的比特率:
[00巧]?在6. 6化it/s时,按照因子丫 = 0. 9对20阶的LPC滤波器L,'、去(引进行加权, 其对在低带(W12. 8曲Z)中解码的16阶LPC滤波器%进行"外插",由此获得滤波器 !/Ahb(Z),其中ISFdmittanceSpectral化equen巧,导抗谱频率)参数的领域中进行外插 的细节在标准G. 722. 2的6. 3. 2. 1节中描述;在该情况下:
[002引;1/4臘(;):::;1//^"(;/巧
[0027] ?在比特率>6. 6化it/s时,滤波器1/Aw(Z)是16阶的,并且简单地对应于:
[0028] 1/,4,战切:=^.!./糸名/巧
[0029] 其中,丫 = 0.6。应当注意至IJ,在运种情况下,W16曲Z使用滤波器17 , 其导致该滤波器的频率响应的从[0,6. 4曲Z]到[0, 8曲Z]的散布(通过比例变换)。
[0030] 结果SHB(n)最后由FIR("有限脉冲响应")型的带通滤波器(块1。)处理,W仅 保留6-7曲Z的带;在23. 85化it/s时,将同样是FIR型(块113)的低通滤波器添加到处 理,W进一步衰减7曲ZW上的频率。最后,将高频(HF)合成添加(块130)到通过块120 至123获得并且W16曲Z重采样(块123)的低频(L巧合成。运样,即使在理论上高带在 AMR-WB编解码器中从6. 4扩展到7曲Z,在与LF合成相加之前,HF合成更不如说是包含在 6-7曲Z带中。
[0031] 可W识别出在AMR-WB编解码器的带扩展技术中的一些缺点:
[003引?高带中的信号是格式化(通过每个子帖的时间增益,通过按照IAhb(Z)和带通 滤波来滤波)的白噪声,其不是在6. 4-7曲Z带中的信号的好的一般模型。例如,存在非常 和谐的音乐信号,6. 4-7曲Z带包含正弦分量(或音调)并且没有噪声(或者很少噪声);对 于运些信号,AMR-WB编解码器的带扩展极大地降低质量。
[003引-W7曲Z(块113)的低通滤波器在低带和高带之间引入大约Ims的移位,潜在地, 其可能由于使23. 85化it/s的两个带稍微地去同步而降低某些信号的质量,在将比特率从 23. 85化it/s切换到其他模式时,该去同步化也可能造成问题。
[0034] ?针对每个子帖(块101、103至low的增益的估计不是最优的。部分地,其基于 不同频率的信号之间的每个子帖(块101)的"绝对"能量的均衡:16曲Z(白噪声)的伪激 励和12. 8曲Z的信号(经解码的ACELP激励)。具体地,可W注意到,运方法隐含地引起高 带激励的衰减(按照12. 8/16 = 0. 8的比率);实际上,还将注意到,对AMR-WB编解码器中 的高带没有执行去加重(de-emphasis),其隐式地引起相对接近于0.6的放大(其对应于 6400化的1/(1-0. 6化1)频率响应的值)。实际上,因子1/0. 8和0. 6被近似地补偿。
[0035] ?关于语音,在3GPP报告TR26. 967中记载的3GPPAMR-WB编解码器特性测试已 表明,23. 85化it/s时的模式具有比在23. 05化it/s时不太好的质量,实际上,其质量与在 15. 85化it/s时的模式的质量相似。运特别表明,必须非常谨慎地控制伪HF信号水平,因为 质量在23. 85化it/s时下降,而每个帖4比特被认为使得最能够近似原始的高频的能量。
[0036] ?应用声学终端(ITU-TG. 191中的滤波器P. 341)标准的传输响应的严格模型导 致将经编码的带限制到7曲Z。现在,为了确保良好的质量水平,对于16曲Z的采样频率,在 7-8曲Z带中的频率仍然很重要,特别是对于音乐信号。
[0037] 随着在2008年被标准化的可缩放口U-TG. 718编解码器的发展,AMR-WB解码算 法已经被部分地进行了改进。
[0038]mJ-TG. 718标准包括所谓的可互操作(interoper油Ie)模式,其中核屯、编码与 W12. 65化it/s的G. 722. 2 (AMR-WB)编码兼容;而且,G. 718解码器具有能够对WAMR-WB 编解码器的所有可能的比特率(从6. 6到23. 85化it/s)的AMR-WB/G. 722. 2比特流进行解 码的具体特征。
[0039] 图2示出低延迟模式(G. 718-LD)下G. 718可互操作解码器。W下是由G. 718编 解码器中的AMR-WB比特流解码功能提供的改进的列表,必要时参考图1 :
[0040] ?带扩展(例如在推荐G. 718的条款7. 13. 1中描述的,块206)与AMR-WB编解码 器的完全相同,除了 6-7曲Z带通滤波器和IAw(Z)合成滤波器(块111和112)是W相反 的顺序。此外,在23. 85化it/s时,在可互相操作的G. 718解码器中不使用通过AMR-WB编码 器针对每个子帖传输的4个比特;因此,23. 85化it/s时
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1