音频解码器和解码方法与流程

文档序号:23019805发布日期:2020-11-20 13:06阅读:508来源:国知局
音频解码器和解码方法与流程

本申请是申请号为201680062186.0、申请日为2016年8月23日、发明名称为“音频解码器和解码方法”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求2015年8月25日提交的美国临时申请no.62/209,742和2015年10月8日提交的欧洲专利申请no.15189008.4的权益,每篇申请特此全文通过引用并入。

本发明涉及信号处理领域,具体地,公开了一种用于高效地发送具有空间化分量的音频信号的系统。



背景技术:

整个说明书中背景技术的任何讨论决不应被认为是承认这样的技术是众所周知的或者形成本领域中的公知常识的一部分。

音频的内容创建、编码、分发和再现传统上是以基于声道的格式执行的,也就是说,一个特定的目标回放系统是针对整个内容生态系统的内容预想的。这样的目标回放系统音频格式的示例是单声道、立体声、5.1、7.1等。

如果内容要在与预期的回放系统不同的回放系统上再现,则可以应用下混或上混处理。例如,5.1内容可以通过利用特定的下混方程来通过立体声回放系统再现。另一示例是立体声编码的内容通过7.1扬声器设置的回放,该回放可以包括所谓的上混处理,该上混处理可以由立体声信号中存在的信息指导或者可以不由立体声信号中存在的信息指导。能够上混的系统是杜比实验室公司的dolbyprologic(rogerdressler,“dolbyprologic环绕解码器,操作原理(dolbyprologicsurrounddecoder,principlesofoperation)”,www.dolby.com)。

当立体声或多声道内容要通过耳机再现时,常常期望的是借助于头部相关脉冲响应(hrir)或双耳房间脉冲响应(brir)来模拟多声道扬声器设置,hrir或brir分别模拟消声的或拟声的(被模拟)环境中的从每个扩音器到耳鼓的声学路径。具体地说,音频信号可以被与hrir或brir卷积以恢复耳间声强差(inter-auralleveldifferences)(ild)、耳间时间差(itd)和频谱线索,ild、itd和频谱线索使得收听者可以确定每个单个的声道的位置。声学环境(混响)的模拟还帮助实现某个感知的距离。

声源局部化和虚拟扬声器模拟

当立体声、多声道或基于对象的内容要通过耳机再现时,常常期望的是借助于与头部相关脉冲响应(hrir)或双耳房间脉冲响应(brir)的卷积来模拟多声道扬声器设置或离散的虚拟声学对象的集合,hrir或brir分别模拟消声的或拟声的(被模拟)环境中的从每个扩音器到耳鼓的声学路径。

具体地说,音频信号被与hrir或brir卷积以恢复耳间声强差(ild)、耳间时间差(itd)和频谱线索,ild、itd和频谱线索使得收听者可以确定每个单个的声道或对象的位置。声学环境(早期反射和后期混响)的模拟还帮助实现某个感知的距离。

翻到图1,示出了用于渲染两个对象或声道信号xi13、11的处理流程的示意性概览10,这两个信号从内容储存器12被读出以用于用4个hrir(例如14)处理。hrir输出然后被针对每个声道信号求和15、16,以便产生用于经由耳机18向收听者回放的耳机扬声器输出。hrir的基本原理例如在wightman等人的文献(1989)中有说明。

hrir/brir卷积方法伴随有几个缺点,这些缺点中的一个是耳机回放所需要的大量处理。需要对每一个输入对象或声道单独地应用hrir或brir卷积,因此复杂度通常随着声道或对象的数量线性地增长。因为耳机通常是与电池供电的便携式设备结合使用的,所以高计算复杂度是不期望的,因为它将大幅缩短电池寿命。而且,随着基于对象的音频内容(其可以包括多于100个的同时作用的对象)的引入,hrir卷积的复杂度可以远高于传统的基于声道的内容。

参数化编码技术

计算复杂度不是用于在涉及内容创作、分发和再现的生态系统内递送基于声道或对象的内容的唯一问题。在许多实际的情况下,尤其是对于移动应用,可用于内容递送的数据速率受到严重约束。消费者、广播组织和内容提供者已经使用无损感知音频编解码器来以48和192kbits/s之间的典型位速率递送立体声(两声道)音频内容。这些常规的基于声道的音频编解码器(比如mpeg-1层3(brandenberg等人,1994年)、mpegaac(bosi等人,1997年)和dolbydigital(andersen等人,2004年))具有随声道数量近似线性缩放的位速率。结果,数十个或者甚至数百个对象的递送导致对于消费者递送目的不切实际或者甚至不可用的位速率。

为了使得可以以与使用常规的感知音频编解码器的立体声内容递送所需的位速率可比的位速率递送复杂的基于对象的内容,所谓的参数化方法在过去十年已经受到研究和开发。这些参数化方法使得可以从相对少量的基本信号重构大量声道或对象。这些基本信号可以通过使用补充有使得可以重构原始对象或声道的附加(参数化)信息的常规音频编解码器从发送器传递到接收器。这样的技术的示例是参数化立体声(schuijer等人,2004年)、mpeg环绕(herre等人,2008年)和mpeg空间音频对象编码(herre等人,2012年)。

比如参数化立体声和mpeg环绕的技术的重要的方面是,这些方法旨在单个预定呈现(例如,参数化立体声中的立体声扩音器和mpeg环绕中的5.1扩音器)的参数化重构。在mpeg环绕的情况下,耳机虚拟器可以集成在生成用于耳机的虚拟5.1扩音器设置的解码器中,在该设置中,虚拟5.1扬声器对应于用于扩音器回放的5.1扩音器设置。因此,这些呈现不是独立的,因为耳机呈现表示与扩音器呈现相同的(虚拟)扩音器布局。另一方面,mpeg空间音频对象编码旨在需要后续渲染的对象的重构。

现在翻到图2,将概括地描述支持声道和对象的参数化系统20。该系统被划分为编码器21和解码器22部分。编码器21接收声道和对象23作为输入,并且生成具有有限数量的基本信号的下混24。另外,计算一系列对象/声道重构参数25。信号编码器26对来自下混器24的基本信号进行编码,并且包括计算的参数25以及对象元数据27,对象元数据27指示对象在所得的位流中应该被如何渲染。

解码器22首先对基本信号进行解码29,接着在发送的重构参数31的帮助下进行声道和/或对象重构30。所得信号可以被直接再现(如果这些是声道),或者可以被渲染32(如果这些是对象)。对于后者,每个重构的对象信号根据其相关联的对象元数据33被渲染。这样的元数据的一个示例是位置矢量(例如,对象在3维坐标系中的x、y和z坐标)。

解码器矩阵化

对象和/或声道重构30可以通过时间和频率变化的矩阵运算来实现。如果解码的基本信号35用zs[n]来表示,其中,s是基本信号索引,n是采样索引,则第一步通常包括借助于变换或滤波器组对基本信号进行变换。

可以使用多种多样的变换和滤波器组,比如离散傅立叶变换(dft)、修正离散余弦变换(mdct)或正交镜像滤波器(qmf)组。这样的变换或滤波器组的输出用zs[k,b]来表示,其中,b是子带或频谱索引,k是帧、时隙或子带时间或采样索引。

在大多数情况下,子带或频谱索引被映射到参数带p的较小的集合,这些参数带p共享共用的对象/声道重构参数。这可以用b∈b(p)来表示。换句话说,b(p)表示属于参数带索引p的连续子带b的集合。相反,p(b)是指子带b被映射到的参数带索引p。然后通过用矩阵m[p(b)]将信号zi矩阵化来获得子带或变换域重构的声道或对象

随后通过逆变换或合成滤波器组来获得时域重构的声道和/或对象信号yj[n]。

上面的处理通常被应用于某个有限范围的子带采样、时隙或帧k。换句话说,矩阵m[p(b)]通常随着时间的过去被更新/被修改。为简化记号,在这里不表示这些更新。然而,认为与矩阵m[p(b)]相关联的采样k的集合的处理可以是时变处理。

在重构的信号的数量j远大于基本信号的数量s的一些情况下,常常有帮助的是使用对可以被包括在重构的输出信号中的一个或多个基本信号进行操作的、可选的去相关器输出dm[k,b]:

图3示意性地更详细地示出了图2的声道或对象重构单元30的一种形式。输入信号35首先被分析滤波器组41处理,接着进行可选的去相关(d1、d2)44和矩阵化42,并且被合成滤波器组43处理。矩阵m[p(b)]运算由重构参数31控制。

用于对象/声道重构的最小均方误差(mmse)预测

尽管从基本信号zs[k,b]的集合重构对象或声道的不同的策略和方法存在,但是一种特定方法常常被称为最小均方误差(mmse)预测器,mmse预测器使用相关性和协方差矩阵来导出最小化期望信号和重构的信号之间的l2范数的矩阵系数m。对于该方法,假定基本信号zs[n]在编码器的下混器24中是作为输入对象或声道信号xi[n]的线性组合生成的:

对于基于声道的输入内容,振幅平移增益gi,s通常是恒定的,而对于其中对象的预期位置由时变的对象元数据提供的基于对象的内容,增益gi,s因此可以是时变的。该方程也可以在变换或子带域中用公式表示,在这种情况下,增益gi,s[k]集合用于每一个频率区间/频带k,照此,可以使增益gi,s[k]是频变的:

解码器矩阵42目前忽略去相关器,产生:

或者在矩阵公式表示中,为清晰起见,省略子带索引b和参数带索引p:

y=zm

z=xg

用于供编码器计算矩阵系数m的准则是最小化均方误差e,均方误差e表示解码器输出和原始输入对象/声道xj之间的平方误差:

然后通过以下方程来用矩阵记号给出最小化e的矩阵系数:

m=(z*z+∈i)-1z*x

其中,epsilon是正则化常数,(*)是复共轭转置算子。可以独立地对每个参数带p执行该运算,从而产生矩阵m[p(b)]。

用于表示变换的最小均方误差(mmse)预测

除了对象和/或声道的重构之外,还可以使用参数化技术来将一个表示变换为另一表示。这样的表示变换的示例是将意图用于扩音器回放的立体声混音转换为用于耳机的双耳表示,反之亦然。

图4示出了用于一个这样的表示变换的方法50的控制流程。首先在编码器52中由混合正交镜像滤波器分析组54对对象或声道音频进行处理。使用振幅平移技术基于对象元数据来计算扩音器渲染矩阵g并将该矩阵g应用55于存储在存储介质51中的对象信号xi,以得到立体声扩音器呈现zs。该扩音器呈现可以用音频编码器57编码。

另外,使用hrtf数据库59来生成并应用58双耳渲染矩阵h。使用该矩阵h来计算双耳信号yj,双耳信号yj使得可以通过使用立体声扩音器混音作为输入来重构双耳混音。矩阵系数m由音频编码器57编码。

发送的信息从编码器52发送到解码器53,在解码器53中,它被拆包61以包括分量m和zs。如果扩音器用作再现系统,则使用声道信息zs来再现扩音器呈现,因此,矩阵系数m被丢弃。另一方面,对于耳机回放,首先在混合qmf合成和再现60之前通过应用时变和频变矩阵m来将扩音器呈现变换62为双耳表示。

如果如下用矩阵记号来写矩阵化元素62的期望双耳输出:

y=xh

则可以通过以下方程来在编码器52中获得矩阵系数m:

m=(g*x*xg+∈i)-1g*x*xh

在本申请中,在58中应用的编码器矩阵h的系数通常是复值,例如,具有延迟或相位修改元素,以使得可以恢复对于耳机上的声源局部化在感知上非常相关的耳间时间差。换句话说,双耳渲染矩阵h是复值,因此变换矩阵m是复值。对于声源局部化线索的感知上透明的恢复,已经表明模拟人类听觉系统的频率分辨率的频率分辨率是期望的(breebaart2010年)。

在上面的章节中,利用最小均方误差准则来确定矩阵系数m。不失一般性地,其他众所周知的计算矩阵系数的准则或方法可以类似地使用以取代或补充最小均方误差原理。例如,可以使用更高次误差项或者通过最小化l1范数(例如,至少绝对偏差准则)来计算矩阵系数m。此外,可以采用各种方法,包括非负因式分解或优化技术、非参数化估计量、最大似然估计量等。另外,可以使用迭代或梯度下降处理、插值法、启发法、动态编程、机器学习、模糊优化、模拟退火或闭合形式解来计算矩阵系数,并且可以使用综合分析(analysis-by-synthesis)技术。最后但同样重要的,可以以各种方式约束矩阵系数估计,例如,通过限制值范围、正则化项、能量守恒要求的叠加等。

变换和滤波器组要求

根据应用以及是对象还是声道要被重构,可以在变换或图3的滤波器组单元41的滤波器组频率分辨率上叠加某些要求。在大多数实际应用中,频率分辨率与人类听觉系统的假定分辨率匹配以针对给定的位速率(由参数的数量确定)和复杂度给予最好的感知的音频质量。已知人类听觉系统可以被认为是具有非线性频率分辨率的滤波器组。这些滤波器被称为临界带(zwicker,1961年),并且近似为自然对数。在低频处,临界带小于100hz宽,而在高频处,临界带可以被发现宽于1khz。

当涉及到滤波器组设计时,该非线性行为可以造成挑战。变换和滤波器组可以使用它们的处理结构中的对称性来非常高效地实现,前提条件是频率分辨率在频率上(across)是恒定的。

这暗示着,变换长度或子带的数量将由低频处的临界带宽确定,并且dft区间到所谓的参数带的映射可以被采用以模拟非线性频率分辨率。这样的映射处理例如在breebaart等人(2005年)和breebaart等人(2010年)的文献中有说明。该方法的一个缺点是,需要非常长的变换来满足低频临界带宽约束,而变换在高频处相对长(或低效)。提高低频处的频率分辨率的替代解决方案是使用混合滤波器组结构。在这样的结构中,采用两个滤波器组的级联,在该级联中,第二滤波器组提高第一滤波器组的分辨率,但是仅提高在最低子带中的几个中的分辨率(schuijer等人,2004年)。

图5示出了与schuijer等人的文献中阐述的混合滤波器组结构类似的混合滤波器组结构41的一种形式。输入信号z[n]首先被复值正交镜像滤波器分析组(cqmf)71处理。随后,信号被以因子q(例如,72)下采样,得到子带信号z[k,b],其中,k是子带采样索引,b是子带频率索引。此外,所得的子带信号中的至少一个被第二(奈奎斯特)滤波器组74处理,而其余的子带信号被延迟75以补偿由奈奎斯特滤波器组引入的延迟。在该特定示例中,滤波器组的级联得到8个子带(b=1,…,8),这些子带被映射到具有非线性频率分辨率的6个参数带p=(1,…,6)上。带76被合并在一起以形成单个参数带(p=6)。

该方法的益处是与使用具有较多的(较窄的)子带的单个滤波器组相比复杂度较低。然而,缺点是整个系统的延迟显著地增大,因此,存储器使用率也显著地较高,这引起功耗增大。

现有技术的限制

返回到图4,表明现有技术利用矩阵化62的构思(可能补充有去相关器的使用)来从基本信号的集合zs重构声道、对象或呈现信号这导致以通用的方式描述现有技术的以下矩阵公式表示:

矩阵系数m被直接从编码器发送到解码器或从声源局部化参数(例如,如breebaart等人2005年的文献中关于参数化立体声编码描述的、或者herre等人(2008年)的文献中关于多声道解码描述的声源局部化参数)导出。而且,该方法还可以用于通过使用复值矩阵系数来恢复声道间相位差(参见例如breebaart等人2010年和breebaart2005年的文献)。

如图6所示,在实践中,使用复值矩阵系数暗示着期望延迟80是用分段常数相位近似81表示的。假定期望相位响应是其中相位随着频率线性减小的纯延迟80(虚线),现有技术的复值矩阵化运算得到分段常数近似81(实线)。可以通过提高矩阵m的分辨率来改进近似。然而,这具有两个重要的缺点。它需要提高滤波器组的分辨率,这使得存储器使用率较高、计算复杂度较高、延时较长,因此,功耗较高。它还需要发送较多参数,导致位速率较高。

所有这些缺点对于移动的和电池供电的设备尤其成问题。如果更优的解决方案可用,则将是有利的。



技术实现要素:

本发明的一个目的以其优选形式来说是提供改进形式的音频信号编码和解码以用于在不同呈现中再现。

根据本发明的第一方面,提供了一种用于将音频声道或对象的第二呈现表示为数据流的方法,该方法包括以下步骤:(a)提供基本信号的集合,基本信号表示音频声道或对象的第一呈现;(b)提供变换参数的集合,变换参数意图将第一呈现变换为第二呈现;变换参数进一步是针对至少两个频带指定的,并且包括用于频带中的至少一个的多抽头卷积矩阵参数的集合。

滤波器系数的集合可以表示有限脉冲响应(fir)滤波器。基本信号的集合优选地被划分为一系列时间段(temporalsegment),并且可以对每个时间段提供变换参数的集合。滤波器系数可以包括至少一个可以是复值的系数。第一或第二呈现可以意图用于耳机回放。

在一些实施例中,与高频相关联的变换参数不修改信号相位,而对于低频,变换参数修改信号相位。滤波器系数的集合可以优选地可操作为对多抽头卷积矩阵进行处理。滤波器系数的集合可以优选地用于对低频带进行处理。

基本信号的集合和变换参数的集合优选地组合以形成数据流。变换参数可以包括用于基本信号的集合的高频部分的矩阵运算的高频音频矩阵系数。在一些实施例中,对于基本信号的集合的高频部分的中间频率部分,矩阵运算优选地可以包括复值变换参数。

根据本发明的进一步的方面,提供了一种用于对编码的音频信号进行解码的解码器,编码的音频信号包括:第一呈现,包括意图以第一音频呈现格式再现音频的音频基本信号的集合;以及变换参数的集合,用于将第一呈现格式的音频基本信号变换为第二呈现格式,变换参数至少包括高频音频变换参数和低频音频变换参数,低频变换参数包括多抽头卷积矩阵参数,解码器包括:第一分离单元,用于分离音频基本信号的集合和变换参数的集合;矩阵乘法单元,用于将多抽头卷积矩阵参数应用于音频基本信号的低频分量,将卷积应用于低频分量,产生卷积的低频分量;以及标量乘法单元,用于将高频音频变换参数应用于音频基本信号的高频分量以产生标量高频分量;输出滤波器组,用于组合卷积的低频分量和标量高频分量以产生第二呈现格式的时域输出信号。

矩阵乘法单元可以修改音频基本信号的低频分量的相位。在一些实施例中,多抽头卷积矩阵变换参数优选地为复值。高频音频变换参数也优选地为复值。变换参数的集合进一步可以包括实值高频音频变换参数。在一些实施例中,解码器可以进一步包括滤波器,这些滤波器用于将音频基本信号分为低频分量和高频分量。

根据本发明的进一步的方面,提供了一种对编码的音频信号进行解码的方法,编码的音频信号包括:第一呈现,包括意图以第一音频呈现格式再现音频的音频基本信号的集合;以及变换参数的集合,用于将第一呈现格式的音频基本信号变换为第二呈现格式,变换参数至少包括高频音频变换参数和低频音频变换参数,低频变换参数包括多抽头卷积矩阵参数,该方法包括以下步骤:将音频基本信号的低频分量与低频变换参数卷积以产生卷积的低频分量;将音频基本信号的高频分量与高频变换参数相乘以产生相乘的高频分量;将卷积的低频分量和相乘的高频分量组合以产生用于通过第二呈现格式回放的输出音频信号频率分量。

在一些实施例中,编码的信号可以包括多个时间段,该方法更优选地可以包括以下步骤:对编码的信号的多个时间段的变换参数进行插值以产生插值的变换参数,插值的变换参数包括插值的低频音频变换参数;并且将音频基本信号的低频分量的多个时间段与插值的低频音频变换参数卷积以产生卷积的低频分量的多个时间段。

编码的音频信号的变换参数的集合可以优选地是时变的,并且该方法更优选地可以包括以下步骤:将低频分量与用于多个时间段的低频变换参数进行卷积以产生中间的卷积的低频分量的多个集合;对中间的卷积的低频分量的所述多个集合进行插值以产生卷积的低频分量。

插值可以利用中间的卷积的低频分量的所述多个集合的重叠和相加方法。

附图说明

现在将仅以举例的方式来参照附图描述本发明的实施例,其中:

图1示出用于两个源对象的hrir卷积处理的示意性概览,其中,每个声道或对象被用一对hrir/brir进行处理;

图2示意性地示出支持声道和对象的通用参数化编码系统;

图3示意性地更详细地示出图2的声道或对象重构单元30的一种形式;

图4示出将立体声扩音器呈现变换为双耳耳机呈现的方法的数据流程;

图5示意性地示出根据现有技术的混合分析滤波器组结构;

图6示出通过现有技术获得的期望(虚线)和实际(实线)相位响应的比较;

图7示意性地示出根据本发明的实施例的示例性编码器滤波器组和参数映射系统;

图8示意性地示出根据实施例的解码器滤波器组和参数映射;以及

图9示出用于立体声到双耳呈现的变换的编码器。

图10示意性地示出用于立体声到双耳呈现的变换的解码器。

参考文献

wightman,f.l.,andkistler,d.j.(1989).“headphonesimulationoffree-fieldlistening.i.stimulussynthesis,”j.acoust.soc.am.85,858–867.

schuijers,erik,etal.(2004).“lowcomplexityparametricstereocoding.”audioengineeringsocietyconvention116.audioengineeringsociety.

herre,j.,k.,breebaart,j.,faller,c.,disch,s.,purnhagen,h.,...&chong,k.s.(2008).mpegsurround-theiso/mpegstandardforefficientandcompatiblemultichannelaudiocoding.journaloftheaudioengineeringsociety,56(11),932-955.

herre,j.,purnhagen,h.,koppens,j.,hellmuth,o.,j.,hilpert,j.,&oh,h.o.(2012).mpegspatialaudioobjectcoding—theiso/mpegstandardforefficientcodingofinteractiveaudioscenes.journaloftheaudioengineeringsociety,60(9),655-673.

brandenburg,k.,&stoll,g.(1994).iso/mpeg-1audio:agenericstandardforcodingofhigh-qualitydigitalaudio.journaloftheaudioengineeringsociety,42(10),780-792.

bosi,m.,brandenburg,k.,quackenbush,s.,fielder,l.,akagiri,k.,fuchs,h.,&dietz,m.(1997).iso/iecmpeg-2advancedaudiocoding.journaloftheaudioengineeringsociety,45(10),789-814.

andersen,r.l.,crockett,b.g.,davidson,g.a.,davis,m.f.,fielder,l.d.,turner,s.c.,...&williams,p.a.(2004,october).introductiontodolbydigitalplus,anenhancementtothedolbydigitalcodingsystem.inaudioengineeringsocietyconvention117.audioengineeringsociety.

zwicker,e.(1961).subdivisionoftheaudiblefrequencyrangeintocriticalbands(frequenzgruppen).thejournaloftheacousticalsocietyofamerica,(33(2)),248.

breebaart,j.,vandepar,s.,kohlrausch,a.,&schuijers,e.(2005).parametriccodingofstereoaudio.eurasipjournalonappliedsignalprocessing,2005,1305-1322.

breebaart,j.,nater,f.,&kohlrausch,a.(2010).spectralandspatialparameterresolutionrequirementsforparametric,filter-bank-basedhrtfprocessing.journaloftheaudioengineeringsociety,58(3),126-140.

breebaart,j.,vandepar,s.,kohlrausch,a.,&schuijers,e.(2005).parametriccodingofstereoaudio.eurasipjournalonappliedsignalprocessing,2005,1305-1322.

具体实施方式

该优选实施例提供了从可以应用于具有低频分辨率的滤波器组中的基本信号的集合重构对象、声道或“呈现”的方法。一个示例是将立体声呈现变换为可以在没有奈奎斯特(混合)滤波器组的情况下应用的意图用于耳机回放的双耳呈现。降低的解码器频率分辨率被用多抽头卷积矩阵补偿。该卷积矩阵仅需要几个抽头(例如,两个),并且在实际的情况下,该卷积矩阵只有在低频处才是需要的。该方法(1)降低了解码器的计算复杂度,(2)降低了解码器的存储器使用率,并且(3)降低了参数位速率。

在优选实施例中,提供了一种用于克服不期望的解码器端计算复杂度和存储器要求的系统和方法。这通过以下方式来实现:在编码器中提供高频分辨率,在解码器中利用受到约束的(较低)频率分辨率(例如,使用比对应的编码器中所使用的频率分辨率差得多的频率分辨率),并且利用多抽头(卷积)矩阵来补偿降低的解码器频率分辨率。

通常,因为高频矩阵分辨率只有在低频处才是需要的,所以多抽头(卷积)矩阵可以被用在低频处,而常规的(无状态)矩阵可以被用于其余的(较高)频率。换句话说,在低频处,矩阵表示对输入和输出的每个组合操作的fir滤波器的集合,而在高频处,使用无状态矩阵。

编码器滤波器组和参数映射

图7示出了根据实施例的示例性编码器滤波器组和参数映射系统90。在该示例实施例90中,8个子带(b=1,…,8)(例如,91)一开始借助于混合(级联)滤波器组92和奈奎斯特滤波器组93生成。随后,头四个子带被映射94到同一个参数带(p=1)上以计算卷积矩阵m[k,p=1],例如,矩阵现在具有附加索引k。其余的子带(b=5,…,8)通过使用无状态矩阵m[p(b)]95、96被映射到参数带(p=2,3)。

解码器滤波器组和参数映射

图8示出了对应的示例性解码器滤波器组和参数映射系统100。与编码器相反,不存在奈奎斯特滤波器组,也不存在补偿奈奎斯特滤波器组延迟的任何延迟。解码器分析滤波器组101仅生成5个子带(b=1,…,5),例如,102,这些子带被用因子q下采样。第一子带被用卷积矩阵m[k,p=1]103处理,而其余的带根据现有技术被用无状态矩阵104、105处理。

尽管上面的示例在编码器90中应用奈奎斯特滤波器组并且在解码器100中仅对第一cqmf子带应用对应的卷积矩阵,但是相同的处理可以被应用于众多个子带,不一定仅限于最低子带(一个或多个)。

编码器实施例

尤其有用的一个实施例在将扩音器呈现变换为双耳呈现中。图9示出了使用所提出的方法进行呈现变换的编码器110。输入声道或对象xi[n]的集合首先通过使用滤波器组111被变换。滤波器组111是混合复正交镜像滤波器(hcqmf)组,但是其他滤波器组结构可以同样地被使用。所得的子带表示xi[k,b]被处理两次112、113。

首先113,生成意图用于编码器的输出的基本信号zs[k,b]的集合113。该输出可以例如使用振幅平移技术来生成以使得所得的信号意图用于扩音器回放。

第二112,生成期望变换信号yj[k,b]的集合112。该输出可以例如使用hrir处理来生成以使得所得的信号意图用于耳机回放。这样的hrir处理可以在滤波器组域中被采用,但是可以借助于hrir卷积同样地在时域中来执行。hrir是从数据库114获得的。

卷积矩阵m[k,p]随后通过经由抽头延迟线116馈送基本信号zs[k,b]而获得。延迟线的每个抽头用作mmse预测器级115的附加输入。该mmse预测器级计算卷积矩阵m[k,p],该矩阵最小化期望的变换的信号yj[k,b]和应用卷积矩阵的图8的解码器100的输出之间的误差。于是由此得出结论,矩阵系数m[k,p]由以下方程给出:

m=(z*z+∈i)-1z*y

在该公式表示中,矩阵z包含抽头延迟线的所有输入。

最初考虑用于给定子带b的一个信号的重构的情况,其中,存在来自抽头延迟线的a个输入,具有:

所得的卷积矩阵系数m[k,p]被量化、被编码并且被与基本信号zs[n]一起发送。解码器然后可以使用卷积处理来从输入信号zs[k,b]重构

或者通过使用卷积表达来不同地撰写

卷积方法可以与线性(无状态)矩阵处理混合。

可以进一步区分复值无状态矩阵化和实值无状态矩阵化。在低频(通常低于1khz)处,卷积处理(a>1)优选地使得可以按照感知频率尺度来准确地重构声道间性质。在中频(一直到大约2或3khz)处,人类听觉系统对声道间相位差是敏感的,但是不需要非常高的频率分辨率来重构这样的相位。这暗示着单抽头(无状态)复值矩阵是足够的。对于较高频率,人类听觉系统对于波形精细结构相位几乎是不敏感的,并且实值无状态矩阵化是足够的。随着频率增大,映射到参数带上的滤波器组输出的数量通常增加以反映人类听觉系统的非线性频率分辨率。

在另一实施例中,编码器中的第一呈现和第二呈现是互换的,例如,第一呈现意图用于耳机回放,第二呈现意图用于扩音器回放。在该实施例中,扩音器呈现(第二呈现)是通过将至少两个频带中的时间相关的变换参数应用于第一呈现而生成的,其中,变换参数被进一步指定为包括用于频带中的至少一个的滤波器系数的集合。

在一些实施例中,第一呈现可以在时间上被划分为一系列段,对于每个段有变换参数的单独的集合。在进一步的改良中,在段变换参数不可用的情况下,可以根据先前的系数来对参数进行插值。

解码器实施例

图10示出解码器120的实施例。输入位流121被划分为基本信号位流131和变换参数数据124。随后,基本信号解码器123对基本信号z[n]进行解码,这些基本信号z[n]随后被分析滤波器组125处理。所得的具有子带b=1,…,5的频域信号z[k,b]被矩阵乘法单元126、129和130处理。具体地说,矩阵乘法单元126将复值卷积矩阵m[k,p=1]应用于频域信号z[k,b=1]。此外,矩阵乘法单元129将复值、单抽头矩阵系数m[p=2]应用于信号z[k,b=2]。最后,矩阵乘法单元130将实值矩阵系数m[p=3]应用于频域信号z[k,b=3…5]。矩阵乘法单元输出信号借助于合成滤波器组127被转换为时域输出128。所称的z[n]、z[k]等是指基本信号的集合,而不是指任何特定的基本信号。因此,z[n]、z[k]等可以被解释为zs[n]、zs[k]等,其中,0≤s<n,n是基本信号的数量。

换句话说,矩阵乘法单元126从基本信号z[k]的子带b=1的当前采样和基本信号z[k]的子带b=1的先前采样的加权组合来确定输出信号的子带b=1的输出采样(例如,z[k-a],其中,0<a<a,并且a大于1)。用于确定输出信号的子带b=1的输出采样的权重对应于用于信号的复值卷积矩阵m[k,p=1]。

此外,矩阵乘法单元129从基本信号z[k]的子带b=2的当前采样的加权组合确定输出信号的子带b=2的输出采样。用于确定输出信号的子带b=2的输出采样的权重对应于复值、单抽头矩阵系数m[p=2]。

最后,矩阵乘法单元130从基本信号z[k]的子带b=3,…5的当前采样的加权组合确定输出信号的子带b=3,…5的输出采样。用于确定输出信号的子带b=3,…5的输出采样的权重对应于实值矩阵系数m[p=3]。

在一些情况下,基本信号解码器123可以在与由分析滤波器组125提供的频率分辨率相同的频率分辨率处对信号进行处理。在这样的情况下,基本信号解码器125可以被配置为输出频域信号z[k],而不是时域信号z[n],在这种情况下,分析滤波器组125可以被省略。此外,在一些情况下,可能优选的是将复值单抽头矩阵系数而不是实值矩阵系数应用于频域信号z[k,b=3….5]。

在实践中,矩阵系数m可以随着时间的过去被更新;例如,通过将基本信号的各个帧与矩阵系数m相关联。可替代地或另外地,给矩阵系数m补充时间戳,这些时间戳指示矩阵应该被应用于基本信号z[n]的哪个时间或间隔处。为了降低与矩阵更新相关联的发送位速率,更新的次数理想地是有限的,导致矩阵更新的分布是时间稀疏的。矩阵的这样的稀少更新需要专用处理来确保从矩阵的一个实例到下一个实例的平滑转变。矩阵m可以与基本信号z的特定时间段(帧)和/或频率区域相关联地提供。解码器可以采用各种插值方法来确保随着时间的过去、从矩阵m的后面的实例的平滑转变。这样的插值方法的一个示例是计算信号z的重叠的加窗帧并且使用与每个这样的帧相关联的矩阵系数m来计算该特定帧的输出信号y的对应集合。然后可以通过使用重叠相加技术来聚合后面的帧,从而提供平滑的交叉渐变(cross-faded)转变。可替代地,解码器可以接收与矩阵m相关联的时间戳,这些时间戳描述时间上的特定实例处的期望矩阵系数。对于时间戳之间的音频采样,可以使用线性插值、三次插值、带受限的插值或其他的插值手段来对矩阵m的矩阵系数进行插值以确保平滑的转变。除了时间上的插值之外,可以使用类似的技术来在频率上对矩阵系数进行插值。

因此,本文档描述了用于将音频声道或对象xi的第二呈现表示为要被发送或提供给对应的解码器100的数据流的方法(和对应的编码器90)。该方法包括提供基本信号zs的步骤,所述基本信号表示音频声道或对象xi的第一呈现。如上面所概述的,可以使用第一渲染参数g(即,尤其是使用第一增益矩阵,例如用于振幅平移)来从音频声道或对象xi确定基本信号zs。第一呈现可以意图用于扩音器回放或耳机回放。另一方面,第二呈现可以意图用于耳机回放或扩音器回放。因此,可以执行从扩音器回放到耳机回放(或者反过来)的变换。

该方法进一步包括提供变换参数m(尤其是一个或多个变换矩阵),所述变换参数m意图将所述第一呈现的基本信号zs变换为所述第二呈现的输出信号可以如本文档中概述的那样确定变换参数。具体地说,可以使用第二渲染参数h(如本文档中概述的那样)来从音频声道或对象xi确定第二呈现的期望输出信号yj。可以通过最小化输出信号与期望输出信号yj的偏差来确定变换参数m(例如,通过使用最小均方误差准则)。

更具体地说,可以在子带域中(即,对于不同的频带)确定变换参数m。为了这个目的,可以使用编码器滤波器组92、93来对b个频带确定子带域基本信号z[k,b]。频带的数量b大于1,例如,b等于或大于4、6、8、10。在本文档中描述的示例中,b=8,或b=5。如上面所概述的,编码器滤波器组92、93可以包括混合滤波器组,该混合滤波器组提供b个频带的、具有比这b个频带的高频带高的频率分辨率的低频带。此外,可以确定这b个频带的子带域期望输出信号y[k,b]。可以通过最小化一个或多个频带内的期望输出信号yj与输出信号的偏差(例如,通过使用最小均方误差准则)来确定用于一个或多个频带的变换参数m。

变换参数m因此可以每个都是针对至少两个频带(尤其是针对b个频带)指定的。此外,变换参数可以包括用于频带中的至少一个的多抽头卷积矩阵参数的集合。

因此,描述了用于从音频声道/对象的第一呈现的基本信号确定音频声道/对象的第二呈现的输出信号的方法(和对应的解码器)。第一呈现可以用于扩音器回放,第二呈现可以用于耳机回放(或者反过来)。通过使用针对不同频带的变换参数来确定输出信号,其中,用于频带中的至少一个的变换参数包括多抽头卷积矩阵参数。作为对频带中的至少一个使用多抽头卷积矩阵参数的结果,可以降低解码器100的计算复杂度,尤其是通过降低解码器所用的滤波器组的频率分辨率来降低解码器100的计算复杂度。

例如,使用多抽头卷积矩阵参数来确定第一频带的输出信号可以包括将输出信号的第一频带的当前采样确定为基本信号的第一频带的当前采样以及一个或多个先前采样的加权组合,其中,用于确定加权组合的权重对应于用于第一频带的多抽头卷积矩阵参数。用于第一频带的多抽头卷积矩阵参数中的一个或多个通常是复值。

此外,确定第二频带的输出信号可以包括将输出信号的第二频带的当前采样确定为基本信号的第二频带的当前采样的加权组合(而不是基于基本信号的第二频带的先前采样),其中,用于确定加权组合的权重对应于用于第二频带的变换参数。用于第二频带的变换参数可以是复值,或者可以可替代地是实值。

具体地说,可以对于b个频带中的至少两个相邻频带确定相同的多抽头卷积矩阵参数的集合。如图7所示,可以对由奈奎斯特滤波器组提供的频带(即,对具有相对高的频率分辨率的频带)确定单个多抽头卷积矩阵参数的集合。通过这样做,奈奎斯特滤波器组在解码器100内的使用可以被省略,从而降低解码器100的计算复杂度(同时保持第二呈现的输出信号的质量)。

此外,可以对至少两个相邻高频带确定相同的实值变换参数(如图7的上下文下所示的那样)。通过这样做,可以进一步降低解码器100的计算复杂度(同时保持第二呈现的输出信号的质量)。

解释

整个说明书中所称的“一个实施例”、“一些实施例”或“实施例”意味着与实施例结合描述的特定的特征、结构或特性被包括在本发明的至少一个实施例中。因此,短语“在一个实施例中”、“在一些实施例中”或“在实施例中”在整个说明书中各个地方的出现不一定全都指的是同一个实施例,但是可以指同一个实施例。此外,在一个或多个实施例中,特定的特征、结构或特性可以以本领域的普通技术人员从本公开将清楚的任何合适的方式组合。

如本文所使用的,除非另有指定,否则序数形容词“第一”、“第二”、“第三”等描述共同对象的使用仅指示相似对象的不同实例正被提到,而非意图暗示如此描述的对象必须按时间上、空间上、排名上的给定顺序或任何其他方式的给定顺序。

在所附权利要求书和本文的描述中,术语“包括”、“…包括”或“其包括”中的任何一个是意指至少包括后面的元件/特征但不排除其他元件/特征的开放性术语。因此,术语“包括”在被用于权利要求中时不应被解释为是限制其后列出的手段或元件或步骤。例如,表达“包括a和b的设备”的范围不应限于仅由元件a和b组成的设备。如本文所使用的术语“包含”或“它包含”或“其包含”中的任何一个也是也意指至少包括该术语后面的元件/特征但不排除其他元件/特征的开放性术语。因此,包括与包含是同义的,并且意指包含。

如本文所使用的,术语“示例性”是以提供示例的意义使用的,与指示质量相反。也就是说,“示例性实施例”是作为示例提供的实施例,与一定是示例性质量的实施例相反。

应意识到,在上面对本发明的示例性实施例的描述中,为了使本公开精简并且帮助理解各种发明方面中的一个或多个的目的,本发明的各种特征在单个实施例、附图或其描述中有时被分组在一起。然而,本公开的方法不应被解释为反映要求保护的发明需要比每个权利要求中明确记载的特征多的特征的意图。相反,如所附权利要求所反映的,发明方面在于比单个前述公开实施例的所有特征少的特征。因此,接着具体实施方式的权利要求特此被明确地并入到该具体实施方式中,每个权利要求独自作为本发明的单独的实施例。

此外,如本领域技术人员将理解的,虽然本文所描述的一些实施例包括在其他实施例中所包含的一些特征,而不包括在这些其他实施例中所包含的其他特征,但是不同实施例的特征的组合意在于本发明的范围内,并且形成不同实施例。例如,在所附权利要求中,要求保护的实施例中的任何一个可以被按任何组合使用。

此外,实施例中的一些在本文中被描述为可以由计算机系统的处理器或实现功能的其他手段实现的方法或方法的元素的组合。因此,具有用于实现这样的方法或方法的元素所需要的指令的处理器形成用于实现该方法或方法的元素的手段。此外,装置实施例的本文所描述的元素是用于实现由用于实现本发明的目的的元素执行的功能的手段的示例。

在本文提供的描述中,阐述了许多特定细节。然而,理解的是,可以在没有这些特定细节的情况下实施本发明的实施例。在其他情况下,为了不模糊该描述的理解,没有详细示出众所周知的方法、结构和技术。

类似地,要注意的是,术语“耦合的”在被用在权利要求中时不应被解释为仅限于直接连接。术语“耦合的”和“连接的”、连同它们的派生词可以被使用。应理解,这些术语并非意图是彼此的同义词。因此,表达“耦合到设备b的设备a”的范围不应限于其中设备a的输出直接连接到设备b的输入的设备或系统。它意味着,在a的输出和b的输入之间存在路径,该路径可以是包括其他设备或手段的路径。“耦合的”可以意味着两个或更多个元件直接的物理或电接触,或两个或更多个元件不彼此直接接触但是仍彼此合作或交互。

因此,虽然已经描述了据信是本发明的优选实施例的内容,但是本领域技术人员将认识到,在不脱离本发明的精神的情况下,可以对本发明做出其他的和进一步的修改,并且意图要求保护落在本发明的范围内的所有这样的改变和修改。例如,上面给出的任何公式仅表示可以使用的规程。可以添加功能性,或者从框图删除功能性,并且可以在功能块之间交换操作。对于在本发明的范围内描述的方法,可以添加或删除步骤。

本发明的各方面可以从以下枚举的示例实施例(eees)领会:

eee1.一种用于将音频声道或对象的第二呈现表示为数据流的方法,该方法包括以下步骤:

(a)提供基本信号的集合,所述基本信号表示音频声道或对象的第一呈现;

(b)提供变换参数的集合,所述变换参数意图将所述第一呈现变换为所述第二呈现;所述变换参数进一步是针对至少两个频带指定的,并且包括用于频带中的至少一个的多抽头卷积矩阵参数的集合。

eee2.根据eee1所述的方法,其中,滤波器系数的所述集合表示有限脉冲响应(fir)滤波器。

eee3.根据前面任何一个eee所述的方法,其中,基本信号的所述集合被划分为一系列时间段,并且对每个时间段提供变换参数的集合。

eee4.根据前面任何一个eee所述的方法,其中,所述滤波器系数包括至少一个是复值的系数。

eee5.根据前面任何一个eee所述的方法,其中,所述第一或第二呈现意图用于耳机回放。

eee6.根据前面任何一个eee所述的方法,其中,与高频相关联的变换参数不修改信号相位,而对于低频,变换参数修改信号相位。

eee7.根据前面任何一个eee所述的方法,其中,滤波器系数的所述集合可操作为对多抽头卷积矩阵进行处理。

eee8.根据eee7所述的方法,其中,滤波器系数的所述集合用于对低频带进行处理。

eee9.根据前面任何一个eee所述的方法,其中,基本信号的所述集合和变换参数的所述集合被组合以形成所述数据流。

eee10.根据前面任何一个eee所述的方法,其中,所述变换参数包括用于基本信号的集合的高频部分的矩阵运算的高频音频矩阵系数。

eee11.根据eee10所述的方法,其中,对于基本信号的所述集合的高频部分的中间频率部分,矩阵运算包括复值变换参数。

eee12.一种用于对编码的音频信号进行解码的解码器,编码的音频信号包括:

第一呈现,所述第一呈现包括意图以第一音频呈现格式再现音频的音频基本信号的集合;以及

变换参数的集合,该变换参数的集合用于将所述第一呈现格式的所述音频基本信号变换为第二呈现格式,所述变换参数至少包括高频音频变换参数和低频音频变换参数,所述低频变换参数包括多抽头卷积矩阵参数,

该解码器包括:

第一分离单元,所述第一分离单元用于分离音频基本信号的集合和变换参数的集合;

矩阵乘法单元,所述矩阵乘法单元用于将所述多抽头卷积矩阵参数应用于音频基本信号的低频分量,将卷积应用于低频分量,产生卷积的低频分量;以及

标量乘法单元,所述标量乘法单元用于将高频音频变换参数应用于音频基本信号的高频分量以产生标量高频分量;

输出滤波器组,所述输出滤波器组用于组合所述卷积的低频分量和所述标量高频分量以产生所述第二呈现格式的时域输出信号。

eee13.根据eee12所述的解码器,其中,所述矩阵乘法单元修改音频基本信号的低频分量的相位。

eee14.根据eee12或13所述的解码器,其中,所述多抽头卷积矩阵变换参数是复值。

eee15.根据eee12至14中任何一个所述的解码器,其中,所述高频音频变换参数是复值。

eee16.根据eee15所述的解码器,其中,变换参数的所述集合进一步包括实值高频音频变换参数。

eee17.根据eee12至16中任何一个所述的解码器,进一步包括滤波器,所述滤波器用于将音频基本信号分为所述低频分量和所述高频分量。

eee18.一种用于对编码的音频信号进行解码的方法,编码的音频信号包括:

第一呈现,所述第一呈现包括意图以第一音频呈现格式再现音频的音频基本信号的集合;以及

变换参数的集合,变换参数的所述集合用于将所述第一呈现格式的音频基本信号变换为所述第二呈现格式,所述变换参数至少包括高频音频变换参数和低频音频变换参数,所述低频变换参数包括多抽头卷积矩阵参数,

所述方法包括以下步骤:

将所述音频基本信号的低频分量与低频变换参数卷积以产生卷积的低频分量;

将音频基本信号的高频分量与高频变换参数相乘以产生相乘的高频分量;

将所述卷积的低频分量和所述相乘的高频分量组合以产生用于通过第二呈现格式回放的输出音频信号频率分量。

eee19.根据eee18所述的方法,其中,所述编码的信号包括多个时间段,所述方法进一步包括以下步骤:

对所述编码的信号的多个时间段的变换参数进行插值以产生插值的变换参数,所述插值的变换参数包括插值的低频音频变换参数;并且

将所述音频基本信号的低频分量的多个时间段与插值的低频音频变换参数卷积以产生所述卷积的低频分量的多个时间段。

eee20.根据eee18所述的方法,其中,所述编码的音频信号的变换参数的集合是时变的,并且所述方法进一步包括以下步骤:

将用于多个时间段的低频变换参数与低频分量进行卷积以产生中间的卷积的低频分量的多个集合;

对中间的卷积的低频分量的所述多个集合进行插值以产生所述卷积的低频分量。

eee21.根据eee19或eee20所述的方法,其中,所述插值利用中间的卷积的低频分量的所述多个集合的重叠和相加方法。

eee22.根据eee18-21中任何一个所述的方法,进一步包括将音频基本信号滤波为所述低频分量和所述高频分量。

eee23.一种计算机可读非暂时性存储介质,所述计算机可读非暂时性存储介质包括用于使计算机根据eee1至11和18-22中任何一个所述的方法进行操作的程序指令。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1