用于自适应音频信号产生、编码和呈现的系统和方法

文档序号：9814935阅读：476来源：国知局

用于自适应音频信号产生、编码和呈现的系统和方法
【专利说明】
[0001] 本申请是申请号为201280032058.3,申请日为2012年6月27日，题为"用于自适应音频信号产生、编码和呈现的系统和方法"的中国发明专利申请的分案申请。
[0002] 相关申请的交叉引用
[0003] 本申请要求2011年7月1日提交的美国临时申请No.61/504,005和2012年4月20日提交的美国临时申请No. 61 /636，429的优先权，运两个申请出于所有目的整体通过参考被并入于此。
技术领域
[0004] -个或更多个实现方式一般设及音频信号处理，并且更具体地设及供电影院、家庭和其它环境之用的混合对象和基于声道的音频处理。
【背景技术】
[0005] 在【背景技术】部分中讨论的主题不应该仅仅由于它在【背景技术】部分中被提到而被假设为现有技术。类似地，在【背景技术】部分中提到或者与【背景技术】部分的主题关联的问题不应该被假设为在现有技术中已经被先前认识到。在【背景技术】部分中的主题仅仅代表不同的方法，在其中及其本身也可W是发明。
[0006] 自从将声音引入胶片(film) W来，已经存在用于捕获创作者的对于运动图像音轨的艺术意图并且在电影院环境中准确地再现它的技术的稳定的发展。电影声音的基本的作用是支持在屏幕上示出的故事。典型的电影音轨包括与屏幕上的图像和元素对应的许多不同的声音元素，从不同的屏幕上的元素发出的对话、噪声、W及声音效果，W及与背景音乐和环境效果结合W便创建整体观众体验。创作者和制作者的艺术意图代表他们的如下期望，即具有W尽可能紧密地对应于在屏幕上示出的东西的方式对于声源位置、强度、移动和其它类似参数再现的运些声音。
[0007] 当前电影创作、分发和回放遭受约束真实地沉浸和逼真的音频的创建的限制。传统的基于声道的音频系统将W扬声器供给形式的音频内容发送到回放环境中的单独的扬声器，诸如立体声和5.1系统。数字电影的引入已经创建了对于胶片上的声音的新标准，诸如音频的高达16声道的并入W便允许内容创作者有更大的创造力，W及对于观众的更包围的和现实的听觉体验。7.1环绕系统的引入已经提供通过将现有的左和右环绕声道分离成四个区域(zones)增大环绕声道的数量的新格式，因此对于声音设计者和混合者增大范围来控制剧场中的音频元素的定位。
[000引为了进一步改善收听者体验，虚拟=维环境中的声音的回放已经变为研究和开发增加的区域。声音的空间表现利用作为具有表观(apparent)源位置的关联参数源描述(例如，3D坐标）、表观源宽度和其它参数的音频信号的音频对象。基于对象的音频越来越被用于许多当前多媒体应用，诸如数字电影、视频游戏、模拟器和3D视频。
[0009]扩展超出传统的扬声器供给和基于声道的音频作为用于分布空间音频的手段是关键的，并且对保持允许收听者/展出者自由选择适合他们的个人需要或者预算的回放配置并且具有对于他们选择的配置特定地呈现的音频的承诺的基于模式(model)的音频描述已经存在相当大的兴趣。在高水平处，目前存在四个主要的空间音频描述格式:其中音频被描述为意图用于标称扬声器位置处的扬声器的信号的扬声器供给;其中音频被描述为通过预定义的阵列中的虚拟或者实际麦克风捕获的信号的麦克风供给;其中依据在所描述的位置处音频事件的序列来描述音频的基于模式的描述；W及其中音频由到达收听者耳朵的信号描述的两路立体声(binaural)。运四个描述格式经常与将音频信号转换为扬声器供给的一个或更多个呈现技术关联。当前呈现技术包括:摇移，其中音频流通过使用一组摇摄规则和已知或假设的扬声器位置被转换为扬声器供给(典型地在分发之前被呈现）；立体混响声 (Ambisonics),其中麦克风信号被转换为用于扬声器的可缩放的（scalable)阵列的供给 (典型地在分发之后被呈现）;WFS(波场合成），其中声音事件被转换为适当的扬声器信号W 便合成声场(典型地在分发之后被呈现）；W及两路立体声，其中L/R(左/右)双声道的信号典型地使用头戴耳机化ea化hones)而且通过使用扬声器和串扰抵消被传送给L/R耳朵(在分发之前或者之后呈现）。在运些格式中，扬声器供给格式是最常见的，因为它是简单的和有效的。最好的声音结果(最准确的，最可靠的)通过直接混合/监视和分发给扬声器供给来实现，因为在内容创作者和收听者之间不存在处理。如果预先已知回放系统，则扬声器供给描述通常提供最高保真度。然而，在许多实际应用中，回放系统是未知的。基于模式的描述被认为适应性最强，因为它不进行关于呈现技术的假设并且因此最容易应用于任何呈现技术。虽然基于模式的描述有效地捕获空间信息，但是随着音频源的数量增大它变得非常低效。
[0010] 多年来电影系统已经特征化为具有左、中屯、、右W及偶尔'左内（inner left)'和 '右内（inner right)'声道的形式的离散的屏幕声道。运些离散的源通常具有足够的频率响应和功率处理(power handling) W便允许声音被准确地放置在屏幕的不同区域中，并且容许随着声音在位置之间被移动或摇移而音色匹配。在改善收听者体验方面的近期发展企图相对于收听者准确地再现声音的位置。在5.1设立中，环绕"区域"由扬声器的阵列组成，所有的扬声器在每个左环绕或右环绕区域内携带相同的音频信息。运种阵列在'环境'或者扩散环绕效果的情况下可W是有效的，然而，在日常生活中许多声音效果来源于随机放置的点源。例如，在餐厅中，环境音乐可W显然从四处都被播放，虽然细小但是离散的声音来源于特定的点：来自一个点的人聊天、来自另一个点的刀在盘子上的卡晤声（Clatter)。能够将运种声音离散地放置在观众席周围可W在没有引人注意地明显的情况下添加加强的逼真感。头上的声音也是环绕定义的重要成分。在实际世界中，声音来源于所有方向，而不是总是来自单个水平面。如果声音可W从头上被听到，换句话说从'上半球'被听到，增加的真实感可W被实现。然而当前系统不提供在各种不同的回放环境中对于不同音频类型的声音的真正准确的再现。使用现有的系统要求实际回放环境的大量处理、知识和配置W尝试位置特定的声音的准确的表示，因此呈现对于大多数应用不实际的当前系统。
[0011] 所需要的是，支持多个屏幕声道的系统，得到对于屏幕上的声音或者对话的增大的清晰度和改善的视听觉的相干性，W及能够在环绕区域中任何地方精确定位源W便改善从屏幕到房间的视听转变。例如，如果在屏幕上的角色在房间内看向声源，则声音工程师 ("混合者"）应该具有精确定位声音使得它匹配角色的视线的能力并且效果将在所有观众中是一致的。然而，在传统的5.1或者7.1环绕声混合中，效果高度地依赖于收听者的座位位置，其对于大多数大规模的收听环境是不利的。增大的环绕分辨率创造了新的机会来W房间中屯、的方式利用声音，与传统方法相反，其中假设单个收听者在"最佳听音位置(sweet spot)"处来创建内容。
[0012] 除了空间问题W外，当前的多声道现有技术系统遭受关于音色的问题。例如，一些声音的音色质量，诸如从破了的管出去的蒸汽嘶嘶声化issing)，可W遭受由扬声器的阵列再现。将特定的声音引导到单个扬声器的能力给予混合者消除阵列再现的伪迹 (artifacts)和向观众传递更现实的体验的机会。传统上，环绕扬声器不支持大屏幕声道支持的相同的全范围的音频频率和水平。历史上，运对于混合者已经引起问题，减少他们的从屏幕到房间自由地移动全范围声音的能力。结果，剧场拥有者没有感觉逼迫来升级他们的环绕声道配置，防止更高质量装备的广泛的采用。

【发明内容】

[0013] 针对电影声音格式和包括新的扬声器布局（声道配置)和关联的空间描述格式的处理系统，来描述系统和方法。自适应音频系统和格式被定义为支持多个呈现技术。音频流与元数据一起被发送，该元数据描述包括音频流的期望位置的"混合者的意图"。位置可W 被表示为命名的(named)声道(来自预定义的声道配置内）或者作为S维的位置信息。运个声道加上对象格式结合了最佳的基于声道和基于模式的音频场景描述方法。对于自适应音频系统的音频数据包括许多独立的单声道音频流。每个流具有与它关联的元数据，其指定流是基于声道的还是基于对象的流。基于声道的流具有利用声道名字编码的呈现信息;并且基于对象的流具有通过在更多的关联的元数据中编码的数学表达式编码的位置信息。原始的独立的音频流被封装作为包含所有音频数据的单个串行的比特流。运个配置允许根据非自我中屯、的（allocentric)参考系呈现声音，在其中声音的呈现位置基于回放环境的特性(例如，房间尺寸、形状等）W便对应于混合者的意图。对象位置元数据包含为使用房间中的可用的扬声器位置正确地播放声音所需的适当的非自我中屯、的参考系信息，该房间被设立来播放自适应音频内容。运使得能够针对特别的回放环境最佳地混合声音，特别的回放环境可W与声音工程师体验的混合环境不同。
[0014] 自适应音频系统通过诸如改善的房间均衡化和环绕低音管理之类的运种好处改善在不同房间中的音频质量，使得扬声器(无论在屏幕上还是屏幕外)可W由混合者在没有必须考虑音色匹配的情况下自由地解决。自适应音频系统增加了动态音频对象的灵活性和功率到传统的基于声道的工作流程中。运些音频对象允许创作者与任何特定的回放扬声器配置(包括头上的扬声器)无关地控制离散声音元素。该系统还为后制作处理引入新的效率，允许声音工程师有效地捕获所有他们的意图并且随后在实时监视中，或者自动产生环绕声音7.1和5.1版本。
[0015] 自适应音频系统通过在数字电影处理器内将音频本体(essence)和艺术意图包封在单个轨道文件中来简化分发，其可W在宽范围的剧场配置中被忠实地回放。当混合和呈现利用相同的声道配置和单个清单Qnvento巧）（其向下适应到呈现配置（即，下混合））时，该系统提供艺术意图的最佳再现。
[0016] 通过设及电影声音平台的实施例提供运些和其它优点，解决当前的系统限制并且传递超出目前可用的系统的音频体验。
【附图说明】
[0017] 在下面附图中相似的附图标记被用来指的是相似的元件。虽然W下附图描绘各种示例，但是一个或更多个实现方式不限于在图中描绘的示例。
[0018] 图1是按照一个实施例的利用自适应音频系统的音频创建和回放环境的最高一级的概述。
[0019] 图2示出按照一个实施例的声道和基于对象的数据的组合W便产生自适应音频混厶 1=1 O
[0020] 图3是按照一个实施例的示出创建、封装和呈现自适应音频内容的工作流程的框图。
[0021 ]图4是按照一个实施例的自适应音频系统的呈现阶段的框图。
[0022] 图5是按照一个实施例的列出对于自适应音频系统的元数据类型和关联的元数据元素的表格。
[0023] 图6是示出按照一个实施例的对于自适应音频系统的后制作和主控的图。
[0024] 图7是按照一个实施例的对于使用自适应音频文件的数字电影封装处理的示例工作流程的图。
[0025] 图8是在典型的观众席中的供自适应音频系统使用的建议的扬声器位置的示例布局的俯视图。
[0026] 图9是供典型的观众席之用的屏幕处的建议的扬声器位置的示例布置的正视图。
[0027] 图10是在典型的观众席中的供自适应音频系统使用的建议的扬声器位置的示例布局的侧视图。
[0028] 图11是按照一个实施例的顶部环绕扬声器和侧面环绕扬声器相对于参考点的放置的示例。
【具体实施方式】
[0029] 针对于支持多个呈现技术的自适应音频系统和关联的音频信号和数据格式，来描述系统和方法。在此描述的一个或更多个实施例的方面可W被实现在音频或者视听系统中，该系统在混合、呈现和回放系统中处理源音频信息，该混合、呈现和回放系统包括执行软件指令的处理装置或者一个或更多个计算机。所描述的实施例中的任意一个可W被单独使用或者W任意组合方式彼此一起使用。虽然各种实施例可W已经被现有技术的各种不足促动，其可能在说明书中的一个或更多个位置中被讨论或者暗指，但是实施例未必解决运些不足中的任意一个。换句话说，不同实施例可W解决可能在说明书中讨论的不同不足。一些实施例可W仅仅部分地解决可能在说明书中讨论的一些不足或者仅仅一个不足，并且一些实施例可W不解决运些不足中的任意一个。
[0030] 对于本说明书，W下术语具有关联的意义：
[0031] 声道或者音频声道:单声道的音频信号或者音频流加上元数据，在元数据中位置被编码为声道ID，例如"Left Front"或者"Right Top Surround"。声道对象可W驱动多个扬声器，例如，"Left Surround"声道化S)将供给Ls阵列中的所有扬声器。
[0032] 声道配置:具有关联的标称位置的扬声器区域的预定义的组，例如5.1、7.1等等； 5.1指的是六声道环绕声音频系统，具有前面的左和右声道、中屯、声道、两个环绕声道W及亚低音扬声器声道;7.1指的是八声道环绕系统，其向5.1系统添加两个额外的环绕声道。 5.1和7.1配置的示例包括壯化⑩环绕系统。
[0033] 扬声器:呈现音频信号的音频换能器或者一组换能器。
[0034] 扬声器区域:可W被唯一地提及并且接收单个音频信号的一个或更多个扬声器的阵列，例如如在电影中典型地发现的"LeftSurround"，并且特别地用于排除或包括对象呈现。
[0035] 扬声器声道或者扬声器供给声道:与定义的扬声器配置内的扬声器区域或者命名的扬声器关联的音频声道。扬声器声道被使用关联的扬声器区域来标称呈现。
[0036] 扬声器声道组:与声道配置(例如立体声轨道、单轨道等)对应的一组一个或更多个扬声器声道。
[0037] 对象或者对象声道:具有参数源描述(诸如表观源位置(例如3D坐标）、表观源宽度等)的一个或更多个音频声道。音频流加上元数据，在元数据中位置被编码为在空间中的3D 位置。
[0038] 音频节目：整组的扬声器声道和/或对象声道W及关联的元数据，该元数据描述期望的空间音频表现。
[0039] 非自我中屯、的参考:空间参考，在其中音频对象相对于呈现环境内的特征(诸如房间壁和拐角）、标准扬声器位置、W及屏幕位置(例如，房间的左前方拐角)被定义。
[0040] 自我中屯、的（egocentric)参考：空间参考，在其中音频对象相对于(观众)收听者的视角被定义并且经常被指定为相对于收听者的角度(例如，收听者向右30度）。
[0041 ]帖:帖较短，总的音频节目被划分成的独立地可解码的片段。音频帖率和边界典型地与视频帖对齐。
[0042] 自适应音频:基于声道的音频信号和/或基于对象的音频信号加上元数据，该元数据基于回放环境来呈现音频信号。
[0043] 在本申请中描述的电影声音格式和处理系统(还被称为"自适应音频系统"）利用新的空间音频描述和呈现技术来允许增强观众沉浸感、更艺术地进行控制、系统灵活和可缩放、W及易于安装与维护。电影音频平台的实施例包括若干分立组件，包括混合工具、打包机(packer)/编码器、拆包/解码器、剧院内最终混合和呈现组件、新的扬声器设计W及连网的放大器。该系统包括对于要由内容创建者和展出者使用的新的声道配置的推荐。该系统利用基于模型的描述，

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：C·Q·罗宾森;N·R·特斯恩高斯;C·查巴尼;
技术所有人：杜比实验室特许公司;
我是此专利的发明人

上一篇：一种创建订阅资源的方法和装置的制造方法
上一篇：用于产生具有至少两个输出通道的输出信号的装置和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。