用于移动装置的智能音频记录的系统和方法_2

文档序号：9601015阅读：来源：国知局

多个麦克风开启和关闭控制的第二实施例的图。
[0052]图30为活动麦克风数目控制的实施例的图。
[0053]图31为存储位置选择的实施例的图，其中所述选择可根据预定义的上下文信息S600优先级来控制。
[0054]图32为存储位置选择的实施例的图，其中所述选择可在活动音频记录状态S3或S5期间根据上下文信息S600优先级来动态地控制。
[0055]图33为存储装置期满时间设置的实施例的图，其中期满时间可根据预定义的上下文信息S600优先级来控制；
[0056]图34为智能音频记录系统内的块的逐阶段加电的实施例的图，其中可根据每一状态来动态地控制活动块的数目及其总功率消耗。
[0057]图35为A/D转换器精确度控制的实施例的图，其中精确度可关于每一预定状态来配置或根据上下文信息S600来动态地控制。
[0058]图36为音频输入信号增强控制的实施例的图，其中增强可根据上下文信息S600来动态地配置。
[0059]图37为音频压缩参数控制的实施例的图，其中压缩可根据上下文信息S600来动态地配置。
[0060]图38为压缩译码格式选择的实施例的图，其中压缩译码格式选择或其缺乏可根据上下文信息S600来动态地配置。
【具体实施方式】
[0061 ] 将参看附图较好地理解本申请案。
[0062]除非由其上下文明确地限制，否则本文中使用术语“信号”来指示其普通意义中的任一者，包括在电线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非由其上下文明确地限制，否则本文中使用术语“产生”来指示其普通意义中的任一者，例如计算或以另外方式产生。除非由其上下文明确地限制，否则本文中使用术语“计算”来指示其普通意义中的任一者，例如计算、评估和/或从值集合中选择。除非由其上下文明确地限制，否则使用术语“获得”来指示其普通意义中的任一者，例如计算、导出、接收(例如，从外部装置)和/或检索(例如，从存储元件阵列)。在术语“包含”用于本描述及权利要求书中的情况下，其不排除其它元件或操作。术语“基于”(如在“A基于B”中)用以指示其普通意义中的任一者，包括以下情况:(i) “基于至少”(例如，“A基于至少B”)；以及如果在特定上下文中恰当的话，(?) “等于”(例如，“A等于B”)。
[0063]除非另有指示，否则对具有特定特征的设备的操作的任何揭示内容还明确地既定揭示具有类似特征的方法(且反之亦然)，且对根据特定配置的设备的操作的任何揭示内容还明确地既定揭示根据类似配置的方法(且反之亦然)。除非另有指示，否则术语“上下文，，(或“音频上下文”)用以指示音频或语音的分量且传达来自说话者的周围环境的信息，且术语“噪声”用以指示音频或语音信号中的任何其它假影。
[0064]图1A为说明智能音频记录系统的概念的图。移动装置中的一个或一个以上麦克风可经配置以在移动装置处于闲置模式时连续地或周期性地接收声学信号。所接收的声学信号可由模/数(A/D)转换器转换为数字音频信号。此转换可包括将所接收的声学信号变换为一般具有模拟或连续形式的电信号，取样或量化所述电信号以产生数字音频信号。数字音频信号的数目和大小可取决于每一数字音频样本的取样频率和数据宽度。此数字音频信号可经配置以暂时存储在存储器或缓冲器中。此数字音频信号可经处理以提取有意义的信息。此信息通常被称为“上下文信息S600”或可互换地称为“听觉上下文信息”。上下文信息可包括关于其中移动装置正在进行录入的环境和由至少一个麦克风接收的音频输入信号的特性的信息。将在后续揭示内容中呈现对上下文信息S600的详细描述。
[0065]智能音频记录系统可经配置以执行音频记录的智能开始115或智能结束150。与其中用户手动地起始或结束音频信号的录入的常规音频记录系统相比，智能音频记录系统可经配置以通过自动地检测开始事件指示符或结束事件指示符来开始或结束音频记录。这些指示符可基于:从音频信号导出的上下文信息；位于移动装置内或通过有线或无线网络连接而连接到移动装置的数据库；非声学传感器；或甚至来自其它智能音频记录装置的信令。或者，这些指示符可经配置以还包括用户的话音命令或按键命令。在一个实施例中，结束事件指示符可经配置以基于在预定时间周期期间不出现听觉事件。开始事件指示符和结束事件指示符的检测可包括以下步骤:从至少一个听觉上下文信息中选出至少一个特定上下文信息；将选定上下文信息与至少一个预定阈值进行比较；以及基于所述比较来确定是否已检测到开始或结束事件指示符。
[0066]智能音频记录系统可经配置以包含多个智能子块或(可互换地)智能构建块，其至少部分地基于至少一个听觉上下文信息。智能构建块可特征在于，与其中配置或操作模式可预先确定或在操作期间静态地确定的常规音频记录相反，其能够在音频记录过程期间动态地配置其自身的操作模式或功能参数。
[0067]举例来说，在智能音频记录的一个实施例中，图1A的智能麦克风控制块120可经配置以在音频记录过程期间基于上下文信息S600来动态地调整活动麦克风的数目或至少一个麦克风的开启/关闭时序控制。在另一实施例中，图1A的智能A/D转换器块125可经配置以基于上下文信息S600来动态地调整其自身的操作参数。此类参数可包括基于上下文信息S600的从至少一个麦克风俘获的音频信号的取样频率或所俘获的数字音频样本的数据宽度。这些参数可被称为“录入参数”，因为这些参数的选择将影响所录入的音频记录的质量或大小。这些参数可经配置以在音频输入信号的不活动部分期间重新配置或切换以将对音频质量的影响减到最小。音频输入信号的不活动部分仍可能包括某种等级的最小音频活动。但一般来说，“不活动部分”意指音频输入信号的没有活动以及活动相对较少的部分。
[0068]在另一实施例中，图1A的智能音频增强块130可经配置以基于上下文信息S600来动态地选择音频信号增强是否为必要的，且在此情况下选择应执行什么类型的信号增强。智能音频增强块130可经配置以基于上下文信息S600来选择信号增强等级的程度，例如积极增强或较不积极增强。信号增强可经配置以基于单个麦克风或多个麦克风。图1A的智能音频压缩块135可经配置以基于上下文信息S600来动态地选择待使用的译码格式的类型或其译码参数，例如压缩模式、位率或音频/语音通道数目。随后将呈现智能子块的动态配置特征的较详细描述和实例。图1A的智能音频保存到存储装置块145可经配置以基于上下文信息S600来选择其中将存储所俘获的音频记录的位置。所述选择可在移动装置的本地存储器与通过有线或无线信道连接到移动装置的远程存储器之间进行。智能音频保存到存储装置块145可经配置以在音频记录过程期间默认地将数字音频信号存储在本地存储器中且接着随后在本地存储装置与网络存储装置之间确定长期存储位置。
[0069]应注意，图1A中所揭示的智能构建块120、125、130、135、145及其次序仅用于示范性目的，且因而对于所属领域的技术人员来说应明显的是，可在本申请案的范围内重新排列、组合或甚至完全地或部分地省略一些构建块。举例来说，在根据本申请案的一个实施例中，智能音频增强块130可被省略或用传统的音频增强块替换，在传统的音频增强块中根据上下文信息S600来动态地重新配置其自身的操作模式的能力是不可用的。同样，智能音频压缩块135可被省略或由常规的音频压缩来替换。
[0070]智能音频记录系统还可指代可经配置以使用一些现存的常规音频记录系统和一些智能构建块或智能记录开始/结束特征的组合的系统，如其在图1B中呈现。相比之下，图1C为说明常规音频记录系统的概念的图，其中既不包括智能音频记录开始/结束特征，也不包括智能构建块中的任一者。
[0071]图1B展示智能音频记录系统的三个不同示范性概念配置。配置1呈现其中实施智能开始/结束音频记录特征165和智能构建块175两者的系统。因此，具有配置1的系统被视为最高级的智能音频记录系统。配置2展示可经配置以用常规音频记录开始/结束特征160替换配置1的智能音频记录开始/结束165特征的系统。在替代性实施方案中，配置3展示可经配置以用常规构建块170置换配置1的智能构建块175的系统。
[0072]图2为智能音频记录系统的示范性实施例。包含麦克风单元200和A/D转换器210的音频俘获单元215为智能音频记录系统的前端。麦克风单元200包含至少一个麦克风，其可经配置以拾取或接收声学音频信号并将其变换为电信号。A/D转换器210将所述音频信号转换为离散数字信号。在另一实施例中，在麦克风单元200内部的至少一个麦克风可为数字麦克风。在此情况下，A/D转换步骤可经配置以被省略。
[0073]听觉事件S210通常指代音频信号或尤其指代用户所关注的音频信号。举例来说，听觉事件S210可包括但不限于存在语音信号、音乐、特定背景噪声特性或特定关键词。听觉事件S210在此项技术中常常被称为“听觉场景”。
[0074]音频俘获单元215可包括至少一个麦克风或至少一个A/D转换器。至少一个麦克风或至少一个A/D转换器可能已成为常规音频记录系统的一部分，且可仅在移动装置的活动使用期间被加电。举例来说，常规系统中的传统音频俘获单元可经配置以仅在整个话音呼叫或整个视频录入期间响应于用户对发出或接收呼叫的选择或按压视频录入开始按钮来被加电。
[0075]然而，在本申请案中，音频俘获单元215可经配置以除了在话音呼叫期间或在执行可能需要至少一个麦克风的活动使用的任何其它应用程序期间之外，甚至在移动装置的闲置模式期间，也间歇地唤醒或加电。音频俘获单元215可甚至经配置以保持加电，从而连续地拾取音频信号。此方法可被称为“始终开启”。所拾取的音频信号S260可经配置以用离散形式存储于缓冲器220中。
[0076]本文中所描述的移动装置的“闲置模式”通常指代其中移动装置不在响应于用户的手动输入而活动地运行任何应用程序的状态，除非另有指定。举例来说，典型的移动装置甚至在没有用户选择的情况下周期性地向一个或一个以上基站发送信号或从一个或一个以上基站接收信号。在本申请案的范围内，移动装置执行这种类型的活动的状态被视为闲置模式。当用户正活跃地使用他或她的移动装置参与话音通信或视频录入时，这不被视为闲置模式。
[0077]缓冲器220在由音频记录处理器230处理数字音频数据之前暂时存储数字音频数据。缓冲器220可为任何物理存储器，且尽管其归因于从音频俘获单元215的较快存取优点和相对较小所需存储器占据面积而优选位于移动装置内，但缓冲器220也可经由无线或有线网络连接位于移动装置的外部。在另一实施例中，所拾取的音频信号S260可经配置以直接连接到音频记录处理器230而不被暂时存储在缓冲器220中。在此情况下，所拾取的音频信号S260可等同于音频输入S270。
[0078]音频记录处理器230为智能音频记录系统的主要处理单元。其可经配置以关于何时开始或结束记录或如何配置智能构建块做出各种决策。其可进一步经配置以控制邻近块，与输入处理单元250或输出处理单元240介接，确定智能音频记录系统的内部状态，且存取辅助数据单元280或数据库。在图5中呈现音频记录处理器230的实施例的一个实例。音频记录处理器230可经配置以读取存储在缓冲器中的离散音频输入数据。接着可处理音频输入数据以提取上下文信息S600，所述上下文信息S600接着可存储在位于音频记录处理器230内部或外部的存储器中。结合图6和图7的描述来呈现上下文信息S600的较详细描述。
[0079]辅助数据单元280可包括各种数据库或应用程序，且其可经配置以提供可部分地或完全地由音频记录处理器230使用的额外信息。在一个实施例中，辅助数据单元280可包括装备有智能音频记录特征的移动装置的拥有者的日程安排信息。在此情况下，举例来说，日程安排信息可包括以下细节:“下一个商业会议的时间和/或持续时间”、“受邀出席者”、“会议地点的位置”或“会议主题”，仅举几例。在一个实施例中，日程安排信息可从例如微软Outlook (Microsoft Outlook)等日历应用程序或任何其它市售日历应用程序获得。在从辅助数据单元280接收或主动地检索这些类型的细节后，音频记录处理器230可经配置以优选地结合从存储在缓冲器220中的离散音频输入数据提取的上下文信息S600来根据所述细节做出关于何时开始或停止音频记录的决策。
[0080]存储装置通常指代所述系统中的经设计以存储来自音频记录处理器230的经处理音频记录的一个或一个以上存储器位置。存储装置可经配置以包含在移动装置内部本地可用的本地存储装置270或经由有线或无线通信信道远程连接到移动装置的远程存储装置290。音频记录处理器230可经配置以在本地存储装置270与远程存储装置290之间选择何处存储经处理的音频记录。可根据各种因素进行存储装置选择，所述因素可包括但不限于上下文信息S600、音频记录的估计大小、可用存储器大小、网络速度、网络的等待时间或上下文信息S600的优先级。存储装置选择可甚至经配置以在必要时在活动音频记录过程期间动态地在本地存储装置270与

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6