实时语音识别方法及系统与流程

文档序号：23720438发布日期：2021-01-24 07:53阅读：124来源：国知局

[0001]
本发明涉及语音识别领域，尤其涉及一种实时语音识别方法及系统。

背景技术：

[0002]
实时语音识别系统，通常应用于具有实时对话功能的智能设备，或者实时转写设备，这类智能设备有着较强的实时显示需求。其实现的方式是持续送进音频时，间隔一段时间取出当前最佳的识别结果。较长的音频则依靠语音检测的模块，在发现静音时及时结束识别，固定识别结果。
[0003]
在实现本发明过程中，发明人发现相关技术中至少存在如下问题：语音检测模块，在连续语音输入情况下，会在很长的时间内没有检测到静音而不能截断识别并固定结果。使用更敏感的语音检测模块来进行更频繁的识别截断，往往增加识别上下文不合理的截断，这会很大程度的降低识别准确性。此外连续输入音频的过程中，每一帧的最佳结果随着音频的输入往往不止是增量地增长，而是有变动之前结果的可能。根据语言模型以及声学模型的情况，较早之前的结果也可能变动。在一些应用场景下 ,比如实时语音转写，这样的情况会给用户带来造成不好的观感。

技术实现要素：

[0004]
为了至少解决现有技术中很长的时间内没有检测到静音而不能截断识别并固定结果，使得较早之前的识别结果发生变动，由于过后的内容，影响了较早的识别内容，有些情况下可能会发生错误的变动的问题。
[0005]
第一方面，本发明实施例提供一种实时语音识别方法，包括：在令牌传递过程中，确定采集到的实时语音中的从第一帧到第n帧的每一帧的至少一个令牌，其中，所述令牌传递时起始的令牌为起始令牌；基于所述每一帧的各个令牌的状态概率，确定当前最佳识别结果的路径，所述当前最佳识别结果的路径由第一帧到第n帧的至少n个令牌连接构成；选择所述当前最佳识别结果的路径中第i帧中与第i+1帧有直接连接关系的令牌作为截断令牌，从所述起始令牌到第i帧的所述截断令牌构成的历史令牌组中提取由多条识别结果的路径构成的网格；从所述网格提取出从第一帧到第i帧的最佳识别结果的路径。
[0006]
第二方面，本发明实施例提供一种实时语音识别系统，包括：令牌确定程序模块，用于在令牌传递过程中，确定采集到的实时语音中的从第一帧到第n帧的每一帧的至少一个令牌，其中，所述令牌传递时起始的令牌为起始令牌；最佳路径确定程序模块，用于基于所述每一帧的各个令牌的状态概率，确定当前最佳识别结果的路径，所述当前最佳识别结果的路径由第一帧到第n帧的至少n个令牌连接构成；截断程序模块，用于选择所述当前最佳识别结果的路径中第i帧中与第i+1帧有直接连
接关系的令牌作为截断令牌，从所述起始令牌到第i帧的所述截断令牌构成的历史令牌组中提取由多条识别结果的路径构成的网格；识别程序模块，用于从所述网格提取出从第一帧到第i帧的最佳识别结果的路径。
[0007]
第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的实时语音识别方法的步骤。
[0008]
第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的实时语音识别方法的步骤。
[0009]
本发明实施例的有益效果在于：考虑到在令牌传递的过程，最佳路径中的识别结果在很多帧之前的部分往往变动较小，进而选取截断令牌。通过截断令牌限制当前token的历史路径，提前固定识别结果，避免了长时间内没有检测到静音而不能截断识别并固定结果。
附图说明
[0010]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0011]
图1是本发明一实施例提供的一种实时语音识别方法的流程图；图2是本发明一实施例提供的一种实时语音识别方法的固定识别结果过程图；图3是本发明一实施例提供的一种实时语音识别系统的结构示意图。
具体实施方式
[0012]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0013]
如图1所示为本发明一实施例提供的一种实时语音识别方法的流程图，包括如下步骤：s11：在令牌传递过程中，确定采集到的实时语音中的从第一帧到第n帧的每一帧的至少一个令牌，其中，所述令牌传递时起始的令牌为起始令牌；s12：基于所述每一帧的各个令牌的状态概率，确定当前最佳识别结果的路径，所述当前最佳识别结果的路径由第一帧到第n帧的至少n个令牌连接构成；s13：选择所述当前最佳识别结果的路径中第i帧中与第i+1帧有直接连接关系的令牌作为截断令牌，从所述起始令牌到第i帧的所述截断令牌构成的历史令牌组中提取由多条识别结果的路径构成的网格；s14：从所述网格提取出从第一帧到第i帧的最佳识别结果的路径。
[0014]
在本实施方式中，语音识别通常使用token-passing （令牌传递）算法去寻找最有
token的概率，再对这些从6号令牌可到达的token，去除历史中不包含6号令牌的路径。从 i+2帧开始将从6号令牌没有路径到达的节点的概率标记为无穷小。由于先做过历史token的裁剪，这一步的遍历的 token个数会比 token passing时少很多，从而不会造成很大开销。继续下一帧的搜索，并在搜索过程中通过 beam减枝裁剪掉概率为无穷小的token，进而实现后续的截断，提前固定识别结果。其中，裁剪是逐帧进行。在后续的令牌传递过程中，每一帧的至少一个令牌为经过裁剪后的令牌。
[0025]
通过该实施方式可以看出，为后续的截断过程进行裁剪，通过裁剪减少后续搜索的过程，提高效率。
[0026] 基于图2进行完整的具体说明，在图中
①
代表红色路径，
②
代表黄色路径，
③
代表蓝色路径，
④
代表黑色路径。从第1帧到第3帧的路径中提取 lattice。将1号token对应的 lattice节点设为起始节点，将6号token对应的lattice节点设为终止节点。经过fst connect操作（具体操作可以通过openfst网址的fst/connectdoc进行参考）。图2中第1帧到第3帧中红色以及黄色路径对应的 lattice arc会被保留，黑色的路径会被删去。在lattice中最佳的结果对应图中红色路径的结果。如果后续还有lattice rescore过程，结果有可能会变动成黄色路径对应的结果。但至此1到3帧的结果已经被固定下来。
[0027]
之后从第 3帧开始，将第6号token作为root，逐帧进行广度优先的遍历，记录从t1能到达的token。之后裁剪token的连接。例如第6号token在第3帧只能到达7号token，依据从第6号token到7号token路径上的概率更新第7号token的概率。处理7号token时删除从第3号 token到第7号token的连接。之后处理第4帧上与第6号token和第7号token相连的第9, 10, 11号token。根据从第6号及第7号token的新概率，重新计算自身的概率。断开从 8号token到12号token的连接。没有被遍历到的第 12号 token分数被标记成无穷小。以此类推。之后从处理第6帧的时候，第15号token由于概率被标记为无穷小而被裁剪。第13号，和第14号token依照token passing算法继续往下传递。
[0028]
如图3所示为本发明一实施例提供的一种实时语音识别系统的结构示意图，该系统可执行上述任意实施例所述的实时语音识别方法，并配置在终端中。
[0029]
本实施例提供的一种实时语音识别系统包括：令牌确定程序模块11，最佳路径确定程序模块12，截断程序模块13和识别程序模块14。
[0030]
其中，令牌确定程序模块11用于在令牌传递过程中，确定采集到的实时语音中的从第一帧到第n帧的每一帧的至少一个令牌，其中，所述令牌传递时起始的令牌为起始令牌；最佳路径确定程序模块12用于基于所述每一帧的各个令牌的状态概率，确定当前最佳识别结果的路径，所述当前最佳识别结果的路径由第一帧到第n帧的至少n个令牌连接构成；截断程序模块13用于选择所述当前最佳识别结果的路径中第i帧中与第i+1帧有直接连接关系的令牌作为截断令牌，从所述起始令牌到第i帧的所述截断令牌构成的历史令牌组中提取由多条识别结果的路径构成的网格；识别程序模块14用于从所述网格提取出从第一帧到第i帧的最佳识别结果的路径。
[0031]
进一步地，所述系统还用于：基于已确定的从第一帧到第i帧的最佳识别结果的路径，对第i+1帧到第n帧中的每一帧的令牌进行裁剪。
[0032]
本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计
算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的实时语音识别方法；作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：在令牌传递过程中，确定采集到的实时语音中的从第一帧到第n帧的每一帧的至少一个令牌，其中，所述令牌传递时起始的令牌为起始令牌；基于所述每一帧的各个令牌的状态概率，确定当前最佳识别结果的路径，所述当前最佳识别结果的路径由第一帧到第n帧的至少n个令牌连接构成；选择所述当前最佳识别结果的路径中第i帧中与第i+1帧有直接连接关系的令牌作为截断令牌，从所述起始令牌到第i帧的所述截断令牌构成的历史令牌组中提取由多条识别结果的路径构成的网格；从所述网格提取出从第一帧到第i帧的最佳识别结果的路径。
[0033]
作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的实时语音识别方法。
[0034]
非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0035]
本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的实时语音识别方法的步骤。
[0036]
本申请实施例的客户端以多种形式存在，包括但不限于：(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。
[0037]
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如平板电脑。
[0038]
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
[0039]
(4)其他具有数据处理功能的电子装置。
[0040]
在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限
制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0041]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0042]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。
[0043]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋子缘
技术所有人：苏州思必驰信息科技有限公司
我是此专利的发明人