一种修复输入语音的方法及其装置的制造方法_2

文档序号：9709482阅读：来源：国知局

字段为待修复的语音字段。所述语音识别库采用人工收集或者机器采集的方式进行建立，根据不同语言的发音特点建立，比如MIT Media lab Speech Dataset (麻省理工学院媒体实验室语音数据集)、Pitch and Voicing Estimates for Aurora 2 (Aurora2 语音库的基因周期和声调估计)'Congress1nal speech data(国会语音数据)、Mandarin SpeechFrame Data (普通话语音巾贞数据)等。
[0034]值得注意的是，本申请语音识别库中的待修复语音字段和纠正语音字段并非一一对应的关系，不同的待修复语音字段可以由于识别算法的不同对应相同的纠正语音字段，同一待修复语音字段也可以由于识别算法的不同对应多个不同的纠正语音字段。语音识别中通常采用不同的识别算法共同进行识别以提高识别的准确度，通用的语音识别算法如HMM语音识别模型与算法、BMM语音识别模型与算法等。
[0035]例如，所述语音识别库中保存有待修复的语音字段“*”，可以通过识别算法获得其对应的纠正语音字段“说”，所述语音识别库中保存有待修复的语音字段“#”，可以通过识别算法获得其对应的纠正语音字段“了”。当然，所述待修复的语音字段“*”，也可以通过其他识别算法获得其对应的其他纠正语音字段“所”，所述待修复的语音字段“#”，也可以通过其他识别算法获得其对应的其他纠正语音字段“在”。所述语音识别库将待修复的语音字段
和“#”作为查询索引。
[0036]“不和你*#”切分成为“不”、“和”、“你”、后，根据语音识别库进行识别，查询的语音字段“不”、“和”、“你”、“ * ”、“ # ”中的“ * ”、“ # ”命中该查询索引中的语音字段“ * ”、
“#”，则表明该查询的语音字段为待修复的语音字段。
[0037]S2、如所述输入语音中存在待修复的语音字段，则从所述预设的语音识别库中获取与所述待修复的语音字段相匹配的纠正语音字段。
[0038]在本申请一具体实现中，如果通过查询所述语音识别库的查询索引，发现输入语音的语音字段中有命中所述查询索引的语音字段，则该命中所述查询索引的语音字段为待修复的语音字段。使用不同的识别算法从所述语音识别库中对所述待修复的语音字段进行识别，获得该待修复的语音字段对应的一个纠正语音字段。
[0039]例如，输入语音“不和你*#”中查询的语音字段“不”、“和”、“你”、存在待修复的语音字段“*”、“#”，则从所述语音识别库中识别出与待修复的语音字段分别对应的纠正语音字段“说”、“ 了 ”。
[0040]如所述预设的语音识别库中针对该待修复的语音字段采用各种语音识别算法均无法获得纠正语音字段。这样，虽然输入语音存在待修复的语音字段，但是无法利用语音识别算法根据语音识别库获得与所述待修复的语音字段相匹配的纠正语音字段时，即可放弃对所述输入语音进行修复。
[0041]在本申请另一具体实现中，如所述预设的语音识别库中针对该待修复的语音字段采用各种语音识别算法均无法获得纠正语音字段。这样，虽然输入语音存在待修复的语音字段，但是无法利用语音识别算法根据语音识别库获得与所述待修复的语音字段相匹配的纠正语音字段时，则根据预设的模糊音选优填字算法选择语音字段作为纠正语音字段。所述模糊音选优填字算法采用现有的模糊控制表查询或者模糊计算公式，其原理为找出语音识别库中与该查询的待修复的语音字段接近的语音字段所对应的纠正语音字段作为该查询的待修复的语音字段对应的纠正语音字段。
[0042]例如，所述预设的语音识别库中针对该待修复的语音字段采用各种语音识别算法均无法获得纠正语音字段。这样，虽然输入语音存在待修复的语音字段“*”、“#”，但是无法利用语音识别算法根据语音识别库获得与所述待修复的语音字段相匹配的纠正语音字段。需要采用模糊音选优填字算法，找出语音识别库中与该查询的待修复的语音字段接近的语音字段丨，，、“#丨”所对应的纠正语音字段作为该查询的待修复的语音字段对应的纠正语音字段。所述语音识别库中保存语音字段'，，、“#, ”所对应的纠正语音字段为“说”、“ 了 ”，则选择语音字段“说”、“ 了 ”作为所述待修复的语音字段“*”、
的纠正语音字段。
[0043]在本申请再一具体实现中，采用各种语音识别算法从所述预设的语音识别库中针对该待修复的语音字段获得该待修复的语音字段对应的至少两个纠正语音字段。
[0044]例如，输入语音“不和你*#”中存在待修复的语音字段“*”、“#”，则从预设语音识别库中采用不同的语音识别算法获取与待修复的语音字段对应的纠正语音字段“说”、“ 了 ”以及与待修复的语音字段“*”、“#，，对应的纠正语音字段“所”、“在”。
[0045]S3、将所述纠正语音字段替换所述输入语音中的待修复语音字段，得到修复后的输入语音。
[0046]在本申请一具体实现中，如果采用各种语音识别算法从所述预设的语音识别库中针对该待修复的语音字段获得其对应的一个纠正语音字段，将该纠正语音字段替换所述输入语音中的待修复语音字段，从而得到修复后的输入语音。
[0047]例如，输入语音“不和你*#”中，待修复的语音字段对应的纠正语音字段“说”、“ 了 ”，将待修复的语音字段“*”、“#，，替换成对应的纠正语音字段“说”、“ 了 ”。输入语音“不和你*#”修复成为“不和你说了”。
[0048]在本申请另一具体实现中，如果采用各种语音识别算法从所述预设的语音识别库中针对该待修复的语音字段获得其对应的至少两个纠正语音字段，分别将各纠正语音字段替换所述输入语音中的待修复语音字段，得到多条修复后的输入语音。对每一条修复后的输入语音进行语句通顺评估，根据所述语句通顺评估的结果确定最终修复的输入语音。
[0049]所述语句通顺评估是根据语音输入所使用的语言特点预设的规则，如每句话结束词特点、转折词特点、连词特点等。
[0050]例如，输入语音“不和你*#”中，待修复的语音字段对应的纠正语音字段“说”、“了”或者“所”、“在”，将待修复的语音字段替换成对应的纠正语音字段“说”、“了”或者“所”、“在”。输入语音“不和你*#”修复成为“不和你说了”和“不和你所在”。对“不和你说了”和“不和你所在”进行语句通顺评估，得到“不和你说了”作为最终修复的输入语音。
[0051]所述服务器11将最终修复的输入语音发送给终端设备12，终端设备12选择发送原始输入语音或者经过修复后的输入语音进行通讯。当然所述服务器11也可以从所有修复的输入语音中选择语句通顺评估排名靠前的多条(如，三条)修复的输入语音发送给终端设备12，用户选择发送原始输入语音或者经过修复后的任一输入语音进行通讯。具体地，所述服务器11还将修复的语音字段发送给用户，令用户选择发送原始输入语音或者修复后的输入语音时进行参考。
[0052]本申请对接收的输入语音中的语音字段进行识别，以确定输入语音中是否存在待修复的语音字段，获取与待修复的语音字段相匹配的纠正语音字段。并将纠正语音字段替换所述输入语音中的待修复语音字段，得到修复后的输入语音。因此，本申请对输入语音进行了识别与修复，保证了输入语音的完整性，提升了用户体验。
[0053]对应于本申请装置，本申请还提供一种修复输入语音的装置，其应用于进行音频解析处理的服务器11。所述服务器11通常包括CPU、输入输出模块、存储器以及其他硬件模块。参看图3，本申请装置3在逻辑上包括:
[0054]检索模块31，用于根据预设的语音识别库对接收的输入语音中的语音字段进行识另IJ，确定所述输入语音中是否存在待修复

完整全部详细技术资料下载

当前第2页1 2 3 4