异常帧检测方法和装置的制造方法_4

文档序号:9616949阅读:来源:国知局
号帧进行处理,比较信号帧中的 局部信号能量的变化以及在小波域的变化,能够快速准确的定位发生语音崎变的位置,即 哪个信号帧发生了语音崎变,实现了对语音信号是否发生崎变的检测;并且,采用本实施例 的方法进行语音崎变检测,实现更为简单和快速,由于是根据正常语音和异常语音之间的 差异来进行检测,准确度也更高。
[0096] 为进一步更加清楚的理解本实施例的异常帧检测方法,做更进一步的说明如下: 如上所述的,该方法是通过检测语音信号是否具有特定的差异特征来判断是否发生崎变, 该特定的差异特征即是图2中所示的局部能量的变化以及小波系数的变化。对于如何判断 语音信号是否发生局部能量变化和小波系数变化,本实施例的方法是逐个信号帧判断,并 且是计算每个信号帧中的每个子帧的样本点平均能量值,查看该平均能量值的变化幅度来 确定信号是否发生短时间内的巨大能量变化的;而对于小波系数,本实施例是对信号帧进 行小波分解得到小波系数后,根据小波系数重构信号帧并判断该重构信号帧中的样本点能 量的抖动幅度是否达到设定的阈值。本实施例的方法能够表示出图2所示的特征差异,能 够迅速准确的定位语音崎变发生的时间。
[0097] 需要说明的是,正是由于我们要定位语音崎变在时域上的发生位置,所以需要较 高的时间分辨率,也就是图2所示的两方面的差异性都是发生在时域上的,崎变在时域上 有比较明显的特征,所以本实施例的方法采用了小波变换的信号处理工具,小波变换可以 通过设定尺度确定与该尺度对应的合适的时间-频率分辨率,通过选择合适的小波系数确 定合适的尺度,能够得到易于显示出上述差异性的时间分辨率,在该合适的尺度上获取对 应的特征值,通过特征值来判断是否具有差异性,进而实现语音崎变的检测。由上述说明可 以看到,本实施例的方法切合了语音崎变的特点,并且采用合适的信号分析工具能够准确 的明显的得到反映崎变差异的特征值,因此能够更加快速和准确的得到语音崎变的检测结 果。
[0098] 实施例二
[0099] 在上述的实施例一中,主要说明了如何提取能够反映崎变差异的特征值,以及如 何根据特征值进行崎变的检测。本实施例中,是在对语音信号中的每一帧都得到检测结果 后,对检测结果进行平滑处理。例如,对于图4中的6个信号帧,已经得到了检测结果,第1 帧是正常帧,第2帧是异常帧……第6帧是异常帧,等,此时可以采用本实施例的方法对检 测结果进行平滑处理。
[0100] 可选的,若两个相邻的异常帧之间的间隔距离小于第三阈值,则将位于所述两个 相邻的异常帧之间的正常帧调整为异常帧。举例如下:假设图4中所示的,第2帧是异常 中贞,第5帧是异常帖,而第3帧和第4帧是正常帖,那么第2帧和第5帧就是两个相邻的异 常帧,这两个相邻的异常帧之间的间隔距离是"2个帧";假设第三阈值THD3是1个帧,那么 "2个帧"〉第三阈值,则表明这两个相邻异常帧之间的距离足够大,可以不做平滑处理。而 假设第三阈值是3个帧,则"2个帧"〈第三阈值,则表明这两个相邻异常帧之间的距离即时 间间隔过短,根据信号的短时相关性,可以将这两个相邻异常帧之间的正常帧调整为异常 帧,即将第3帧和第4帧均调整为异常帧。
[0101] 可选的,在得到语音崎变的检测结果后,可以统计所述语音信号中的所述异常帧 的数量,若所述异常帧的数量小于第四阈值,则将所述语音信号中的所有异常帧均调整为 正常帧。因为,如果一段语音信号中发生崎变的帧数小于预先定义的第四阈值THD4,表明整 段语音信号发生异常事件的次数非常少,从听觉感知角度分析,这种异常一般是不可闻的, 所以可以将所有帧的检测结果均调整为正常帧,即该语音信号没有发生崎变。举例如下:仍 以图4为例,假设这6个信号帧中只有一个异常帧,例如是第5帧是异常帧,其他均为正常 帧;而第四阈值是2个帧,那么异常帧的数量"1"小于第四阈值,此时就可以认为该语音信 号没有发生崎变,即将第5帧的检测结果调整为正常帧。
[0102] 本实施例的对语音崎变的检测结果进行平滑处理,可以更加符合实际的听觉感 知,更加准确模拟人工测试的听觉感受。
[0103] 实施例三
[0104] 在判断某段语音信号中的每一信号帧是否崎变之后,在实际应用中,可以将其用 于语音质量评估,例如在日常的语音质量测试方面,可以采用本发明实施例提供的方法来 进行判断,可以定位到每一帧是否发生异常。如果要输出语音质量的评估结果,可以按照本 实施例提供的方法,根据每一信号帧的处理结果(例如处理结果是:该信号帧是正常帧或 者异常帧),确定与异常帧的多少对应的语音质量评分,计算量化的语音信号的语音质量, 可以用第一语音质量评价值表示。
[0105] 可选的,上述的根据信号帧的处理结果计算语音信号的第一语音质量评价值,其 方式可以有多种,例如,可以基于语音信号中的异常帧在所有信号帧中所占的百分比,来 计算语音信号的M0S分或者失真系数。当然具体实施中,也可以采用其他方式,又例如, ANIQUE+使用了基于RecencyEffect(近因效应原理):对每一个独立的异常事件,基于其 发生的长度计算失真系数;然后,根据近因效应规则,获得整个语音文件的失真系数。
[0106] 具体的,可以统计语音信号中的异常帧在所有信号帧中所占的百分比,按照如下 的公式⑷计算:
[0107]
[0108] 在公式中,nframe是语音信号中的所有信号帧的数量,而nframe_artifact表示 的是该语音信号中发生崎变的异常帧,Rlciss是异常帧在所有信号帧中所占的百分比。
[0109] 然后,根据所述百分比以及质量评价参数,得到与所述百分比对应的第一语音质 量评价值,参见公式(5):
[0110] T = S-a*R;l,严)
[0111] 在公式(5)中,Y表示第一语音质量评价值,可以是M0S分;其中"5"的定义是因 为国际通行的M0S范围是1至5分。公式中的a和m是质量评价参数,可以通过数据训练 得到。
[0112] 本实施例的语音质量评估,是直接根据异常帧的百分比映射为对应的第一语音质 量评价值例如M0S分,这种情况较为适用于由编码或者信道传输引起的语音崎变。当语音 崎变的影响因素还包括例如噪声等其他影响时,可以将本实施例的方法与其他语音质量评 估方法进行结合,来更好的评估语音质量。例如下面的实施例四就是一种可选的质量评估 方式。
[0113] 实施例四
[0114] 本实施例在获得上述实施例三得到的第一语音质量评价值,还获取使用语音质量 评估方法得到的第二语音质量评价值,这里所述的语音质量评估方法指的是实施例三所述 的方法之外的其他方法,例如非侵入式评估感知模型(AuditoryNon-IntrusiveQuality EstimationPlus,简称:ANIQUE+),并且将ANIQUE+与实施例三所述的方法进行融合,以及 根据所述第一语音质量评价值与第二语音质量评价值,得到第三语音质量评价值。
[0115] 具体的,首先,在系统训练过程中,训练第一语音质量评价系统即求取第一语音质 量评价值的系统,是需要使用第二语音质量评价值的。具体的,使用ANIQUE+对语音信号进 行质量评估,得到第二语音质量评价值,本实施例可以假设语音质量评价值都是M0S分,那 么第二语音质量评价值就是第二M0S分。考虑到M0S分的动态范围,需要根据第二语音质 量评价值选择对应的质量评价参数,即根据ANIQUE+的评分结果,适当调整公式(5)中的a 和m值的取值。从数据分析的角度,我们可以通过选择一定的语音主观数据库(该数据库 包括语音文件和主观M0S分),先使用ANIQUE+进行打分;然后,基于数据库中的主观M0S分 与第二M0S分的差,重新进行数据拟合,刷新a和m值。这种情况下,a和m值将与ANIQUE+ 的评估结果进行了适配。
[0116] 然后,采用刷新后的a和m值、以及异常帧的百分比,利用公式(5)得到第一语音 质量评价值例如第一M0S分。接着,在第二M0S分的基础上,由第二M0S分减去第一M0S分, 得到第三语音质量评价值即最终M0S分。
[0117] 需要说明的是,对于使用其他语音质量评估方法得到第二语音质量评价值的过 程,本实施例是以ANIQUE+为例进行说明,在实际应用中可以使用其他的质量评估方法,本 实施例不做限制。
[0118] 实施例五
[0119] 在实施例三和实施例四中,都使用了根据异常帧在语音信号的所有信号帧中占用 的百分比来得到语音质量评价值的方式;本实施例与上述两个实施例的区别是,可以不再 根据百分比映射M0S分,而是将本发明实施例的异常帧检测方法中使用到的异常检测特征 值直接用于其他语音质量评估方法,得到第三语音质量评价值。所述的异常检测特征值例 如包括如下至少一个:局部能量值、第一特征值和第二特征值,这些特征值都是在实施例一 的方法中所使用的特征参数。
[0120] 本实施例中,可以综合根据当前第二语音质量评价值计算过程中使用的语音质量 评估方法中提取的评估特征值、以及本发明上述实施例第一语音质量评价值计算过程中对 应的异常检测特征值,并利用机器学习系统(如:神经网络系统)得到第三语音质量评价 值。其中,在获取第一语音质量评价值的过程中会获取到上述的异常检测特征值,在获取第 二语音质量评价值的过程中会获取到该评估特征值。
[0121] 具体的,可以按照如下方法:ANIQUE+方法是通过人耳听觉建模,获得反映听觉感 受的特征向量(定义为ε{i},i= 1,2........D),该特征向量可以称为评估特征值;其 中,D为特征向量的维度。经过大样本训练,获得由ε映射为MOS分的神经网络系统。因此, 我们可以将本发明实施例所提取的异常检测特征值(例如上述的第一特征值、第二特征值 等)作为补集,补充到上述特征向量中,即ε{i},i= 1,2........D+1,特征向量的维度增 加为D+1。类似地,我们通过大样本训练,可以获得新的神经网络模型,用于语音质量评估, 即根据特征向量以及ANIQUE+训练得到的神经网络系统,得到与特征向量对应的第三语音 质量评价值。所增加的一个维度的特征,是由实施例一中说明的方法获得的特征值,可以是 异常帧的百分比,也可以是类似ANIQUE+中基于Recenc
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1