语音活性检测

语音活性检测 (Voice activity detection,VAD), 也称为 speech activity detection or speech detection, 是一项用于语音处理的技术,目的是检测语音信号是否存在。[1] VAD技术主要用于语音编码语音识别。它可以简化语音处理,也可用于在音频会话期间去除非语音片段:可以在IP电话应用中避免对静音数据包的编码和传输,节省计算时间和带宽

VAD技术使得一些列基于语音的应用程序成为现实。因此,有一系列的VAD算法,具有不同的特性和延迟时间、灵敏度、精度和计算成本。有些VAD算法也提供了进一步的分析,例如讲话是否浊音、清音或持续。语音活动检测通常是与语言无关的。

VAD技术首先被用于时分语言内插法(time-assignment speech interpolation/TASI)系统.[来源请求]

算法概述

VAD算法的经典设计如下:[1]

  1. 首先是一个降噪过程,如通过spectral subtraction.
  2. 然后对输入信号的一个区块提取特征。
  3. 最后使用一个分类器对这个区块进行分类,确定是或不是语音信号。通常这个分类过程是将计算的值与一个阈值进行比较。

在上面这个过程中通常会有一些反馈过程,这样可以使用VAD系统的决策来更好的估计和去除噪声,或者适应性的调整阈值。这些反馈操作可以提升VAD系统对非稳态噪声的性能,比如噪声的差异很大时。[1]

一些方法在帧的基础上使用瞬时特征计算语音与非语言信号的距离,包括光谱斜率(Spectral_slope)、相关系数(correlation coefficients)、对数似然比(log likelihood ratio)、倒谱系数(cepstral)、加权倒谱系(weighted cepstral)和修改后的距离函数。

对于任何一个VAD算法,都要在将语音检测为噪声或将噪声检测为语音(假阳性和假阴性)之间寻求妥协。移动电话中的VAD系统必须能够在不同类型的声学噪声的环境下检测出语音。在这些比较困难的环境下,VAD算法应该在不确定是否为语音的时输出是语音,以避免丢失真正的语音信号。这样的环境中VAD的难点在于遇到的非常低的信噪比。当部分语音信号被噪声淹没时,使用一些简单的方法可能就无法处理。

应用

  • VAD是许多语音通信系统的不可或缺的部分,如音频会议、回声消除语音识别语音编码和免提电话;
  • 在多媒体应用领域,VAD允许系统同时进行音频和数据应用;
  • 通用移动通讯系统(UMTS)中,它可以控制降低平均比特率,并提高整体的语音编码质量;
  • 在蜂窝式无线电系统(如GSM或CDMA)的基础上的不连续传输(DTX)模式,VAD可以通过降低同信道干扰和功率消耗来提高偏斜式数字设备的系统容量。

在许多例如数字移动广播、DSVD或语音存储中,都需要一种不连续传输的语音编码参数。这样可以降低平均功耗,提升并发传输的平均比特率并提升存储芯片存储能力;当然,这样的改进主要取决于语音间停顿的百分比和VAD检测的可靠性;一方面,这有利于降低信号传输的比例;另一方面,应该最大限度的保持语音质量;这是在重噪声条件下VAD算法的冠军问题。

性能评测

实现

参考文献

  1. ^ 1.0 1.1 1.2 Ramírez, J.; J. M. Górriz, J. C. Segura. Voice Activity Detection. Fundamentals and Speech Recognition System Robustness (PDF). M. Grimm and K. Kroschel (编). Robust Speech Recognition and Understanding. 2007: 1–22 [2013-04-12]. ISBN 978-3-902613-08-0. (原始内容存档 (PDF)于2015-05-20).