声学指纹

声学指纹Acoustic fingerprint)是通过特定算法从音频信号中提取的一段数字摘要,用于识别声音样本或者快速定位音频数据库中的相似音频。

音频压缩技术的进步以及大容量存储器的出现使得互联网上出现了以音乐为主的海量音频信息,手工选取某首歌曲很多时候已经变得不可能,这直接促使产生了可以进行音乐自动识别的数字音频指纹技术。

应用

声学指纹的实践应用包括:识别歌曲记录旋律音调广告广播监控点对点网络监控;声效库管理;视频文件识别,甚至更多。

属性

音频指纹是指可以代表一段音乐重要声学特征的基于内容的紧致数字签名,其主要目的是建立一种有效机制来比较两个音频数据的感知听觉质量。注意这里不是直接比较通常很大的音频数据本身,而是比较其相应通常较小的数字指纹。大量音频数据的指纹和其相应的元数据比如歌曲名称、词曲作者、歌词等内容一起存储在一个数据库中,并采用指纹作为相应元数据的索引。

一个音频指纹系统通常包括两个部分:即一个计算听觉重要特征的指纹提取算法和一个在指纹数据库中进行有效搜索的比对算法。当要识别一段未知音频时,首先按照指纹提取算法计算其音频特征,然后和数据库中存储的大量音频指纹相比对从而进行识别。一个有效的指纹提取算法和指纹比对算法能够在数据库中正确识别出可能经受各种信号处理失真的未知音频的原始版本。若识别到对应的原始指纹,则可提取出相应的元数据信息返回给用户。

一个健壮的声学指纹识别算法必须考虑到声音的感知特性。如果两段音频文件人们听起来是一样的,即便它们的二进制表示形式不一样,它们的声学指纹也应该是相同的或者非常相似的。(因此,声学指纹从严格意义上讲并不属于——真正的指纹——必须能够区分数据上任何细小的差别。)

不同的音频压缩技术(包括:MP3WMAVorbis等)在对音频文件的二进制编码方式上虽然有较大差别,但是却不影响音频文件播放的效果。健壮的声学指纹识别算法应该能够正确的识别出经过压缩的音频文件,甚至在音频质量有明显下降的情况下也能够正确识别。在用于广播监控时,声学指纹识别算法还应能忽略模拟传输对音频造成影响。

另一方面,优秀的声学指纹识别算法能够在众多音频记录中识别出特殊的主记录。在用于法庭证物时,声学指纹必须保证其准确性。

实现

  • Midomi,利用上传使用者哼出的或录制的乐曲片段搜索对应的音乐曲目。
  • Shazam