声音识别是人工智能(AI)的一个重要应用领域。市面上有多种声音识别技术存在,可用于语音识别、音乐识别、环境声音识别、动物声音识别、机器的气载声音或结构传导声音的识别等。从宏观上说,这些技术都包含信号预处理、特征提取和特征匹配/归类算法。但是,不同的声音类别或不同的具体应用所采用的声音识别技术在实施层面却是不同的。例如,目前市面上有一些不错的自动语音识别软件和应用程序接口,但是却无法直接用来进行动物声音或机器故障声音的识别。
Sound-Similar Free (Sound-Similar的免费版)是一个轻巧的工具软件,可用于测量两个具有线性PCM格式的WAV声音文件在听觉上的相似度。这种格式是WAV文件中最常见的。相似度以百分比0%~100%来表示。它不是通过对两个数字文件进行一个字节一个字节的对比而得,也不是通过对时域波形的形状进行对比而得,而是基于人的听觉感受,通过一系列的时域、频域和时频域分析得到的。测得的相似度可用于声音的归类以及基于听感的声音质量检测。
两个WAV文件可以具有不同的采样频率、不同的采样位数以及一个或两个通道的数据。如果是双声道信号,则对比中采用的是两个通道的平均值。声音的音量差别不会影响相似度的测量,除非音量小到足以影响所能感知到的声音品质。
不同类别的声音,例如语音、音乐、和环境声音,可能具有不同的频率范围。 Sound-Similar Free允许用户指定用于对比的频率范围以提高相似度测量的准确度。频率范围可以延伸到次声波或超声波范围。
有两种对比模式:(1)全长vs全长(Full Length vs Full Length) (2) 短文件的全长vs长文件的部分长度(Full Length of the Shorter vs Partial Length of the Longer)。这两种模式都允许两个文件有不同的时间长度。模式2可用于判断短文件是否是长文件中的一部分。如果是的话,给出其在长文件中的具体位置。声音长度应大于50毫秒,且应大于所设置的频率低限的倒数。声音长度的高限则只受制于电脑的内存大小。
本软件中的相似度评分算法是按常规用途来优化的。低于几个百分点的相似度通常表示两个声音完全不同,而从几个百分点到100%表示两个声音是相似的,只是相似程度不同。也就是说,Sound-Similar Free不仅可以用来进行声音归类,而且也可以用来检测声音跟标准样本对比后的质量差别。
其API允许更加灵活的对比参数设置,并提供了更高级的选项,例如背景噪声滤除、短时噪声和失真检测、不同的评分方法等。可用于开发诸如无人值守变电站异音采集与识别、八音盒出厂检测、发声玩具出厂检测、机器故障声的采集与识别等应用,以人工智能软件替代人耳听音辨识,以节省人力,提高效率和测量的准确度。
Sound-Similar-Free-Setup.rar
(2.33 MB)
|