摘要: 针对语种识别在噪声环境下识别率低的问题,提出了一种基于对数 Gammatone 滤波器能量特征谱图的语种识别方法。 依据 Gammatone 滤波器组的听觉特征提取出对数 Gammatone 滤波器能量特征,并将特征转化为图像获得特征谱图,然后运用暗通道先验算法对特征图进行增强去噪,最后使用残差神经网络模型进行训练识别。 实验表明,在信噪比为 0 dB,噪声源分别为白噪声、车内噪声和粉红噪声时,该方法相对于线性灰度语谱图识别率分别提升了 32.7% 、10.1% 和 29.1% ,且在其他信噪比下的识别率也有一定的提升。
中图分类号:
张昊阁 邵玉斌 龙华 彭艺 周大春. 基于对数Gammatone滤波器能量谱图的语种识别[J]. 北京邮电大学学报, 2023, 46(1): 38-43.
ZHANG Haoge, SHAO Yubin, LONG Hua, PENG Yi, ZHOU Dachun. Language Recognition Based on Log Gammatone-Scale Filter Bank Energies Spectrograms[J]. Journal of Beijing University of Posts and Telecommunications, 2023, 46(1): 38-43.