摘要: 针对低信噪比下音素识别准确率低的问题,提出一种基于B-Wave-U-Net特征增强的音素识别方法。首先,将双向长短期记忆(BLSTM)网络融入Wave-U-Net编码器的起始端,并从中引出支路信息流,再跳跃连接到解码器的末端,加入全连接层,从而构建出B-Wave-U-Net;接着,使用B-Wave-U-Net对语谱图增强、去噪;最后经过梅尔滤波,得到对数梅尔尺度滤波器组能量特征。在信噪比为0dB,噪声源为白噪声的条件下,采用THCHS30数据集和ResNet-BLSTM-CTC模型进行音素识别测试。结果表明,所提B-Wave-U-Net优于对比网络,音素错误率降低了0.9%~2.5%。验证了在音素识别下的噪声鲁棒性特征提取上,B-Wave-U-Net发挥了重要的优势。
中图分类号: