摘要: 为了促进汉语唇读的快速发展和实际应用,提出了一种基于交错组卷积和空洞卷积组合的轻量化唇读模型。所提模型通过分组卷积学习不同特征间的相关性,通过空洞卷积扩展模型视野,在大幅度降低模型参数量和复杂度的同时提高模型识别精度。 针对汉语唇读数据集较少的问题,在可控制环境下录制了一个句子级汉语唇读数据集。 在录制数据集和公开数据集上对轻量化唇读模型适用性进行实验验证,证明了模型的有效性。 并通过热图可视化的方法分析了模型对视频帧和文本映射关系的学习能力。
中图分类号:
孙保胜 谢东亮. 轻量化汉语唇读模型及数据集构建[J]. 北京邮电大学学报, 2023, 46(4): 58-63.
SUN Baosheng, XIE Dongliang. Lightweight Chinese Lipreading Model and Dataset Construction[J]. Journal of Beijing University of Posts and Telecommunications, 2023, 46(4): 58-63.