摘要: 针对在中文错别字纠正中,平等地融合汉字的语义、读音和字形信息进行建模的方法会由于错误的读音或字形信息而影响模型性能的问题,提出了一种基于门控特征融合的中文错别字纠正模型,利用自适应门控来选择性地融合语义、读音和字形信息,提升模型性能并加强模型的可解释性。 此外,使用改进的四角号码编码汉字的字形信息,有效地提取了汉字的字形特征,并且基于此扩展了模型预训练时的字形相似混淆集。 使用了基于混淆集替换的预训练掩码策略,使模型能有效学习文本错误知识。 在公开数据集 SIGHAN13、SIGHAN14 和SIGHAN15 上,所提模型分别取得了 78.7% 、67.8% 和 77.7% 的纠错 F1 分数,相比于最优基线模型分别提升了1.5% 、1.5% 和 1.0% 。
中图分类号: