摘要: 中医症状标准化对挖掘中医领域知识乃至推动中医现代化发展有至关重要的作用,而症状描述词存在的异名同义、一对多现象给症状标准化过程带来巨大的挑战。论文提出了一种基于预训练模型的两阶段症状标准化框架来处理这一难题:第一阶段,参考中医症状词的定义与分类,利用多标签分类思想对原始症状描述进行语义划分,得到相应语义标签下的候选标准症状词;第二阶段,使用症状词匹配模型对第一阶段得到的候选词集进行评分与排序,选取各语义标签下得分最高的候选词作为最终的标准化结果,最后模型设计了一些策略对结果进行二次召回以提高性能。通过在构建的数据集上进行实验,对比并分析了使用不同预训练模型得到的最终效果,证明了论文提出的方法和策略能够有效处理症状标准化问题,其中基于ERNIE的模型性能最优,F1值达到0.894。
中图分类号: