摘要: 数据要素时代,对决策的影响力成为衡量开放科学数据集质量与价值的重要维度,自动、客观地从政府公文中提取和评价开放科学数据集的决策影响力成为可行的手段。政府公告文件通常是一种长文本,从其中判断和科学数据集相关度作为关键环节,可转化成长文本的分类任务。针对该问题,面向科学数据集决策影响力评价场景,提出了一种基于词性特征融合的长文本分类方法(LTC-WF)。首先,将文本中的词语根据不同词性进行分类,将相同词性的短语进行整合。然后,将归类后的短语组和原文本分别进行嵌入表示。最后,为了验证融合词性信息的效果,分别设计了拼接融合单元和门控融合单元,其中门控融合单元将短语组嵌入向量和原文文本嵌入向量分别赋予不同权重进行聚合,生成文本的最终嵌入表示进行分类。通过在构建的科学数据政策数据集上的实验结果表明,该方法比现有主流方法取得了更好的性能,为实现评价科学数据集决策影响力提供了有效技术方案。
中图分类号: