北京邮电大学学报 ›› 2009, Vol. 32 ›› Issue (5): 10-14.doi: 10.13190/jbupt.200905.10.wenj
中文高频词串的抽取及其在语言模型中的应用
文娟;王小捷
- (北京邮电大学 智能科学技术研究中心, 北京 100876)
Chinese Frequent String Extraction and Application on Language Model
WEN Juan,WANG Xiao-jie
- (Research Center of Intelligence Science and Technology, Beijing Univer
sity of Posts and Telecommunications, Beijing 100876, China)
摘要:
为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型. 实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型.