摘要: 提出并实现了利用统计词频信息和语言信息相结合的方法选择特征,计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度.经过训练和统计对每一类文本形成特征的权重向量,利用K-最近距离的方法对测试集进行分类.对英文文本的测试结果表明,该算法提高了文本分类的准确率.
中图分类号:
孙健, 王伟, 钟义信. 基于K-最近距离的自动文本分类的研究[J]. 北京邮电大学学报, 2001, 24(1): 42-46.
SUN Jian, WANG Wei, ZHONG Yi-xin. Automatic Text Categorization Based on K-Nearest Neighbor[J]. JOURNAL OF BEIJING UNIVERSITY OF POSTS AND TELECOM, 2001, 24(1): 42-46.