北京邮电大学学报 ›› 2014, Vol. 37 ›› Issue (3): 32-37.doi: 10.13190/j.jbupt.2014.03.007
利用改进LSH算法进行层次化新闻话题检测
卢美莲, 王梓, 李佳珊
- 北京邮电大学 网络与交换技术国家重点实验室, 北京 100876
Hierarchical News Topic Detection Using Improved LSH
LU Mei-lian, WANG Zi, LI Jia-shan
- State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing 100876, China
摘要:
针对回顾式话题检测方法存在的话题检测时效性较差的问题,提出了改进的位置敏感哈希(LSH)算法,并应用于互联网新闻层次化话题检测. 在挖掘新闻内容特征的同时,应用潜在狄利克雷分布主题模型挖掘新闻的语义特征,将非二进制空间的内容特征向量和主题特征向量转换到二进制特征空间上,依次应用LSH算法对新闻文本基于内容特征和主题特征聚类,得到具有"主题-内容"层次的话题. 实验结果表明,该方法通过挖掘新闻的内容特征和主题特征,能更准确和完整地表现新闻内容;将内容特征和主题特征转换到统一的二进制空间,有效降低了聚类过程的时间复杂度,在保证话题检测准确率和话题在语义层面上扩展性的前提下,提高了话题检测的效率.
中图分类号: