北京邮电大学学报 ›› 2014, Vol. 37 ›› Issue (5): 66-70,79.doi: 10.13190/j.jbupt.2014.05.014
基于Bootstrapping的因特网流量分类方法
刘珍1,2, 王若愚2, 刘琼1,2
- 1. 华南理工大学 软件学院, 广州 510006;
2. 华南理工大学 计算机科学与工程学院, 广州 510006
Study of Internet Traffic Classification Method Based on Bootstrapping
LIU Zhen1,2, WANG Ruo-yu2, LIU Qiong1,2
- 1. School of Software, South China University of Technology, Guangzhou 510006, China;
2. School of Computer Science and Engineering, South China University of Technology, Guangzhou 510006, China
摘要:
针对因特网流量分类面临的流量类别标记瓶颈和类别样本数分布不平衡,提出基于Bootstrapping的流量分类方法,使用少量有标记样本训练初始分类器,迭代利用无标记样本扩展样本集并更新分类器. 在构建扩展样本集过程中,将无标记样本在某后验概率分布下的正确分类行为视为一个概率事件,建立新的置信度计算方法,以减少扩展样本集中的噪声样本;基于概率近似正确学习理论建立启发式规则,注重选择小类样本加入扩展样本集,缓解类别样本数分布的不平衡. 实验结果表明,与初始分类器相比,基于Bootstrapping的流量分类器总体分类准确率可提高9.46%;与现有半监督学习方法相比,小类分类准确率提高2.22%.
中图分类号: