北京邮电大学学报

  • EI核心期刊

北京邮电大学学报 ›› 2010, Vol. 33 ›› Issue (5): 121-125.doi: 10.13190/jbupt.201005.121.367

• 研究报告 • 上一篇    下一篇

数据流中的频繁标记闭子树的批量挖掘

冯博,徐雅静,赵娜,徐惠民   

  1. 北京邮电大学 信息与通信工程学院
  • 收稿日期:2009-12-09 修回日期:2010-01-28 出版日期:2010-08-28 发布日期:2010-06-15
  • 通讯作者: 冯博 E-mail:emoskyny@gmail.com
  • 基金资助:

    高等学校学科创新引智计划(B08004);国家级.国家自然科学基金项目;国家级.国家高技术研究发展计划项目

A Batch Mining Algorithm for Frequent Closed Labeled Trees in Data Streams

  • Received:2009-12-09 Revised:2010-01-28 Online:2010-08-28 Published:2010-06-15

摘要:

在频繁模式挖掘(FPM)的研究中,为了在海量数据流中有效地挖掘子树结构的频繁模式,根据数据流和子树模式的特点,提出了一种基于数据流的频繁标记闭子树挖掘(SFCLTreeMiner)算法. 该算法首次对动态数据流中频繁标记闭子树的挖掘进行研究,给出了在数据流中标记闭子树集合添加、删除的批量挖掘方法,并结合时间衰减模型,有效保证了结果的时效性. 实验结果表明,该算法在挖掘性能,如挖掘时间和内存占用等方面,比类似算法有较大提高.

关键词: 频繁子树挖掘, 数据流, 时间衰减, 标记闭子树, 批量挖掘

Abstract:

Compared with the classic frequent pattern mining (FPM) algorithms, the dynamic FPM algorithms on fast and massive data streams have become top research nowadays. A new batch mining algorithm in data streams called stream frequent closed labeled tree miner (SFCLTreeMiner) is proposed. SFCLTreeMiner uses a kind of addingremoving method between closed tree sets. Also it provides a time decay module for reasonable data updating. Experiment shows that SFCLTreeMiner is efficient in data streams mining by reducing consuming dramatically.

Key words: frequent subtree mining, data streams, time decay, labeled closed subtree, batch mining

中图分类号: