学术论文

      带间隔约束的Top-k对比序列模式挖掘

      Mining Top-k Distinguishing Sequential Patterns with Gap Constraint

      摘要:
      对比序列模式能够表达序列数据集合间的差异,在商品推荐、用户行为分析和电力供应预测等领域有广泛的应用.已有的对比序列模式挖掘算法需要用户设定正例支持度阈值和负例支持度阈值.在不具备足够先验知识的情况下,用户难以设定恰当的支持度阈值,从而可能错失一些对比显著的模式.为此,提出了带间隔约束的top-k对比序列模式挖掘算法kDSP-Miner(top-k distinguishing sequential patterns with gap constraint miner).kDSP-Miner中用户只需设置期望发现的对比最显著的模式个数,从而避免了直接设置对比支持度阈值.相应地,挖掘算法更容易使用,并且结果更易于解释.同时,为了提高算法执行效率,设计了若干剪枝策略和启发策略.进一步设计了kDSP-Miner的多线程版本,以提高其对高维序列元素情况的处理能力.通过在真实世界数据集上的详实实验,验证了算法的有效性和执行效率.
      作者: 杨皓 [1] 段磊 [2] 胡斌 [3] 邓松 [4] 王文韬 [1] 秦攀 [1]
      Author: YANG Hao [1] DUAN Lei [2] HU Bin [3] DENG Song [4] WANG Wen-Tao [1] QIN Pan [1]
      作者单位: 四川大学计算机学院,四川成都,610065 四川大学计算机学院,四川成都610065;四川大学华西公共卫生学院,四川成都610041 国家电网智能电网研究院,江苏南京,210003 南京邮电大学先进技术研究院,江苏南京,210003
      刊 名: 软件学报 ISTICEIPKU
      Journal: Journal of Software
      年,卷(期): 2015, 26(11)
      分类号: TP311
      机标分类号: TP3 TN9
      在线出版日期: 2016年8月19日
      基金项目: 国家自然科学基金,中国博士后科学基金,软件工程国家重点实验室开放研究基金