学术论文

      基于朴素贝叶斯的网络查询日志session划分方法研究

      Research on session segmentation of web search query logs based on naive Bayes

      摘要:
      随着互联网的快速发展,网络查询日志分析技术成为提高网络搜索引擎表现和分析用户搜索行为的关键,而session划分是网络查询日志分析中的一个重要环节.目前常用的session划分方法主要是基于查询项的时间间隔进行划分,即将一段时间内的查询项视为同一session.这种方法实施简单,但是划分的准确率不高,无法满足对session划分精确度要求很高的应用场景的要求.因此提出了一种新的网络查询日志session划分方法——基于朴素贝叶斯的网络查询日志session划分方法.该方法将session划分问题转化为判断查询项是否为session边界的问题,分析了查询项时间间隔、查询项的语义和相邻查询项的加减词这三种影响session划分的重要因素,并通过朴素贝叶斯法对查询项是否为session边界进行分类,最后设计实验验证了该方法的有效性.
      作者: 孙玫 [1] 张森 [2] 聂培尧 [3] 聂秀山 [2]
      Author: Sun Mei [1] Zhang Sen [2] Nie Peiyao [3] Nie Xiushan [2]
      作者单位: 山东财经大学财政税务学院,济南,250014 山东财经大学计算机科学与技术学院,济南,250014 山东财经大学计算机科学与技术学院,济南,250014;三亚学院信息与智能工程学院,三亚,572022
      年,卷(期): 2018, 54(6)
      分类号: TP391
      机标分类号: TP3 G35
      在线出版日期: 2018年12月24日
      基金项目: 教育部人文社会科学研究项目