Frame页面网络日志数据挖掘预处理方法的论文

2020-06-23实用文

  摘 要

  本文结合网络日志数据挖掘技术,通过对Frame页面和SubFrame页面进行分析,提出基于改进的Frame页面数据挖掘预处理方法。该方法从SubFrame页面信息着手,从而提高预处理过程中的信息识别能力。实验表明,该方法在网络日志的数据挖掘预处理过程中,有效提高了信息的精准度。

  【关键词】数据挖掘 Frame页面 SubFrame页面

  1 引言

  随着互联网技术的迅猛发展,简单的信息搜索技术已经不能满足现阶段网络信息获取的需求。网络日志数据挖掘技术是结合网络日志用户的访问行为规律、兴趣需求等信息,加以分析,优化网络内容与网络文本文档的组织结构,以此提高网络站点的竞争力。我们发现网络日志记录往往十分庞大,传统的预处理方法,并不能很好解决日志页面对站点组织结构的影响。因此,进行网络日志预处理方法的研究,具有一定的现实意义。

  对于传统的网络日志的数据挖掘,预处理阶段的Frame页面和SubFrame页面在用户会话文件出现的概率很高,这就降低了会话识别的兴趣度。因此,必须消除Frame页面对网络日志数据挖掘的影响。我们将Frame页面以及其SubFrame页面被看为一个整体,用Frame页面代替通过会话文件寻找Frame页面和Subframe页面,并剔除多余的页面,以提高日志数据挖掘的兴趣性。

  2 改进的Frame页面数据挖掘预处理方法

  通过对Frame页面过滤方法,结合实际情况分析,我们利用ID3决策树算法,提出基于改进的Frame页面过滤方法,以提高网络日志数据挖据的效率。该方法如下:

  输入:FS表(pidframne , pidsubframe)所对应的集合;集合属性包括 {index.html,top.html,left.html,main.html,…}

  输出:判定策略

  For each users session

  {

  currentframe=null

  make_node(web)

  if((cerrenframe, pid, ∈FS) make_tree(currentframe,web_left)

  Else if pid, ∈dom(FS)

  {curremtframe pidi make_decition_tree(currentframe,web_left}

  else make_decition-tree(currentframe,web_rleft

  if attribute_list=null{make_decition_tree(currentframe,web_right);}

  else if(one ofattribute_list)>allgain

  currentframe=test-attribute;

  make_decition(ai,web_left)

  Else generate_decision_tree(ai,web_right)

  }

  上述策略认为,访问站点的页面为根节点,具有信息增益最高的特征,currentframe变量记录web当前页面pidi。若当前页面pidi不属于frame页面,则归类左子树,反之当前页面pidi归入右子树。即pid,∈DOM(FS)。而frame页面的subframe页面归类左子树。这样一来,frame页面为决策树右树,subframe页面为决策树左树,subframe页面在会话识别阶段得到保留,以便后续路径补充。该方法优化了站点的组织结构,较好提升了网络日志数据预处理效率。

  3 实验分析

  我们通过Frame页面过滤预处理方法实验,验证本文提出的改进方法。实验提取700个日志所记录的访问页面,共20万条日志文件,结合本文提出的'改进Frame页面网络日志数据挖掘预处理方法,与传统页面预处理方法进行对比测试。结果如表1所示。

  在表1中,绝对支持度表示用户频繁访问页面的最小会话数,FSi表示用户频繁访问页面集合数,*为用户不感兴趣的页面集,△表示页面集是用户感兴趣的,△△表示页面集用户感兴趣程度加强。实验表明,改进Frame页面过滤方法相比传统方法,预处理结果得到提高,因此,网络日志的数据挖掘效率得到加强。

  4 小结

  本文通过对网络日志数据挖掘预处理技术进行分析,结合预处理过程中的实际情况,着重考虑SubFrame页面剔除对站点组织结构的影响,提出了改进的Frame页面网络日志数据挖掘预处理方法,实验表明,该方法较好的提高了网络日志数据挖掘的预处理精度和效率。

  参考文献

  [1]方元康等.一种改进的Web日志会话识别方法[J].计算机技术与发展,2008,18(11):214-216.

  [2]朱明.数据挖掘[M].合肥:中国科技大学出版社,2008:13-56.

  [3]朱志国等.持久偏爱的Web用户访问路径信息挖掘方法[J].情报学报,2010,29(2).

  [4]凌海峰等.基于混合蚁群算法的web用户会话聚类[J].计算机工程与应用,2013(22).

  [5]韩法旺.Web日志挖掘数据预处理过程研究[J].南京工业职业技术学院学报,2012(2).

  [6]凌海峰等.基于聚类的web用户会话识别优化方法[J].计算机应用研究,2012(8).

【关于Frame页面网络日志数据挖掘预处理方法的论文】相关文章:

1.数据挖掘论文精选5篇论文

2.数据挖掘教学方法研究论文

3.数据挖掘在CRM中的应用论文

4.专利数据挖掘的论文

5.数据挖掘技术在WEB的运用论文

6.公文写作页面设置方法

7.关于德育方法探究论文

8.关于论文理论的方法

上一篇:分析有线宽带网络规划中数据挖掘的作用论文下一篇:论文书法和语文