Web日志挖掘分析的方法 日志文件的格式及其包含的信息①2006-10-17 00:00:00②202.200.44.43 ③218.77.130.24 80 ④GET⑤/favicon.ico⑥Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:1.8.0.3)+Gecko/20060426+Firefox/1.5.0.3。① 访问时间;② 用户IP地址;③ 访问的URL,端口;④ 请求方法(“GET”、“POST”等);⑤ 访问模式;⑥agent,即用户使用的操作系统类型和浏览器软件。 一、日志的简单分析1、注意那些被频繁访问的资源2、注意那些你网站上不存在资源的请求。常见的扫描式攻击还包括传递恶意参数等:3、观察搜索引擎蜘蛛的来访情况4、观察访客行为应敌之策:1、封杀某个IP2、封杀某个浏览器类型(Agent)3、封杀某个来源(Referer)4、防盗链5、文件重命名作用:1.对访问时间进行统计,可以得到服务器在某些时间段的访问情况。2.对IP进行统计,可以得到用户的分布情况。3.对请求URL的统计,可以得到网站页面关注情况。4.对错误请求的统计,可以更正有问题的页面。 二、Web 挖掘根据所挖掘的Web 数据的类型,可以将Web 数据挖掘分为以下三类:Web 内容挖掘(Web Content Mining)、Web 结构挖掘(Web StructureMining)、Web 使用挖掘(Web Usage Mining)(也称为Web日志挖掘)。①Web内容挖掘。Web内容挖掘是指从文档的内容中提取知识。Web内容挖掘又分为文本挖掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,Web文本挖掘已经有了比较实用的功能。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用Web文档进行趋势预测等。Web文档中的标记,例如
和等蕴含了额外的信息,可以利用这些信息来加强Web文本挖掘的作用。②Web结构挖掘。Web结构挖掘是从Web的组织结构和链接关系中推导知识。它不仅仅局限于文档之间的超链接结构,还包括文档内部的结构。文档中的URL目录路径的结构等。Web结构挖掘能够利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序,寻找个人主页和相似网页,提高Web搜索蜘蛛在网上的爬行效率,沿着超链接优先爬行。Web结构挖掘还可以用于对Web页进行分类、预测用户的Web链接使用及Web链接属性的可视化。对各个商业搜索引擎索引用的页数量进行统计分析等。③Web使用记录挖掘。Web使用记录挖掘是指从Web的使用记录中提取感兴趣的模式,目前Web使用记录挖掘方面的研究较多,WWW中的每个服务器都保留了访问日志,记录了关于用户访问...