Web日志挖掘分析的方法 日志文件的格式及其包含的信息①2006-10-17 00:00:00②202
43 ③218
24 80 ④GET⑤/favicon
ico⑥Mozilla/5
0+(Windows;+U;+Windows+NT+5
1;+zh-CN;+rv:1
3)+Gecko/20060426+Firefox/1
① 访问时间;② 用户IP地址;③ 访问的URL,端口;④ 请求方法(“GET”、“POST”等);⑤ 访问模式;⑥agent,即用户使用的操作系统类型和浏览器软件
一、日志的简单分析1、注意那些被频繁访问的资源2、注意那些你网站上不存在资源的请求
常见的扫描式攻击还包括传递恶意参数等:3、观察搜索引擎蜘蛛的来访情况4、观察访客行为应敌之策:1、封杀某个IP2、封杀某个浏览器类型(Agent)3、封杀某个来源(Referer)4、防盗链5、文件重命名作用:1
对访问时间进行统计,可以得到服务器在某些时间段的访问情况
对IP进行统计,可以得到用户的分布情况
对请求URL的统计,可以得到网站页面关注情况
对错误请求的统计,可以更正有问题的页面
二、Web 挖掘根据所挖掘的Web 数据的类型,可以将Web 数据挖掘分为以下三类:Web 内容挖掘(Web Content Mining)、Web 结构挖掘(Web StructureMining)、Web 使用挖掘(Web Usage Mining)(也称为Web日志挖掘)
①Web内容挖掘
Web内容挖掘是指从文档的内容中提取知识
Web内容挖掘又分为文本挖掘和多媒体挖掘
目前多媒体数据的挖掘研究还处于探索阶段,Web文本挖掘已经有了比较实用的功能
Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用Web文档进