Web 日志数据分析系统讨论 1Web 日志数据分析模型的设计思想 本论文设计平台通过对 web 日志文件分析,统计出哪个页面最受欢迎,访问者来自哪里,访问时段分布情况等。分析结果生成 HTML 代码,最终通过浏览器以页面的形式将各种报表呈现在用户面前。其中要用到目前比较常用的 ASP 技术,由于要将海量的日志数据存入,所以还要用到 SQL-Server 这个功能强大的数据库。 1.1 系统的体系结构 Web 日志数据分析系统的主要用户是一般企业网站或个人网站管理员,目前常见的网络开发模式共有 3 种体系结构:两层Client/Server ( C/S ) 体 系 结 构 ; 三 层 Client/Server/Database ( C/S/D ) 体 系 结 构 ; 三 层 Browser/Server/Database(B/S/D)体系结构。综合考虑本系统的用户群特点及这三种体系结构特点,最终采纳的体系结构是目前国际上流行的“Browser/WebServer/Database”即三层网络结构模型。这种体系结构简单有用,客户端只要采纳标准浏览器与网络进行连接就可以了。 1.2 系统功能模块设计 系统功能模块是系统与用户交互的接口,本系统包括:数据预处理模块、基本分析模块、智能分析模块和可视化模块,系统功能模块.数据预处理模块:该模块主要功能是首先去掉原先存放在关系数据库中的部分没有用的原始日志,然后设置日志文件格式、采样方法,依据包含替换规则对数据进行净化,再将该数据导入源数据库,形成页面映射表信息,最后形成用户表。基本分析模块:该模块主要是对网站的访问情况进行以下 6 方面的统计汇总,即时段分析模块、地域分析模块、来源统计模块、客户端分析模块、受访页分析模块、搜索引擎模块。智能分析模块:该模块主要功能是利用关联规则对 Web 站点的页面之间的链接关系和站点结构进行分析,构建一个新的 Web 站点拓扑结构,寻有关联的客户群体,开展有针对性和个性化的电子商务活动。 2Web 日志数据分析系统功能的实现 2.1 数据收集 由于本系统是对 Web 日志的分析,所以数据收集部分的工作实际上就是对日志的收集工作,所以最重要得一点是网站的管理者允许对其日志文件进行讨论,在同意对日志文件保密的前提下,笔者从电脑商网中国 IT 商务门户(www.cnitsw.com)猎取了一段时间的网站日志文件以此作为分析对象。 2.2 数据预处理 数据的预处理过程是将 Web 日志整理成适合数据挖掘的数据模型。整个挖掘预处理过程分为数据净化、用户识别、会话识...