Web 日志分析系统设计与应用 摘要:作为网络安全的重要领域,Web 日志分析系统一方面能够改进 Web 网站结构,促进 Web 服务器性能提升;另一方面能够帮助识别用户的喜好及满意程度,寻找潜在用户群体,提升网站服务核心竞争力。笔者介绍了 Web 日志分析系统设计策略,探究了其实际应用进展前景,为 Web 日志分析系统效率的提升提供参考。 关键词:Web 日志分析系统;系统设计;数据预处理 信息时代背景下,网站大小、数目及复杂度等呈现出持续增长趋势,传统运维管理中,日志管理存在不法律规范、易删除、不方便使用等问题,企业假如没有专业的日志管理或日志分析工具,很难满足网络安全法的合规要求。日志分析是 IT 运维领域非常重要的一项工作,甚至可以说,在平台化、模块化、服务化盛行的今日,这项工作的重要性已接近传统的设备监控。不过日志由于来源、使用者、管理者都比设备指标要复杂,导致日志分析的功能需求也较大[1]。 1Web 日志分析系统设计 Web 日志分析系统数据挖掘主要包括数据预处理、模式挖掘及模式分析三个阶段。日志分析功能实现了自动收集汇总日志和智能化解析,可以减少运维管理中日志查询搜索的巨大工作量。全面系统化日志分析,满足日常运维需要,从安全角度分析海量日志数据,深层次挖掘攻击事件。日志搜索能够通过选择系统日志或Web 日志以及日志产生的时间,搜索日志内容。统计分析包含系统日志常规分析、Web 日志常规分析和威胁分析。异常行为规则设置,主要设置异常行为的判定规则,包含了安全狗累积的经验规则。日志采集菜单主要是查看日志采集状态,可以开启、暂停或关闭主机或 Web 采集。同时,还可以手动上传日志文件,该系统组成如图 1所示。1.1 数据预处理模块。在进行数据预处理前,首先要收集原始数据,将收集的原始 Web 数据导入数据库中,建立 WALS 数据表,其主要针对的是原始 Web 访问日志[2]。通常 Web 访问日志数据主要包括 id、ip、identd、url、size 等多个组成部分,流程如图 2 所示。1.2 模式挖掘模块。尽管在 Apriori 向下封闭属性下,候选项集的大小已大大缩小,然而仍存在较大的算法时间复杂度,难以达到理想的标准[3]。与此同时,Apriori 算法需要对日志数据库进行多次扫描,当候选序列长度增加时,就需要对数据库进行一遍扫描,能够大大提升整个算法的执行效率。搜索文本是找到想要的信息的最基本方法,搜索文本最常用的工具是 grep,这个命令行...