Web 数据挖掘与图书馆个性化服务 近几年,高校数字图书馆的进展速度非常快,其数据类型和总量也显著提升,数字资源覆盖多个领域,如电子图书、电子期刊、多媒体数据、海量的 Web 数据库等,这些数字化资源的出现为用户查阅资料提供了方便,但由于数据信息量大,用户在查找资料的过程中很难找准目标定位,因而会花费较多时间,而 Web 数据挖掘技术在高校数字图书馆中的应用则可以在很大程度上解决该问题。 1Web 数据挖掘与数字图书馆的概述 1.1Web 数据挖掘的概述 所谓 Web 数据挖掘,指的就是将有价值的、感兴趣的信息从大量的 Web 文档中提取出来,通常来说,可将 Web 数据挖掘划分为三种类型,即 Web 结构挖掘、Web 内容挖掘和 Web 使用记录挖掘。其中,Web 结构挖掘指的是从 WWW 的链接关系或者组织体系中推导出相关知识,通过文档之间的相互关系,WWW 可以为用户提供文档内容之外的有价值数据信息,通过这些有价值信息,能够对页面加以排序,进而更好地发现其中的关键页面信息,整个Web 结构挖掘过程需要用到 HITS 算法以及 PageRank 算法。Web内容挖掘指的是将相关知识从文档内容或描述中抽取出来,这项工作可被当作是基本搜索引擎所负责的工作的延伸,主要包括立足于数据库的挖掘以及立足于代理的挖掘两大部分。从性质上看,Web内容挖掘属于文本挖掘的一种形式,其作用的对象大部分是 Web文档的文本区域,文本挖掘涵盖针对搜索工具的查询结果所开展的分析、整理、归类等工作。Web 使用记录的挖掘主要针对的是Web 日志以及 Web 使用数据,它能根据 Web 的访问记录直接定位到感兴趣的模式,Web 日志的涵盖面非常广,主要包括服务器上与 Web 访问有关的各类日志文件,如代理日志、引用日志、访问日志等,其中涉及到用户的诸多访问信息,包括访问时间、访问途径、用户的 IP 地址、访问结果等。 1.2 高校数字图书馆概述 随着信息化、网络化、数字化时代的到来,人们在工作和学习过程中对数据信息的需求量也逐渐上升,信息资源的类型及其表现形式越来越丰富,比较常见的主要包括电子图书、期刊等,在这样的时代背景下,数字图书馆也逐渐出现,它是以传统图书馆为基础的一种新型信息系统,它的主要功能是可以对文本、图像、数据、声音等多样化的信息进行采集、分析和整理,彻底颠覆了以往图书馆中采纳其他非数字化介质来进行存储的落后方法。数字图书馆主要采纳现代化的先进技术,把图书馆中的重要文...