Web 数据挖掘论文 1Web 数据挖掘面临的问题 目前面对 Web 的数据挖掘面临的问题,主要有两个方面: 1
1 数据库环境的异构型 Web 上的每个站点就是一个数据源,数据源之间是异构的,外加上各个站点的信息和组织的不同,Web 网站就构成了一个巨大的异构数据库环境
要对这些数据进行挖掘,首先,要解决各个站点之间的异构数据集成,提供用户统一界面,从复杂的数据源中取得所需的有用的信息知识
其次,有关 Web 上的数据查询
2 数据结构的半结构化 Web 上的数据比较复杂,各个站点的数据都独立设计,具有动态可变性
虽然 Web 上的数据形成半结构化数据
这些问题是进行 Web 数据挖掘所面临的最大困难
2XML 技术在 Web 数据挖掘中的优势 Web 数据的异构使 Web 数据挖掘变得十分困难,通过 XML可以解决这个问题
因为 XML 文档具有很好的自我描述性,他的元素、子元素、属性结构树可以表达极为丰富的语义信息,能够很好的描述半结构化的数据,因此在网络数据集成、发送、处理和显示的方面
开发人员能够用 XML 的格式标记和交换数据
XML 在三层架构上为数据的处理提供了有用的途径
利用 XML,Web 设计人员能够构建文档类型定义的多层次互相关联的系统、元数据、数据树、样式表和超链接结构
基于 XML 的 Web 数据挖掘技术,能够使不同来源的结构化的数据很容易地结合在一起,解决 Web 数据挖掘的难题
1XML 技术在 Web 数据挖掘中具体作用利用 XML 技术我们在 Web 数据挖掘中可以完成以下几点: 2
1 集成异构数据源 XML 是一种半结构化的数据模型,可以完成和关系数据库中的属性一一对应,从而实施精确地查询与模型抽取
XML 可以搜索多个不同数据库的问题,以实现集成
2 和异构数据进行交换 在 Web 数据挖掘程中,用户需