《Web Data mining》复习与总结 一、 课程主要内容 数据挖掘概述 + WEB 数据挖掘 数据挖掘(ch1 概述):又被称为数据库中的知识发现(KDD)。是指从数据源(如DB、文本、图片、万维网等)探寻有用的模式或知识的过程。这些模式必须是有用的、有潜在价值的、并且是可以被理解的。数据挖掘是一门多学科交叉的学科,包括机器学习、统计、数据库、人工智能、信息检索和可视化。 WEB 数据挖掘(ch6-12)的目标是从 w eb 超链接、网页内容和使用日志中探寻有用的信息。依据挖掘过程中使用的数据类别,w eb 挖掘的任务划分为三种主要的类型:w eb 结构挖掘、w eb 内容挖掘和 w eb 使用挖掘。 w eb 结构挖掘:从表征 w eb 结构的超链接中寻找知识。Ch6-ch8:信息检索与 w eb 搜索;链接分析;w eb 爬取。 w eb 内容挖掘:从网页内容中抽取有用的信息和知识。Ch9-ch11:结构化数据抽取:包装器生成;信息集成;观点挖掘。 w eb 使用挖掘:从记录每位用户点击情况的使用日志中挖掘用户的访问模式。Ch12:w eb 使用挖掘 二、 各章主要知识点 (一) (ch1)概述——主要知识点 1、 万维网、超文本、超链接、超媒体的概念; 2、 HTTP,HTML,URL, WEB,TCP/IP 的含义; 3、 Web 数据的特点:P5-6; 4、 数据挖掘的定义、数据挖掘任务、KDD 过程、KDD 的数据类型等; 5、 Web 数据挖掘的定义、分类、w eb 数据挖掘过程等。 6、 关联规则、列模式挖掘、分类与预测、聚类挖掘的基本概念及挖掘思想。 WEB 结构挖掘:包括——信息检索与 WEB 搜索、链接分析、WEB 爬取 (二) (ch6)信息检索与 w eb 搜索 1、 基本概念: (1)信息检索 IR:即帮助使用者从大号的数据集信息中发现需要的资料。了信息的采集、组织、存储、检索及分发。根据用户的查询信息得到相应的一组文档,得到的结果根据其与用户查询信息的相关程序排序,最常用的用户查询信息是一组关键字(又称词)。其基本信息是单个文档,大量的文档形成文本数据库。 (2)w eb 搜索:是信息检索的一个重要分支。区别于信息检索的特点是:效率是WEB 搜索的一个最为重要的问题;网页与传统信息检索系统中使用的普通文档不同:(1)具有超链接以及锚文本、(2)网页是半结构化的、(3)网页中的内容基本上是有组织的,并且在一些结构块中出现;作弊技术是网络上的一个重要的问题。 (3)IR 基本架构:用户查询(...