数据挖掘原理与算法教案 讲授:王志明 **************湖南农业大学理学院信息科学系 第一章 绪论 教学目的:掌握数据挖掘的概念,背景,基本理论,基本应用,发展趋势 教学重点难点:数据挖掘的概念,粗糙集方法 教学课时:2 教学过程: 一、概念 数据挖掘(Data mining)属一交叉学科,融合了数据库技术(Database),人工智能(Artificial Intelligence),机器学习(Machine Learning),统计学(Statistics),知识工程(Knowledge Engineering),面向对象方法(Object-Oriented Method),信息检索(Information Retrieval),高性能计算(High-Performance Computing)以及数据可视化(Data Visualization)等技术。 联机事物处理(On Line Transaction Processing,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。 知识:广义讲就是数据、信息的表现形式。人们常把概念、规则、模式、规律和约束等看成知识。 数据挖掘:又称数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效地、新颖的、潜在有用的、最终可理解的模式的非平凡过程。简单的说就是从大量数据中提取或挖掘知识。 数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。 二、数据挖掘产生与发展 1)查询、统计、报表等简单传统的数据处理无法获取知识。这样促使数据挖掘技术的发展。利用数据仓库存储数据。 2)数据挖掘技术产生的技术背景:(1)数据库、数据仓库、Internet等信息技术的发展;(2)计算机性能的提升;(3)统计学和人工智能等数据分析方法的应用。 3)数据挖掘技术发展应用以及重点需要的研究的方面: (1)商业中的应用 (2)与特定数据存储类型的适应问题 (3)大型数据的选择与规格化问题 (4)数据挖掘系统的构架与交互式挖掘技术 (5)数据挖掘语言与系统的可视化问题 (6)数据挖掘理论与算法研究 三、数据挖掘的分类 见书 P11 四、广义知识挖掘 1、概念描述,包括特征性描述和区别性描述 2、多维数据分析,如求和,计数,平均,最大值等 3、多层次概念描述 (1)模式分层;(2)集合分组分层;(3)操作导出层;(4)基于规则分层 五、类知识挖掘 1、分类:决策树、贝叶斯分类、神经网络、遗传算法与进化理论、类比学习、粗糙集、模糊集等 2、聚类:基于划分的聚类算法、...