学校的学生成绩进行聚类分析1、背景 随着我国经济的进展,网络已被应用到各个行业,人们对网络带来的高效率越来越重视,然而大量数据信息给人们带来方便的同时,也随之带来了许多新问题,大量数据资源的背后隐藏着许多重要的信息,人们希望能对其进行更深化的分析,以便更好地利用这些数据,从中找出潜在的规律
那么,如何从大量的数据中提取并发现有用信息以提供决策的依据,已成为一个新的讨论课题
目前普遍使用的成绩分析方法一般只能得到均值、方差等一类信息,且仅仅是从一门课程独立数据进行的分析,但在实际教学中,比如学生在学习某一门课程时,是哪一门或者几门课程对其影响很大,包括教学以外的哪些因素对学生成绩造成了较大的影响等各种有价值的信息往往无法获知
2、聚类分析 在数据库中的知识发现和数据挖掘(KDDM)受到目前人工智能与数据库界的广泛重视
KDDM 的目的是从海量的数据中提取人们感兴趣的、有价值的知识和重要的信息,聚类则是 KDDM 领域中的一个重要分支
所谓聚类是将物理或抽象的集合分组成为类似的对象组成的多个类的过程
聚类分析就是将一组数据分组,使其具有最大的组内相似性和最小的组间相似性
简单的说就是达到不同聚类中的数据尽可能不同,而同一聚类中的数据尽可能相似,它与分类不同,分类是对于目标数据库中存在哪些类这一信息是知道的,所要做的就是将每一条记录分别属于哪一类标记出来;而聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的簇或者说“聚类”,并且使得在这种分类情况下,以某种度量为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化
事实上,聚类算法中很多算法的相似性都基于距离而且由于现实数据库中数据类型的多样性,关于如何度量两个含有非数值型字段的记录之间的距离的讨论有很多,并提出了相应的算法
聚类分析的算法可以分为以下几类:划分方法、层次方法、基于密度方法等