数据猎取特征提取和选择预处理分类决策分类器设计精品文档---下载后可任意编辑•数据猎取:用计算机可以运算的符号来表示所讨论的对象–二维图像:文字、指纹、地图、照片等–一维波形:脑电图、心电图、季节震动波形等–物理参量和逻辑值:体温、化验数据、参量正常与否的描述•预处理单元:去噪声,提取有用信息,并对输入测量仪器或其它因素所造成的退化现象进行复原•特征提取和选择:对原始数据进行变换,得到最能反映分类本质的特征–测量空间:原始数据组成的空间–特征空间:分类识别赖以进行的空间–模式表示:维数较高的测量空间->维数较低的特征空间•分类决策:在特征空间中用模式识别方法把被识别对象归为某一类别–基本做法:在样本训练集基础上确定某个判决规则,使得按这种规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小1、写出 K-均值聚类算法的基本步骤, 例子见布置的作业题.算法:第一步:选 K 个初始聚类中心,z1(1),z2(1),…,zK(1),其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定,例如可选开始的 K个模式样本的向量值作为初始聚类中心。第二步:逐个将需分类的模式样本{x}按最小距离准则分配给 K 个聚类中心中的某一个zj(1)。假设 i=j 时,D j(k )=min{‖x−zi(k )‖,i=1,2,⋯K},则x∈ S j(k ),其中k 为迭代运算的次序号,第一次迭代 k=1,Sj表示第 j 个聚类,其聚类中心为zj。第三步:计算各个聚类中心的新的向量值,zj(k+1),j=1,2,…,K求各聚类域中所包含样本的均值向量:其中 Nj为第 j 个聚类域 Sj中所包含的样本个数。以均值向量作为新的聚类中心,可使如下聚类准则函数最小:在这一步中要分别计算 K 个聚类中的样本均值向量,所以称之为 K-均值算法。第四步:若z j(k+1)≠z j(k ),j=1,2,…,K,则返回第二步,将模式样本逐个重新分类,重复迭代运算;若z j(k+1)=z j(k ),j=1,2,…,K,则算法收敛,计算结束。例子:已知{x1(0, 0), x2(1,0), x3(0,1), x4(1,1), x5(2,1), x6(1,2), x7(2,2), x8(3,2) , x9(6,6) , x10(7,6) , x11(8,6) , x12(6,7) , x13(7,7) , x14(8,7) , x15(9,7) , x16(7,8) , x17(8,8) , x18(9,8) , x19(8,9) , x20(9,9)},用 K-均值算法进行聚类分析解:选,, 第一步:选取第二步:根据聚类中心进行聚类,得到第三步:计算新的聚类中心第四步:因,故回到第二步第二步...