第七章有序地质量最优分割法第一节概述地层划分与对比是煤田地质勘探的主要任务之一。在地质工作中,通常是寻找地层的不整合或假整合界线,或者利用古生物化石、岩石矿物等地质特征对地层进行划分与对比。这种划分方法比较直观,适用于较大地层单元的划分与对比。当地质特征间的差异性不显著时,运用上述直观、定性的方法来解决较小地层单元的进一步划分就有一定的困难因此,近年来开始利用有序地质量,即运用数学方法,并借于电子计算机定量地划分地层提出了“有序地质量最优分割法”。地质数据中有相当多是有序的。这些按一定顺序排列的地质变量,叫做有序地质量。例如,沿地层露头剖面采集的岩石标本;钻孔取出的岩芯样品;与这些岩石、样品有关的岩性、物理化学和古生物数据;以及地球物理测井数据等。它们都是有序地质量。这类数据的特点是样品的前后次序不能变更。所以,一些不考虑样品排列顺序的数学处理方法,对此不适用。有序地质量最优分割法,就是对一批有序数据(地质体)进行分段的统计方法。设有n个按顺序排列的样品,每个样品测得p个变量,这批数据可用数据矩阵的形式表示为X=[xil]=(x11x12⋯x1px21x22⋯x2p⋮⋮⋮⋮xn1xn2⋯xnp)nxp其中,xil表示第i个样品第l个变量的取值。若对以上n个有序样品进行分割(分段),可能有cn−11+cn−22+⋯+cn−1n−1=2n−1−1种划分方法,每一种分法称为一种分割。在所有这些分割中,存在这样一种分割,它使得各段(组)内部样品之间的差异性最小(即样品数据的组内离差平方和最小),而使段(组)之间的差异性最大(即样品数据的组间离差平方和最大)。这种对n个样品分段并使组内离差平方和最小的分割方法,称为最优分割法。样品变量总离差平方和的分解式为T=W+B(7—1)式中,T为总离差平方和;W为组内离差平方和;B为组间离差平方和。由式(7—1)可知,如果n个样品分为K段,每段的样品个数为nk,若每个样品只取一个变量,则W=∑k=1K∑i=1nk(xik−xk)2(7—2)B=∑k=1K∑i=1nk(xk−x)2=∑k=1Knk(xk−x)2(7—3)因此,寻求最优分割,就是用计算的分法找出使组内离差平方和(W)最小的那些分割点。这与判别分析中费歇准则相似,所以有序地质量最优分割法,有人又称为“F-分割法”或“有序样品的聚类分析”。第二节单元有序数据的最优分割若有n个有序样品,每个样品只取一个变量,则有n个有序数据序列,为X={x1,x2,⋯,xn}现在试图将这n个样品按顺序分割为K段,使段(组)内离平差和尽可能小,而组间离差平方和尽可能大。为此,用{xi,xi+1,⋯,xj}表示从第i个样品数据开始至第j个样品数据为止的某段样品,其中1≤i≤j≤n该段样品变量的离差平方和为d(i,j)=∑α=ij[xα−x(i,j)]2(7-4)式中x(i,j)=1j−i+1∑α=ijxα由于d(i,j)能够反映样品段{xi,xi+1,⋯,xj}内样品间差异的情况,d(i,j)愈小,表示段内各样品之间差异性愈小;反之,d(i,j)愈大,表示段内各样品之间差异性愈大。因此,又把d(i,j)称为{i,⋯,j}段的直径。若n个样品分为K段:{x11,x12,⋯,x1n1}{x21,x22,⋯x2n2}⋯{xK2,xK2,⋯,xKnk},为最优K段分割。其各段离差平方和(段直径)分别为:d1(i,j),d2(i,j),⋯dK(i,j)。根据最优分割的原则,其组内离差平方和必须满足W=∑k=1K∑i=1nk[xik−xk(i,j)]2=d1(i,j)+d2(i.j)+⋯+dk(i,j)=min(7-5)或B=∑k=1Knk[xk(i,j)−x]2=max(7-6)在实际应用时,往往事先不知道n个有序样品客观上究竟能划分为几段。因此,必须从最优分成二段、三段、…、K段进行分析。一、最优二段分割若把n个有序样品{x1,x2,⋯,xn}分为两段,则有如下n−1种不同的分法,即{x1}{x2,x3,⋯,xn}{x1,x2}{x3,x4,⋯,xn}{x1,x2,x3}{x4,x5,⋯,xn}{⋯⋯⋯⋯⋯}{⋯⋯⋯⋯⋯}{x1,x2,⋯,xn−1}{xn}在上述n−1种分法中,究竟哪一种方法最优?只须计算出每一种分割的组内离差平方和,并从其中找出组内离差平方和(W)最小的那一种分割,就是所求的最优二段分割。在n个有序样品中,对任意一个j(1≤j≤n−1)都可以确定一个二段分割,即{1,⋯,j}{j+1,⋯,n}。若把对n个样品在第j个样品处进行的二段分割的组内离差平方和记为Wn(2;j)=d(1,1)+d(2,n)(7-7)式中,n表示被分割的样品数;2...