第1页共14页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第1页共14页乳房癌的诊断【摘要】针对本题的实际,综合应用DKLT、最小误判准则、最小风险准则、分支定界次优算法l-r法求解本题。不断结合对已知类别样本的检验结果分析所用方法的不足,然后改进,正确率达到95%以上。其中提出”拒判”的概念以进一步减小判决带来的风险。69个未知类别样本的分类结果见正文表一和表二。为节省费用,只用此30个特征数据中的部分特征来区分乳房肿瘤是良性还是恶性。通过l-r法作的特征选择,选取了细胞核凹陷点数的平均值、断裂度的平均值、质地的标准差、光滑度的标准差、断裂度的最坏值这5个特征就能得到用30个特征分类一样的结果,大大的减少了费用。【关键词】H-K算法离散K-L变换最小误判概率准则最小风险准则l-r法1.问题重述乳房肿瘤通过穿刺采样进行分析可以确定其为良性的或为恶性的。医学研究发现乳房肿瘤病灶组织的细胞核显微图像的10个量化特征:细胞核直径,质地,周长,面积,光滑度,紧密度,凹陷度,凹陷点数,对称度,断裂度与该肿瘤的性质有密切的关系。现试图根据已获得的实验数据建立起一种诊断乳房肿瘤是良性还是恶性的方法。数据来自已经确诊的500个病例,每个病例的一组数据包括采样组织中各细胞核的这10个特征量的平均值,标准差和“最坏值”(各特征的三个最大数据的平均值)共30个数据。并将你的方法用于另外69名已做穿刺采样分析的患者。其中B为良性M为恶性,X为待定。若为节省费用,还想发展一种只用此30个特征数据中的部分特征来区分乳房肿瘤是良性还是恶性的方法,你是否可找到一个特征数少而区分又很好的方法?2.模型假设1.所给数据基本没有误差,各样本病例的诊断结果完全正确。2.30个特征能提供充分的分类信息。3.名词解释与符号说明模式:对分类识别对象进行科学的抽象,建立它的数学模型,用以描述和替代识别对象,称这种对象的描述为模式(Pattern)。对一类对象的抽象也称为该类的模式。特征矢量:以量化特征为分量组成的矢量,记为X特征空间:所有特征矢量所组成的空间第2页共14页第1页共14页编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第2页共14页分类器:解决某一实际问题的具体的分类识别算法c:分类类别数,这里为2N:样本总数N1:训练样本总数N2:测试样本总数n:特征空间的维数err:分类器对检验样本分类的错分总数Ω1:所有恶性乳房肿瘤细胞样本组成的一类,下面称为第一类Ω2:所有良性乳房肿瘤细胞样本组成的一类,下面称为第二类X1:来自Ω1的样本的特征矢量X2:来自Ω2的样本的特征矢量P(e):分类器的误判概率Sw:总的类内离差阵SB:类间离差阵4.问题分析本题需要根据题设给出的分类信息设计一个分类器,它能很好的区分两类样本。然后用这个分类器对未知类别的69例病例分类判别。为节约费用,只用此30个特征数据中的部分特征来区分,这就需要进行特征选择(featureselection),以最小的代价获得要求的分类效果。在比较不同的分类器的优劣时可先简单取N1=N2=N=500,用对检验样本的错分样本数(err)占样本总数(N)的比(err/N)来衡量,比值越大,效果越差。然后对最后推荐的分类器采用分组轮换法即取N1=400个样本训练,剩下的N2=100个样本测试,更精确地估计出误判概率。在求解的过程中,以err/N为标准衡量所用的分类器的优劣,分析其不足,逐步改善分类规则。首先从最简单的方法着手,考虑30个特征可否线性可分。之所以选取了H-K算法,是因为它克服了一些算法(如感知器算法)当模式是线性不可分时不收敛;而不收敛出现后却无法判断是模式线性不可分还是所用算法的问题。H-K算法采用的是最小均法误差准则,它的优点就是对线性可分模式能正确分类;对线性不可分模式能说明它是线性不可分的。用此算法求解本题,发现直接利用30个特征是线性不可分的,于是需要对30个特征作变换,使得变换后维数变少,分量之间不相关,能量更趋集中,这样使变换后新模式的分类更加容易。接下来选取了基于总的类内离差阵Sw和类间离差阵SB的离散K-L变换(DKLT)。因为本题要求分成两类,故发挥了DKLT的最大优势,从30维特征空间降...