精品文档精品文档乳腺癌的数据处理摘要本文解决的是乳腺肿瘤的“良”“恶”性判别问题。现在是通过乳腺肿瘤的9项指标来判定乳腺肿瘤患者是否患有乳腺癌,我们通过运用Logistic回归分析判定模型和费歇尔(Fisher)判别模型,对9项指标进行综合判定、分析,最终制定了一个科学的乳腺肿瘤的判别方法,以便人们能及早发现并且治疗。对于问题一:我们建立了两种模型——Logistic回归分析判定模型和费歇尔(Fisher)判别模型。对于Logistic回归模型,我们对数据进行分析并运用MATLAB软件求出回归系数,再由Logistic回归方程求出概率p,进而与概率值0.5进行判断,小于0.5则为良性,反之,则为恶性,最终得出正确率为85%的判定方法。对于费歇尔(Fisher)判别模型,我们借助方差分析的思想构造判定函数,通过样本SPSS软件对数据进行分析得出判定系数ci,接着求出临界值y0,最终把要检验的样本数据代入判定函数求出y值,将y值与临界值y0进行比较,从而确定肿瘤性质,最终得出正确率为95%的判别方法。对于问题二:由第一问得出模型二费歇尔(Fisher)判别模型正确率更高,所以可以根据费歇尔(Fisher)判别方法来判断所给组是良性还是恶性,先将各组数据直接代入模型二中求出的判定公式中,求得各组相应的y值,通过与y0进行比较,来判断肿瘤患者是为良性还是恶性。最终判定结果如下表:编号12345678910检测结果1011010101编号11121314151617181920检测结果0100100000(注:检测结果“1”代表肿瘤为恶性,“0”代表肿瘤为良性)对于问题三:为区分肿瘤是良性还是恶性的主要指标,我们根据Fisher模型,求出系数c和良性、恶性肿瘤中各项指标的均值(1)x、(2)x,最终求出指标剔除判定数组(1)(2)().*2xxc,剔除当中绝对值最小的一个,依次类推,得到剔除的先后顺序,并求出相应的检验准确率,选择高准确率情况下指标剔除较多的一组,最终得出区分肿瘤是良性还是恶性的主要指标为:乳腺肿瘤肿块的厚度、单层上皮细胞的大小、裸核、正常的核仁。关键词:logistic判别法费歇尔判别法BP神经网络SPSS精品文档精品文档一、问题重述问题背景:如今,癌症越来越多,发病率越来越高,不断威胁着人们的生命安全,其中乳腺癌就是其中一种严重威胁女性生命的癌症之一,全世界每年约有120万妇女患乳腺癌,50万人死于乳腺癌,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。下面是某医院乳腺肿瘤患者的一组数据(具体数据见附录),其中前面9个指标分别表示乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂,尾数0表示确诊为“良性”,1表示确诊为“恶性”,数据已经归一化为0到10之间的自然数。所要解决的问题如下:问题一、通过以上数据,建立一种或多种判别方法,用来判断乳腺肿瘤是属于“良性”还是“恶性”,并检验这些方法的正确性。问题二、现有一组乳腺肿瘤患者的九个指标数据如下,根据问题一中提出的方法分别判别属于“良性”还是“恶性”10,4,7,2,2,8,6,1,15,1,1,1,2,1,3,1,2,5,2,2,2,2,1,2,2,15,4,6,6,4,10,4,3,18,6,7,3,3,10,3,4,21,1,1,1,2,1,1,1,16,5,5,8,4,10,3,4,11,1,1,1,2,1,3,1,11,1,1,1,1,1,2,1,18,5,5,5,2,10,4,3,110,3,3,1,2,10,7,6,11,1,1,1,2,1,3,1,12,1,1,1,2,1,1,1,11,1,1,1,2,1,1,1,17,6,4,8,10,10,9,5,31,1,1,1,2,1,1,1,11,1,1,1,1,1,1,3,13,4,4,10,5,1,3,3,14,2,3,5,3,8,7,6,15,1,1,3,2,1,1,1,1问题三、试确定区分乳腺肿瘤是“良性”还是“恶性”的主要指标,并采用主要指标建立区分“良性”和“恶性”乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。精品文档精品文档二、模型假设假设1:各种指标对肿瘤的影响是相对独立的。假设2:9个指标中的数据都是0-10之间的自然数。假设3:肿瘤只有良性和恶性两种情况。假设4:每组数据独立作用互不影响。假设5:数据缺失组对判定无影响。假设6:除了9中指标的影响外,不考虑其他因素的影响。三、符号说明符号符号说明p经logistic转换后肿瘤为恶性的判定概率q肿瘤为恶性的概率k回归系数(1,2,3...9k)kX患者体内第k种指标的大小ic判定...