承 诺 书 我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。 我们参赛选择的题号是(从题目编号中选择一项填写): A 题目:数学建模竞赛 参赛队员: 姓名 专业班级 所在学院 电话(手机) 是否报名全国竞赛 1 A 题:离群点的判定 摘要 离群点是指数据中,远离数值的一般水平的极端大值和极端小值,也称之为歧异值,有时也称其为野值,其对后续的数据处理有很大的影响;本文研究的目的是拟建立适当的数学模型,评判出一组数据中的离群点,并对出现的离群点进行处理。 对于问题一的第一小问,本文拟将一维数据分成确定数据和不确定数据两类,对于确定数据建立残差绝对值模型发现离群点,当残差绝对值 y(n)>y1-a(n)时,残差绝对值对应的Xi即为离群点;对于不确定数据,建立可能世界模型确定数据的邻居对象,在传统确定性数据判定方法的基础上,离群点的概率还需要满足所给出的概率阀值;同时满足两个条件即为离群点。 对于问题一的第二小问,本文拟采用 aggarw al 等所提出的评价指标体系评价残差绝对值模型判定离群点的有效性,计算真正的离群点数占该方法所找出的离群点的比例,比例越大残差绝对值模型判定离群点的有效性越好。 对于问题二,对离群点的处理本文拟分为标准偏差预知和标准偏差未知两类,对于标准偏差预知,本文拟采用统计量T=(X-X )/σ ,T值大于舍弃界限中相应置信度下的临界值则舍弃否则保留;对于标准偏差未知,本文分别采用拉依达准则、狄克松法、肖维特法、格鲁布斯法、学生化残差绝对值法对离散点进行处理,更科学决定离散点的舍与留。 对于问题三,对于 n 维数据离群点的判定,本文拟采用神经网络模型求解,运用 DPS 数据处理系统将 n 维数据分为离群点和非离群点两类,输出的离群值即为要发现的离群点;本文拟采用蠓分类试验对神经网络模型来检验其有效性。 2 一、问题重述 离群点(outlier)是指数值中,远离数值的一般水平的极端大值和极...