软件度量模型毕业论文摘 要软件度量模型是基于软件工程项目的度量值(如项目团队大小)为将来的软件工程预测目标软件度量值,例如软件的开发工作量和错误率。很明显,构建这样的软件度量模型需要利用过去的类似项目的数据样本。但是,这些数据样本中往往存在缺失数据的现象。回归建模中确定选择哪些度量变量作为自变量很可能基于直觉或是经验性的假设。模型建立以后很少对经验性的假设做事后检验,这样就容易产生多余的度量变量,从而增加不必要的复杂性。再者,这些度量值很可能既有连续型又有离散型的变量。如何对带有缺失数据的数据样本构建简化的软件度量模型是本论文讨论和讨论的主要课题。本论文的主要内容包括以下几个部分:第一章为绪论,讲述论文的主要讨论背景,以及初步介绍所遇到的 3 个困难和现有的相关解决方法(这些会在二,三,四章里详细论述)。第二章是缺失数据的统计处理。该部分首先介绍了一些缺失数据相关的背景知识;然后提出了一些对缺失数据问题的处理方法; 最后详细地阐述了本文所采纳的 k-NN 法及蒙特卡洛模拟法。第三章主要考虑离散型变量的处理方法。介绍一种比较常见的虚拟变量的方法。第四章是变量选择的方法。在本章中,我们介绍了 3 种传统的变量选择方法。通过比较我们选出比较好的逐步回归作为本文变量选择的方法。第五章是案例分析。用 R、SPSS、Java 等语言及程序把二,三,四章介绍的方法和理论应用到实际的数据样本中,完成了数据缺失下软件度量数据模型的简化。关键词:软件度量,变量选择,缺失数据,逐步回归,虚拟变量法ABSTRACT Software metric models can predict target software metric(s), e.g. the development work effort or defect rates for any future software project based on the project predictor software metric(s) such as project team size. Obviously, the construction of such software measurement model requires use of past similar project data samples. However incomplete data often appear in such data samples. The decision on whether a particular predictor metric should be included is most likely based on the intuition or experienced-based assumption. Unfortunately this assumption is usually not verifiable after the model is const...