经济普查数据的分析与挖掘作者:张丽虹来源:《当代商贸工业》第 27 期 摘 要:通过有关性分析(Correlation)与支持向量机(Support Vector Machine)对经济普查系统中的部分典型数据进行具体的实验与分析:研究了公司的资产总额、高学历员工比例、女性员工比例与公司盈利能力的有关性,也研究了公司机构类型与其高学历员工比例的关系;并运用数据分析与挖掘技术对经济普查数据进行分析,从海量数据中发现知识,验证了该系统的可操作性和先进性,以期运用这些统计数据为我国的社会与经济发展服务。 核心词:经济普查系统;数据挖掘;支持向量机 中图分类号:D9 文献标记码:A 文章编号:1672-3198()25-0229-03 0 引言 为了全方面掌握国民经济的发展规模、构造和效益等状况,我国于进行了第二次全国经济普查。这次普查的原则时间点为 12 月 31 日,时期资料为,普核对象是在我国境内从事第二产业、第三产业的全部法人单位、产业活动单位和个体经营户。普查内容重要涉及单位基本属性、就业人员、财务状况、生产经营状况、生产能力、原材料和能源消耗、科技活动状况等。 针对经济普查中收集的大量数据,有必要运用数据分析与挖掘办法对其分析,并通过有关性分析(Correlation)与 SVM(Support Vector Machine,支持向量机)进行具体实验,充足运用这些统计数据为我国的社会与经济发展服务,使我国在统计机构信息系统的研究水平达成或超出国外的水平。 1 经济普查统计指标解释 开展经济普查,不仅是为了掌握重要的国情国力,并且还要通过普查在人力、物力上的特殊优势,使普查制度设计成为推动经常性统计制度科学性的极好机会,发挥普查工作在整个统计工作中的基础地位。 本次经济普查收集了 23,028 家各类型公司的各 66 项数据,总计 1,522,488 条。为了方便对如此繁多的数据进行解读,发现知识,拟按下列经济普查统计指标进行分类、统计。 (1)登记注册类型。重要分为三类:内资;港澳台资;外资。 (2)执行的会计制度。重要涉及公司、事业、行政三种。 (3)机构类型。重要分为公司、事业、机关三种。 (4)控股状况。重要分为国有、集体、私人、港澳台、外商五种。 (5)附属关系。重要分为中央、省、地、县四级。 (6)经济指标。重要涉及主营业务收入与资产总计两项。 (7)人力资源。人力资源的调查较为细致,对同一人群,采用了性别、学历、技术职称、技术等级四种不同的分类办法。(注:多样...