经济普查全国数据库优化方案VIP免费

下载本文档

阅读 107
下载 22
格式 doc
大小 24.5 KB
约7页
2024-11-06 发布于河南
收藏
评论
点赞(0)
海报
举报

1/7页

2/7页

3/7页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

经济普查全国数据库优化方案随着各省、自治区、直辖市（以下简称：各省级单位）的第一次全国经济普查（以下简称：经济普查）数据上报工作接近尾声，国家级数据处理工作正大规模地展开，经济普查全国数据库的建设也被提上日程。国家级数据处理的主要任务包括下面几项：1给各省级单位报送的数据建立处理环境，执行统一的审核、汇总程序，并将结果与同时上报的审核错误清单和汇总数据进行比较，如果两者不同或有其他问题，通知原报送单位重新报送；2将各省级单位报送的数据合并到一个处理环境中，执行各专业要求的审核、汇总程序，并由各专业做进一步的审核、查询得出最终确定的数据集。将来在此数据集基础上可以构建全国基本单位名录库和其他专业的全国数据库，提供给各级政府统计部门、其他政府部门和科研机构使用，即建立经济普查全国数据库。3按处理地从全国处理环境中合并导出各省级单位数据并建立独立的处理环境，再次分别执行统一的审核、汇总程序，并由各专业确认无误后反馈各地区。国家级数据处理的流程和省级、地（市）级没有本质的差别，国家级和省级处理的最明显差别是数据量上的差别，填报目录（法人单位＋产业活动单位）记录超过了700万条，其他30余张专业基层表的记录从几十万到数百万不等。因此，实现快速地从如此大容量的数据库中提取数据（查询）、分析、统计以及提取数据后进行数据展示，已成为亟待解决的难题。经济普查数据汇集到国家级的时候，数据库的性质已经逐渐地发生了改变，从一个联机事务处理（OLTP）系统转变为一个决策分析支持（DSS）系统。联机事务处理系统有大量的用户同时连接，并发操作很多，有大量的数据增删改，而每次更改涉及的记录数较少，对系统的响应时间要求较高。决策分析支持系统是大数据量的查询，大批量的数据导入和导出，涉及的记录数很多，对系统的响应时间要求不太高，但是对一个长时间操作耗费的总时间要求提高。由于两种类型系统应用特点的巨大差异，在联机事务处理系统中有效率的设计在决策分析支持系统中变得不再有效率，需要进行分析、调整、优化。一、减少数据冗余在数据采集阶段，调查对象的数据的一些统计特征，例如某专业基层表的填满率，数据量地区分布等是未知的，尽管可以从历史数据中获得某些信息，但全国的统计特征信息不一定适用于地方，因此数据采集系统中不需要考虑数据的统计特征。数据汇集到国家级后，即使个别数据还会进行订正、增补，但总体来说，数据的整体特征已经固定，不会有大的改变。为了提高进一步处理的效率，就得针对既有数据的统计特征进行数据结构的调整，其中最首要的，是减少数据冗余。所谓冗余数据，有两种含义，第一种，是指在数据库中多个地方重复存储的数据，第二种，指的是基层没有填写，而由于应用程序设计的原因在数据库表中填充并遗留下的大量空白。减少数据冗余并不应该随着硬件系统处理能力、运算速度和存储容量的提高而被忽视，相反，重视并减少冗余更能发挥硬件系统的能力。通过对几张定长二维表的统计，我们发现它们均存在第二种冗余，冗余的比例从60%至80%不等。以规模以上工业企业能源购进、消费及库存表的二维子表(下面简称606表)为例，参加填报的单位约有27万，共530万条记录，而其中至少一个有效字段(不包括uuid和数据项行代码)有数的记录仅95.4万，冗余比率达到了82%。而恰恰是606表，其导出文件长度和导入耗费时间均列第一批上报的各表的首位。经过测试，我们用数据库的SQL命令删除冗余记录后，应用程序的执行没有发生错误，而无论是审核、汇总、导入、导出还是查询时间都大幅度下降。原因有以下几方面，物理存储数据块的减少使I/O访问的次数减少，记录数的减少一方面使表扫描行数和叠加计算的次数减少，另一方面使索引文件的长度变小，维护开销降低。也许开发人员会提出异议，606表在业务规则中是定长二维表，删除冗余记录后就变成了不定长表，这不是违背了业务的需求？这种担心是有道理的，但不是不可解决的，我们完全可以在数据展示上给用户呈现一张定长二维表，后台存储格式是用户不关心的，但对应用程序的执行性能却是关键的。事实上，ePras程序已经做到了将不定长表存...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

经济普查全国数据库优化方案

经济普查全国数据库优化方案随着各省、自治区、直辖市（以下简称：各省级单位）的第一次全国经济普查（以下简称：经济普查）数据上报工作接近尾声，国家级数据处理工作正大规模地展开，经济普查全国数据库的建设也被提上日程

国家级数据处理的主要任务包括下面几项：1给各省级单位报送的数据建立处理环境，执行统一的审核、汇总程序，并将结果与同时上报的审核错误清单和汇总数据进行比较，如果两者不同或有其他问题，通知原报送单位重新报送；2将各省级单位报送的数据合并到一个处理环境中，执行各专业要求的审核、汇总程序，并由各专业做进一步的审核、查询得出最终确定的数据集

将来在此数据集基础上可以构建全国基本单位名录库和其他专业的全国数据库，提供给各级政府统计部门、其他政府部门和科研机构使用，即建立经济普查全国数据库

3按处理地从全国处理环境中合并导出各省级单位数据并建立独立的处理环境，再次分别执行统一的审核、汇总程序，并由各专业确认无误后反馈各地区

国家级数据处理的流程和省级、地（市）级没有本质的差别，国家级和省级处理的最明显差别是数据量上的差别，填报目录（法人单位＋产业活动单位）记录超过了700万条，其他30余张专业基层表的记录从几十万到数百万不等

因此，实现快速地从如此大容量的数据库中提取数据（查询）、分析、统计以及提取数据后进行数据展示，已成为亟待解决的难题

经济普查数据汇集到国家级的时候，数据库的性质已经逐渐地发生了改变，从一个联机事务处理（OLTP）系统转变为一个决策分析支持（DSS）系统

联机事务处理系统有大量的用户同时连接，并发操作很多，有大量的数据增删改，而每次更改涉及的记录数较少，对系统的响应时间要求较高

决策分析支持系统是大数据量的查询，大批量的数据导入和导出，涉及的记录数很多，对系统的响应时间要求不太高，但是对一个长时间操作耗费的总时间要求提高

由于两种类型系统应用特点的巨大差异，在联

您可能关注的文档

海纳百川 + 关注: 实名认证
内容提供者

热爱教学事业，对互联网知识分享很感兴趣

收藏店铺进入空间

经济普查全国数据库优化方案VIP免费

经济普查全国数据库优化方案

您可能关注的文档

相关文档

热门下载

相关标签