电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

数据处理与数据清洗VIP免费

数据处理与数据清洗_第1页
1/10
数据处理与数据清洗_第2页
2/10
数据处理与数据清洗_第3页
3/10
什么是数据处理?数据处理有广义和狭义两种理解,广义的理解,所有的数据采集、存储、加工、分析、挖掘和展示等工作都可以叫做数据处理;而狭义的数据处理仅仅包括从存储的数据中通过提取,筛选出有用数据,对有用数据进行加工的过程,是为数据分析和挖掘的模型所做的数据准备工作。—般意义上讲的数据处理是狭义的定义,即对数据进行增、删、改、查的操作。在目前大数据的背景下,我们数据处理工作往往是通过技术手段来实现,比如说利用数据库的处理能力,对数据进行增加、删除、改动、查询等处理。在实践中,数据处理工作中最大的是对数据进行清洗,即对不清洁的数据进行清洁化的工作,让数据更加规范,让数据的结构更加合理,让数据的含义更加明确,并让数据处在数学模型的可用状态。数据之“脏”数据的“脏”是一个比喻的说法。我们把数据记录不规范、格式错误、含义不明确等叫做数据的“脏”,包括几种典型的形式。(1)数据不规范的情况。比如姓名,同样是张三,有的地方记录为“张三”,有的地方记录为“张三”,为了让两个字的姓名和三个字的姓名都有相同的长度,中间添加了空格。这种情况同样发生在地址字段里,比如说“北京”、“北京市”、“北京”,虽然都是指北京,于我们人来讲很容易识别,但对计算机来讲,这三个写法代表着三个不同的值,我们需要通过建立映射关系的方式,将数据记录进行统一。常见的数据不规范的情况还包括日期格式的问题。日期格式常见的几种记录方法如下:2015/10/202015-10-202015年10月20日10/20/2015Oct.20,2015October20,20152015.10.20每个人都有不同的喜好和记录方法,这给计算机识别造成了很大的困难,一个公司的所有数据都应该有一个明确的规定,统一数据的录入格式。(2)数据不一致的情况数据不一致的情况往往是没有遵循我们单维数据表的原则导致的。因为同一条信息记录在不同的数据表甚至数据库中,当我们对数据信息进行更改之后,因为没有同时对所有的记录点都做相同的更改而导致的数据不一致的情况。为了避免这种情况,我们引入了“单维数据表”的概念,强调了公司内部同样一条信息,只能记录在一个地方,当其他地方需要的时候,通过索引查询的方式来保证数据的一致性,在任何数据表中存在其他表中数据来源的时候,都要在查询输出时进行“同步”更新。数据的一致性虽然技术上比较容易实现,但在企业实践中却有着巨大的难度。采购部门会录入供应商的信息,而财务部需要向供应商付款,所以也会保留供应商相关的信息数据,而采购部门和财务部分分属不同的职能部门,财务部门也会采集一部分供应商财务相关信息,包括银行信息、账号信息、税务信息、工商信息等,如果发生变化,比如说法人变更、业务变更、企业性质变更等,财务会对其数据进行更新;采购部也会对供应商的信息进行采集并登录相关的信息管理系统。如果采购的管理信息系统能够同财务所使用的管理信息系统对接且能够把同条信息能够关联或者建立索引关系,则该公司的数据一致性比较容易保障。但如果两个都采用了不同的系统,就容易导致数据不一致的情况。而这种情况在大多数公司种都存在,且很严重。(3)标准不统一的问题我们对一些事物的描述方法需要建立统一的标准,从而让计算机可以有效地对文本数据进行处理。举一个具体的例子。比如说导致产品出现质量问题的原因,多数情况下是手工录入的,同样的原因,不同的数据录入的描述会有不同。同样是因为电压不稳导致的产品质量问题,有人会录入为“电压不稳”,有人会录入为“电流不稳定”,有人录入为“供电问题”,有人录入为“缺少稳压设备”,有人录入为“供电负载异常”。。。如果没有统一的规范,我们在统计汇总时会产生上千个导致产品品质问题的原因。这给数据解读和分析,以及寻找改善措施带来很大的麻烦。这就需要数据库管理员根据公司的实际情况,将该类原因进行归类,然后设定几个类别,由员工在系统中进行选择,而不是让彳也们手工录入。一般情况下,出现最多的前10名原因能够覆盖90%以上的情况,在录入中,先让员工选择,然后留出一个“其它”,当员工选择其它的时候再进行录入,这样就能够有效规范这种数据的录入标准...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

数据处理与数据清洗

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部