什么是数据处理
数据处理有广义和狭义两种理解,广义的理解,所有的数据采集、存储、加工、分析、挖掘和展示等工作都可以叫做数据处理;而狭义的数据处理仅仅包括从存储的数据中通过提取,筛选出有用数据,对有用数据进行加工的过程,是为数据分析和挖掘的模型所做的数据准备工作
—般意义上讲的数据处理是狭义的定义,即对数据进行增、删、改、查的操作
在目前大数据的背景下,我们数据处理工作往往是通过技术手段来实现,比如说利用数据库的处理能力,对数据进行增加、删除、改动、查询等处理
在实践中,数据处理工作中最大的是对数据进行清洗,即对不清洁的数据进行清洁化的工作,让数据更加规范,让数据的结构更加合理,让数据的含义更加明确,并让数据处在数学模型的可用状态
数据之“脏”数据的“脏”是一个比喻的说法
我们把数据记录不规范、格式错误、含义不明确等叫做数据的“脏”,包括几种典型的形式
(1)数据不规范的情况
比如姓名,同样是张三,有的地方记录为“张三”,有的地方记录为“张三”,为了让两个字的姓名和三个字的姓名都有相同的长度,中间添加了空格
这种情况同样发生在地址字段里,比如说“北京”、“北京市”、“北京”,虽然都是指北京,于我们人来讲很容易识别,但对计算机来讲,这三个写法代表着三个不同的值,我们需要通过建立映射关系的方式,将数据记录进行统一
常见的数据不规范的情况还包括日期格式的问题
日期格式常见的几种记录方法如下:2015/10/202015-10-202015年10月20日10/20/2015Oct
20,2015October20,20152015
20每个人都有不同的喜好和记录方法,这给计算机识别造成了很大的困难,一个公司的所有数据都应该有一个明确的规定,统一数据的录入格式
(2)数据不一致的情况数据不一致的情况往往是没有遵循我们单维数据表的原则导致的
因为同一条信息记录在不同的数据表甚至数据