什 么 是 数 据 处 理 ? 数 据 处 理 有 广 义 和 狭 义 两 种 理 解 , 广 义 的 理 解 , 所 有 的 数 据 采 集 、存储、加工、分析、挖掘和 展示等工作都可以叫做数 据 处 理 ;而狭 义 的 数 据 处 理 仅仅包括从存储的 数 据 中通过提取, 筛选出有 用数 据 , 对有 用数 据 进行加工的 过程,是为数 据 分析和 挖掘的 模型所 做的 数 据 准备工作。 一般意义 上讲的 数 据 处 理 是狭 义 的 定义 , 即对数 据 进行增、删、改、查的 操作。在目前大数 据 的 背景下, 我们数 据 处 理 工作往往是通过技术手段来实现,比如说利用数 据 库的 处 理 能力, 对数 据 进行增加、删除、改动、查询等处 理 。 在实践中, 数 据 处 理 工作中最大的 是对数 据 进行清洗, 即对不清洁的 数 据 进行清洁化的 工作, 让数 据 更加规范, 让数 据 的 结构更加合理 , 让数 据 的 含义 更加明确, 并让数 据 处 在数 学模型的 可用状态。 数 据 之 “脏” 数 据 的 “脏”是一个比喻的 说法。我们把数 据 记录不规范、格式错误、含义不明确等叫做数 据 的 “脏”,包括几种典型的 形式。 ( 1) 数 据 不 规 范 的 情 况 。 比如姓名,同样是张三,有的 地方记录为“张三”,有的 地方记录为“张 三”,为了让两个字的 姓名和三个字的 姓名都有相同的 长度,中间添加了空格。这种情况同样发生在地址字段里,比如说“北京”、“北京市”、“北 京”,虽然都是指北京,于我们人来讲很容易识别,但对计算机来讲,这三个写法代表着三个不同的 值,我们需要通过建立映射关系的 方式,将数 据 记录进行统一。 常见的 数 据 不规范的 情况还包括日期格式的 问题。日期格式常见的 几种记录方法如下: 2015/10/20 2015-10-20 2015 年 10 月 20 日 10/20/2015 Oct. 20, 2015 October 20, 2015 2015.10.20 每个人都有不同的 喜好和记录方法,这给计算机识别造成了很大的 困难,一个公司的 所有数 据 都应该有一个明确的 规定,统一数 据 的 录入格式。 ( 2) 数 据 不 一致的 情 况 数 据 不 一 致 的 情 况 往 往 是 没 有 遵 循 我 们 单 维 数 据 表 的 原 则 导 致 的 。 因 为 同 一 条信 息 ...