挖 掘 大 数 据 的 无 限 价 值 古 至 今 , 从 未 有 一 个 时 代 出 现 过 如 此 大 规 模 的 数 据 爆 炸 。 如 今 的 商 业 世 界 , 已 经 变 成 了 飘 浮在 数 据 海 洋 上 的 巨 轮 , 而 那 些 通 过 大 数 据 能 力 驶 入 蓝 海 的 企 业 , 将 会 赢 得 丰 厚 的 回 报 。 大 数 据 的 特 点 对 于 大 数 据 的 特 点 , 业 界 通 常 用 Volume、 Variety、 Value、 Velocity这 4个 V来 概 括 。大 数 据 的 特 点 包 括 : 第 一 , 数 据 体 量 巨 大 。 从 TB级 别 跃 升 到 PB乃 至 EB级 别 。 要 知 道 目 前的 数 据 量 有 多 大 , 我 们 先 来 看 看 一 组 公 式 。 1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=YB。 到 目 前 为 止 , 人 类 生 产 的 所 有 印 刷 材 料 的 数 据 量 是 200PB, 而 历 史 上 全人 类 说 过 的 所 有 的 话 的 数 据 量 大 约 是 5EB。 第 二 , 数 据 类 型 繁 多 。 这 种 类 型 的 多 样 性 也 让 数 据 被 分为 结构化数 据 和非结构化数 据 。相对 于 以往便于 存储的 以文本为 主的 结构化数 据 ,越来 越多 的 非结构化数 据 的 产 生 给所 有 厂商 都提出 了 挑战。 拜互联网和通 信技术近年来 迅猛发展所 赐, 如 今 的 数 据 类 型 早已 不是 单一的 文本形式 , 除了 网络日志、 音频、 视频、 图片、 地理位置信息等等多 类 型 的 数 据 对 数 据 的处理能 力 提出 了 更高的 要 求。 第 三, 价 值 密度低。 价 值 密度的 高低与数 据 总量 的 大 小成 反比。 以视频为 例, 一 部一 小时 的 视频, 在 连续不间断监控过 程中, 可能 有 用 的 数 据 仅仅只有 一 两秒。 如 何通 过 强大 的 机器算法更迅速地完成 数 据 的 价 值 “提纯”是 目 前 大 数 据 汹涌背景下亟待解决的 难题。 第 四, 处理速度快。 这 是 大 数 据 区分于 传统数 据 挖 掘 最显著的 特 征。 根据 IDC的 一 份名为 “数 字宇宙”的 报 告, 预计到 2020年全 球数 据 使用 量 将 ...