这 本 书 里 主 要 介 绍 的 是 大 数 据 在 现 代 商 业 运 作 上 的 应 用 ,以 及 它 对 现 代 商 业 运 作 的 影 响 。 《 大数 据 时 代 》 这 本 书 的 结 构 框 架 遵 从 了 学 术 性 书 籍 的 普 遍 方 式 。 也 既 , 从 现 象 入 手 , 继 而 通 过对 现 象 的 解 剖 提 出 对 这 一 现 象 的 解 释 。 然 后 在 通 过 解 释 在 对 未 来 进 行 预 测 , 并 对 未 来 可 能 出现 的 问 题 提 出 自 己 看 法 与 对 策 。 下 面 来 重 点 介 绍 《 大 数 据 时 代 》 这 本 书 的 主 要 内 容 。 《 大 数 据 时 代 》开 篇 就 讲 了 google 通 过 人 们 在 搜 索 引 擎 上 搜 索 关 键 字 留 下 的 数 据 提 前 成功 的 预 测 了 2009 年 美 国 的 h1n1 的 爆 发 地 与 传 播 方 向 以 及 可 能 的 潜 在 患 者 的 事 情 。 google 的预 测 比 政 府 提 前 将 近 一 个 月 , 相 比 之下 政 府 只能 够在 流感爆 发 一 两个 周之后 才可 以 弄到相 关的 数 据 。 同时 google 的 预 测 与 政 府 数 据 的 相 关 性 高达97%, 这 也 就 意味着google 预 测 数 据的 置信区间为3%, 这 个 数 字 远远小于传 统统计学 上 的 常规置信区间5%!而 这 个 数 字 就 是 大数 据 时 代 预 测 结 果的 相 对 准确性 与 事 件的 可 预 测 性 的 最好证明!通 过 这 一 事 以 及 其他的 案例,维克托提 出 了 在 大 数 据 时 代 “样本 =总体”的 思想。 我们 都知道当样本 无限趋近 于总体的 时候, 通 过 计算得到的 描述性 数 据 将 无限的 趋近 于事 件本 身的 性 质。 而 之前 采取的 “样本 <总体”的 做法 很大 程度上 无法 做到更进 一 步的 描述事 物, 因为之前 的 时 代 数 据 的 获取与 存储处理本 身有很大 的 难度只导致人 们 采取抽样的 方 式 来 测 量事 物。 而 互联网终端与 计算机的 出 现使数 据 的 获取、存储与 处理难度大 大 降低, 因而 相 对 准确性 更高的 “样本 =总体”的 测 算方...