最全大数据学习资源整理 超 人 学 院 MySQL: 世 界 最 流 行 的 开 源 数 据 库 ; PostgreSQL: 世 界 最 先 进 的 开 源 数 据 库 ; Oracle 数 据 库 : 对 象 -关 系 型 数 据 库 管 理 系 统 。 框 架 Apache Hadoop: 分 布 式 处 理 架 构 , 结 合 了 MapReduce(并 行 处 理 )、YARN(作业调度)和 HDFS(分 布 式 文件系 统 ); Tigon: 高吞吐量实时流 处 理 框架 。 分布式编程 AddThis Hydra : 最 初在 AddThis上开 发的 分 布 式 数 据 处 理 和存储系 统 ; AMPLab SIMR: 用在 Hadoop MapReduce v1上运行 Spark; Apache Beam: 为统 一的 模型 以及一套用于定义和执行 数 据 处 理 工作流 的 特定 SDK语言; Apache Crunch: 一个简单的 Java API, 用于执行 在普通的 MapReduce实现时比较单调的 连接、数 据 聚合 等任务; Apache DataFu: 由 LinkedIn开 发的 针对 Hadoop and 和 Pig的 用户定义的 函数 集合 ; Apache Flink: 具有高性能的 执行 时间和自动程序优化; Apache Gora: 内存中的 数 据 模型 和持久性框架 ; Apache Hama: BSP(整体同步并 行 )计算框架 ; Apache MapReduce : 在集群上使用并 行 、分 布 式 算法处 理 大数 据 集的 编程模型 ; Apache Pig : Hadoop中, 用于处 理 数 据 分 析程序的 高级查询语言; Apache REEF : 用来简化和统 一低层大数 据 系 统 的 保留性评估执行 框架 ; Apache S4 : S4中 流 处 理 与 实 现 的 框 架 ; Apache Spark : 内 存 集 群 计 算 框 架 ; Apache Spark Streaming : 流 处 理 框 架 , 同 时 是 Spark的 一 部 分 ; Apache Storm : Twitter流 处 理 框 架 , 也 可 用 于 YARN; Apache Samza : 基 于 Kafka和 YARN的 流 处 理 框 架 ; Apache Tez : 基 于 YARN, 用 于 执 行 任 务 中 的 复 杂 DAG(有 向 无 环 图 ); Apache Twill : 基 于 YARN的 抽 象 概 念 , 用 于 减 少 开 发 分 布 式 应 用 程 序 的 复 杂 度 ; Cascalog: 数 据 处 理 和 查 询 库 ; Cheetah : 在 MapReduce之 上 的 高 ...