1业界大数据 BI 发展分享目录21
大数据背景2
开源大数据生态圈和商用大数据生态圈3
开源前端生态圈和商用前端生态圈4
大数据 BI 系统的底层技术5
建设大数据 BI 系统的思考大数据背景3大数据的 4V1
数据量大 (Volume)2
速度快 (Velocity)3
类型多 (Variety)4
价值密度低 (Veracity)大数据背景4更多的数据
谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监 Peter Norvig 的话就是:更多的数据胜过更好的算法开源大数据生态圈5诞生:谷歌大数据领袖谷歌,于 2003 年起发布一系列论文 : 1
《 The Google File System 》 2
《 MapReduce: Simplified Data Processing on Large Clusters 》 3
《 Bigtable: A Distributed Storage System for Structured Data 》战火被点燃,从此进入大数据时代开源大数据生态圈6诞生:开源大数据生态圈1
Hadoop HDFS 、 Hadoop MapReduce, HBase 、 Hive 渐次诞生,早期 Hadoop 生态圈逐步形成2
Hypertable 是另类
它存在于 Hadoop 生态圈之外,但也曾经有一些用户开源大数据生态圈7Hadoop MapReduce 不适合实时计算
任务分配 Server 不会将信息 Push 到计算 Node ,而是让计算Node 通过心跳去 Pull 任务2
基于框架的通用性, MapReduce 代码也会在 HDFS 中传送,在各计算 Node 展开,再通过启动新 JVM 进程装载并运行3
类似的 JVM 进程启停有 5 、 6 次之多4
Reduce Task 只