电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

大数据BI发展

大数据BI发展大数据BI发展大数据BI发展大数据BI发展大数据BI发展
1业界大数据 BI 发展分享目录21. 大数据背景2. 开源大数据生态圈和商用大数据生态圈3. 开源前端生态圈和商用前端生态圈4. 大数据 BI 系统的底层技术5. 建设大数据 BI 系统的思考大数据背景3大数据的 4V1. 数据量大 (Volume)2. 速度快 (Velocity)3. 类型多 (Variety)4. 价值密度低 (Veracity)大数据背景4更多的数据?谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监 Peter Norvig 的话就是:更多的数据胜过更好的算法开源大数据生态圈5诞生:谷歌大数据领袖谷歌,于 2003 年起发布一系列论文 : 1. 《 The Google File System 》 2. 《 MapReduce: Simplified Data Processing on Large Clusters 》 3. 《 Bigtable: A Distributed Storage System for Structured Data 》战火被点燃,从此进入大数据时代开源大数据生态圈6诞生:开源大数据生态圈1. Hadoop HDFS 、 Hadoop MapReduce, HBase 、 Hive 渐次诞生,早期 Hadoop 生态圈逐步形成2. Hypertable 是另类。它存在于 Hadoop 生态圈之外,但也曾经有一些用户开源大数据生态圈7Hadoop MapReduce 不适合实时计算?1. 任务分配 Server 不会将信息 Push 到计算 Node ,而是让计算Node 通过心跳去 Pull 任务2. 基于框架的通用性, MapReduce 代码也会在 HDFS 中传送,在各计算 Node 展开,再通过启动新 JVM 进程装载并运行3. 类似的 JVM 进程启停有 5 、 6 次之多4. Reduce Task 只能在所有 Map Task 完成之后才能启动开源大数据生态圈8中期:谷歌. 为了高扩展性,我们容忍了高延迟. 2010 年,谷歌又发布了论文 : 《 Dremel: Interactive Analysis of Web Scale Datasets 》. 论文撰写于 2006 年. 平静再次被打破开源大数据生态圈9中期:开源在 Hadoop MapReduce 框架之外,衍生出了一批低延迟的大数据分析项目: Cloudera Impala, MapR Drill, HBase Coprocessor, Spark, etc.Caution!开源大数据生态圈10后来:谷歌NoSQL 引领着 IT 界时尚圈,几乎家喻户晓;低延迟的大数据分析项目在开源界刚出现没多久,谷歌又烧了第三把火。这次它发表的两篇论文是:1. 《 F1 - The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business 》2. 《 Spanner: Google's Globally-Distributed Database 》. 多年以来,很多人以 NoSQ...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部