大数据技术调研大数据研发小组苏林东2017/05北京应用物理与计算数学研究所,大数据联合实验室,2017目录❖什么是大数据技术
❖大数据技术发展历程❖大数据生命周期❖大数据技术生态❖大数据技术应用2什么是大数据技术
●大数据技术——在巨量的数据资源中提取到有价值的数据加以分析和处理o基础架构支持o数据采集o数据存储o数据计算o数据展现与交互3发展历程上世纪90年代至本世纪初2003–2006年•突破期•围绕非结构化数据自由探索2006–2009年•成熟期•并行运算和分布式系统2010年以后•萌芽期•数据挖掘•数据仓库、专家系统、知识管理系统•改变世界格局的技术的基石•各行业颠覆性创新的源动力和助推器•Facebook创立,社交网络流行•云计算、MapReduce、Hadoop•引爆大数据时代的两大事件Google的三篇论文——GFS(2003)、MapReduce(2004)、BigTable(2006)2005年,Yahoo工程师DougCutting和MikeCafarella合作开发了Hadoop
4大数据技术栈应用和服务(包括数据服务)编程和管理工具可视化数据分析数据安全计算处理数据存储和管理硬件平台:计算、存储和互联5大数据技术生态67大数据的技术基础●Google分布式计算模型i
MapReduce——分布式计算框架ii
GFS(GoogleFileSystem)——分布式文件系统iii
BigTable——基于GFS的数据存储系统o简化传统分布式理论,降低技术实现难度o应用成本十分低廉o没有开源其技术实现8开源生态圈9开源生态圈NoSQL数据库数据存储批处理即席查询流计算资源调度其他组件ZooKeeperYARNMapReduceSparkPigHBaseStormMahoutHDFSHiveEchartsCassandra、MongoDBSparkStr