《大数据导论》课程期末复习资料《大数据导论》课程讲稿章节目录:第1章大数据概述(1)大数据的概念(2)大数据的特征(3)大数据的数据类型(4)大数据的技术(5)大数据的应用第2章大数据采集与预处理(1)大数据采集(2)大数据预处理概述(3)数据清洗(4)数据集成(5)数据变换(6)数据规约第3章大数据存储(1)大数据存储概述(2)数据存储介质(3)存储系统结构(4)云存储概述(5)云存储技术(6)新型数据存储系统(7)数据仓库第4章大数据计算平台(1)云计算概述(2)云计算平台(3)MapReduce平台(4)Hadoop平台(5)Spark平台第5章大数据分析与挖掘(1)大数据分析概述(2)大数据分析的类型及架构(3)大数据挖掘(4)大数据关联分析(5)大数据分类(6)大数据聚类(7)大数据分析工具第6章大数据可视化(1)大数据可视化概述(2)大数据可视化方法(3)大数据可视化工具第7章社交大数据(1)社交大数据(2)国内社交网络大数据的应用(3)国外社交网络大数据的应用第8章交通大数据(1)交通大数据概述(2)交通监测应用(3)预测人类移动行为应用第9章医疗大数据(1)医疗大数据简介(2)临床决策分析应用(3)医疗数据系统分析第10章大数据的挑战与发展趋势(1)大数据发展面临的挑战(2)大数据的发展趋势一、客观部分:(单项选择、多项选择)(一)、单项选择1.以下不是NoSQL数据库的是()★考核知识点:NoSQL与NewSQL主流系统参考讲稿章节:附(考核知识点解释):目前市场上主要的NoSQL数据存储工具有:BigTable、Dynamo、Hbase、MongoDB、CouchDB、Hypertable还存在一些其他的开源的NoSQL数据库,Neo4j、OracleBerkeleyDB、ApacheCassandra等另外,NewSQL数据库。例如:GoogleSpanner、VoltDB、RethinkDB、Clustrix、TokuDB和MemSQL等。2以下不是目前主流开源分布式计算系统的是()★考核知识点:主流开源分布式计算系统参见讲稿章节:附:(考核知识点解释)由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。Yahoo的工程师DougCutting和MikeCafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS分布式文件系统,根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon以及国内的百度、阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性,可以实时地处理大数据流。Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的、复杂的大数据处理,spark常用于离线的、快速的大数据处理,而storm常用于在线的、实时的大数据处理。算法是一种()算法A.关联规则B.聚类C.分类D.预测★考核知识点:大数据挖掘算法参见讲稿章节:附:(考核知识点解释)关联分析(Associationanalysis)是从有噪声的、模糊的、随机的海量数据中,挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程,或称关联规则学习(Associationrulelearning)。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,算法有两个关键步骤:一是发现所有的频繁项集;二是生成强关联规则。FP(FrequentPattern)-growth算法基于Apriori构建,但采用了高级的数据结构减少扫描次数,大大加快了算法速度。分类(Classification)任务是在给定数据基础上构建分类模型,根据分类模型确定目标对象属于哪个预定义的目标类别。常用的分类算法有:决策树、...