大数据导论复习资料VIP免费

下载本文档

阅读 63
下载 16
格式 pdf
大小 65.48 KB
约33页
2024-11-05 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/33页

2/33页

3/33页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/33

文本预览下载提示常见问题

《大数据导论》课程期末复习资料《大数据导论》课程讲稿章节目录：第1章大数据概述（1）大数据的概念（2）大数据的特征（3）大数据的数据类型（4）大数据的技术（5）大数据的应用第2章大数据采集与预处理（1）大数据采集（2）大数据预处理概述（3）数据清洗（4）数据集成（5）数据变换（6）数据规约第3章大数据存储（1）大数据存储概述（2）数据存储介质（3）存储系统结构（4）云存储概述（5）云存储技术（6）新型数据存储系统（7）数据仓库第4章大数据计算平台（1）云计算概述（2）云计算平台（3）MapReduce平台（4）Hadoop平台（5）Spark平台第5章大数据分析与挖掘（1）大数据分析概述（2）大数据分析的类型及架构（3）大数据挖掘（4）大数据关联分析（5）大数据分类（6）大数据聚类（7）大数据分析工具第6章大数据可视化（1）大数据可视化概述（2）大数据可视化方法（3）大数据可视化工具第7章社交大数据（1）社交大数据（2）国内社交网络大数据的应用（3）国外社交网络大数据的应用第8章交通大数据（1）交通大数据概述（2）交通监测应用（3）预测人类移动行为应用第9章医疗大数据（1）医疗大数据简介（2）临床决策分析应用（3）医疗数据系统分析第10章大数据的挑战与发展趋势（1）大数据发展面临的挑战（2）大数据的发展趋势一、客观部分：（单项选择、多项选择）（一）、单项选择1.以下不是NoSQL数据库的是（）★考核知识点:NoSQL与NewSQL主流系统参考讲稿章节：附（考核知识点解释）：目前市场上主要的NoSQL数据存储工具有：BigTable、Dynamo、Hbase、MongoDB、CouchDB、Hypertable还存在一些其他的开源的NoSQL数据库，Neo4j、OracleBerkeleyDB、ApacheCassandra等另外，NewSQL数据库。例如：GoogleSpanner、VoltDB、RethinkDB、Clustrix、TokuDB和MemSQL等。2以下不是目前主流开源分布式计算系统的是（）★考核知识点：主流开源分布式计算系统参见讲稿章节：附：（考核知识点解释）由于Google没有开源Google分布式计算模型的技术实现，所以其他互联网公司只能根据Google三篇技术论文中的相关原理，搭建自己的分布式计算系统。Yahoo的工程师DougCutting和MikeCafarella在2005年合作开发了分布式计算系统Hadoop。后来，Hadoop被贡献给了Apache基金会，成为了Apache基金会的开源项目。Hadoop采用MapReduce分布式计算框架，并根据GFS开发了HDFS分布式文件系统，根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同，但是Hadoop在运算速度上依然达不到Google论文中的标准。不过，Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo，Facebook，Amazon以及国内的百度、阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。Spark也是Apache基金会的开源项目，它由加州大学伯克利分校的实验室开发，是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Storm是Twitter主推的分布式计算系统，它由BackType团队开发，是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性，可以实时地处理大数据流。Hadoop，Spark和Storm是目前最重要的三大分布式计算系统，Hadoop常用于离线的、复杂的大数据处理，spark常用于离线的、快速的大数据处理，而storm常用于在线的、实时的大数据处理。算法是一种（）算法A.关联规则B.聚类C.分类D.预测★考核知识点：大数据挖掘算法参见讲稿章节：附：（考核知识点解释）关联分析（Associationanalysis）是从有噪声的、模糊的、随机的海量数据中，挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程，或称关联规则学习（Associationrulelearning）。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法，算法有两个关键步骤：一是发现所有的频繁项集；二是生成强关联规则。FP（FrequentPattern）-growth算法基于Apriori构建，但采用了高级的数据结构减少扫描次数，大大加快了算法速度。分类（Classification）任务是在给定数据基础上构建分类模型，根据分类模型确定目标对象属于哪个预定义的目标类别。常用的分类算法有：决策树、...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

大数据导论复习资料

以下不是NoSQL数据库的是（）★考核知识点:NoSQL与NewSQL主流系统参考讲稿章节：附（考核知识点解释）：目前市场上主要的NoSQL数据存储工具有：BigTable、Dynamo、Hbase、MongoDB、CouchDB、Hypertable还存在一些其他的开源的NoSQL数据库，Neo4j、OracleBerkeleyDB、ApacheCassandra等另外，NewSQL数据库

例如：GoogleSpa

爱的疯狂 + 关注: 实名认证
内容提供者

该用户很懒，什么也没介绍

收藏店铺进入空间

大数据导论复习资料VIP免费

大数据导论复习资料

您可能关注的文档

相关文档

热门下载

相关标签