习题答案:第一章:1. 简述大数据的概念。答:自 2012 年以来,“大数据”一词越来越引起人们的关注。 但是,目前为止,在学术研究领域和产业界中,大数据并没有一个 标准的定义。在维克托·迈尔-舍恩伯格编写的《大数据时代》一书 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数 据进行分析处理。而麦肯锡全球研究所则定义大数据为一种规模大 到在获取、存储、管理、分析方面大大超出了传统数据库软件工具 能力范围的数据集合,具有海量的数据规模、快速的数据流转、多 样的数据类型和价值密度低四大特征。通常来说,大数据是指数据 量超过一定大小,无法用常规的软件在规定的时间范围内进行抓取、 管理和处理的数据集合。2. 简述大数据的基本特征。大数据的主要特征可用“5V+1C”来进行概括,分别是:数据量大 (Volume)、数据类型多(Variety)、数据时效性强(Velocity)、价值密度低(Value)、准确性高(Veracity)、复杂性高 (Complexity),如下图所示。数据类型多数据量大价值密度低时效性高图 大数据特征图3. 简述大数据的分析处理过程。答:大数据的处理流程基本可划分为数据采集、数据处理与集成、数据 分析和数据解释4个阶段。即经数据源获取的数据,因为其数据结 构不同(包括结构、半结构和非结构数据),用特殊方法进行数据 处理和集成,将其转变为统一标准的数据格式方便以后对其进行处 理;然后用合适的数据分析方法将这些数据进行处理分析,并将分 析的结果利用可视化等技术展现给用户,这就是整个大数据处理的 流程如下图所示。图 大数据的处理流程详细的分析处理过程参见《大数据技术与应用》第 5 章第 2 节4. 简述大数据的存储方式。答:存储系统作为数据中心最核心的数据基础,不再仅是传统分散的、 单一的底层设备。除了要具备高性能、高安全、高可靠等基于大数 据应用需求,“应用定义存储”概念被提出。主要有以下几种存储 方式:MapReduce也据互米窗ECharlS#JS 可祝化,⅛*JWfciINoSQl 敬爆 15:分立式文件⅛*xΓ∣Λ.i⅛aDixunwnt1、分布式系统2、NoSQL 数据库3、云数据库4、大数据存储技术路线1) 采用 MPP 架构的新型数据库集群2) 基于 Hadoop 的技术扩展和封装3) 大数据一体机5.简述大数据的商业价值和社会价值。答:商业价值:1. 对顾客群体细分,然后对每个群体量体裁衣般的采取独特的 行动。2.运用大数据模拟实境,发掘新的需求和提高利润。3.提高...