大数据分析的流程浅析之一：大数据采集过程分析

下载本文档

阅读 175
下载 8
格式 docx
大小 10.7 KB
约3页
2025-04-10 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/3页

2/3页

3/3页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

大数据分析的流程浅析之一：大数据采集过程分析数据采集,就是使用某种技术或手段,将数据收集起来并存储在某种设备上，这种设备可以是磁盘或磁带。区别于普通的数据分析，大数据分析的数据采集在数据收集和存储技术上都是不同的。具体情况如下: 1。大数据收集过程在收集阶段，大数据分析在时空两个方面都有显著的不同。在时间维度上,为了猎取更多的数据，大数据收集的时间频度大一些，有时也叫数据采集的深度。在空间维度上，为了猎取更准确的数据，数据采集点设置得会更密一些。以收集一个面积为 100 平方米的葡萄园的平均温度为例.小数据时代，由于成本的原因，葡萄园主只能在葡萄园的中央设置一个温度计用来计算温度，而且每一小时观测一次，这样一天就只有 24 个数据。而在大数据时代，在空间维度上，可以设置 100 个温度计，即每个 1 平方米一个温度计; 在时间维度上,每隔 1 分钟就观测一次，这样一天就有 144000 个数据，是原来的 6000 倍。有了大量的数据，我们就可以更准确地知道葡萄园的平均温度,假如加上时间刻度的话,还可以得出一个时间序列的曲线，结果看起来使人很神往.2。大数据的存储技术通过增加数据采集的深度和广度,数据量越来越大，数据存储问题就凸现.原来 1TB 的数据,可以使用一块硬盘就可以实现数据的存储，而现在变成了 6000TB，也就是需要 6000 块硬盘来存放数据，而且这个数据是每天都是增加的。这个时候计算机技术中的分布式计算开始发挥优势，它可以将 6000 台甚至更多的计算机组合在一起，让它们的硬盘组合成一块巨大的硬盘，这样人们就不用再害怕大数据了，大数据再大，增加计算机就可以了。实现分布式计算的软件有很多，名气最大的，目前市场上应用最广的,就是 hadoop 技术了，更精确地说应该是叫 hadoop 框架。hadoop 框架由多种功能性软件组成，其自身只是搭建一个和操作系统打交道的平台。其中最核心的软件有两个，一个是 hdfs 分布式文件系统,另一个是 mapreduce 分布式计算.hdfs 分布式文件系统完成的功能就是将 6000 台计算机组合在一起，使它们的硬盘组合成一块巨大的硬盘,至于数据如何在硬盘上存放和读取，这件事由 hadoop和 hdfs 共同完成，不用我们操心，这就如我们在使用一台计算机时只管往硬盘上存放数据，而数据存放在硬盘上的哪个磁道，我们是不用关怀的.mapredce 分布式计算则就实现让 6000 台计算机一起协同工作起来,hadoop 在设计 mapredce 时，最基本...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

大数据分析的流程浅析之一：大数据采集过程分析

大数据分析的流程浅析之一：大数据采集过程分析

您可能关注的文档

热门下载

相关标签