大数据分析遇到的13个问题1、最早的数据分析可能就报表目前很多数据分析后的结果,展示的形式很多,有各种图形以及报表,最早的应该是简单的几条数据,然后搞个web页面,展示一下数据
早期可能数据量也不大,随便搞个数据库,然后SQL搞一下,数据报表就出来了
但是数据量大起来怎么分析呢
数据分析完了怎么做传输呢
这么大的数据量怎么做到实时呢
分析的结果数据如果不是很大还行,如果分析的结果数据还是很大改怎么办呢
这些问题在这篇文章中都能找到答案,下面各个击破
2、要做数据分析,首先要有数据这个标题感觉有点废话,不过要做饭需要食材一样
有些数据时业务积累的,像交易订单的数据,每一笔交易都会有一笔订单,之后再对订单数据作分析
但是有些场景下,数据没法考业务积累,需要依赖于外部,这个时候外部如果有现成的数据最好了,直接join过来,但是有时候是需要自己获取的,例如搞个爬虫爬取网页的数据,有时候单台机器搞爬虫可能还爬不完,这个时候可能就开始考虑单机多线程爬取或者分布式多线程爬取数据,中间涉及到一个步骤,就是在线的业务数据,需要每天晚上导入到离线的系统中,之后才可以进行分析
3、有了数据,咋分析呢
先将数据量小的情况下,可能一个复杂的SQL就可以搞出来,之后搞个web服务器,页面请求的时候,执行这个SQL,然后展示数据,好了,一个最简单的数据分析,严格意义上讲是统计的分析
这种情况下,分析的数据源小,分析的脚本就是在线执行的SQL,分析的结果不用传输,结果的展示就在页面上,整个流程一条龙
4、数据量大了,无法在线分析了,咋办呢
这个时候,数据量已经大的无法用在线执行SQL的形式进行统计分析了
这个时候顺应时代的东西产生了(当然还有其他的,我就知道这个呵呵),数据离线数据工具hadoop出来了
这个时候,你的数据以文件的形式存在,可能各个属性是逗号分隔的,数据条数有十几个亿
这时候你可能需要构建