在检察工作中大数据的运用及风险防范近年来,在社会生活、商业发展、科技创新的方方面面互联网应用都起到了不可忽视的作用
互联网的高速发展催生了社会经济发展的新形态
20XX年7月4日,国务院印发《关于积极推进互联网+行动的指导意见》,政府大力推动现代互联网与传统行业结合,加速产业发展,增强行业创新能力
由此可以预见的是,计算机网络应用所产生的数据将会呈现爆发式增长,大数据正在逐步走进我们的日常工作生活中
一、大数据的内涵及其之于检察工作的意义(一)大数据的内涵什么是大数据
麦肯锡全球研究所给出的定义是
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低的四大特征
这其中就提到了大数据的四大特征,通常用4个v(即volume、variety、velocity、value)来表示
数据量大(volume)是指大数据的体量一般要达到pb级(千万亿字节)
以目前检察工作中最经常用到的全国统一业务应用系统来分析,高检院的数据体量能够达到pb级,但是单以一个省份的数据体量来算可能还难以达到pb级,那是不是说检察工作中的大数据仅仅在全国层面存在呢
其实并不能单单以数据体量来衡量是否是大数据,还应当结合大数据的其他几个特征来多维度进行分析
同时大数据的分析不能简单地以应用系统为单位割裂开来,检察业务的各个应用系统都是有关联的,要仔细分析各个业务的内在结合点,统筹分析计算
以高检院目前正在大力建设的电子检务工程来看,以后检察工作中将会出现更多的业务系统、平台系统,这些系统加在一起的数据体量也许就不是我们现在能够想像的了
数据种类多(variety)是指大数据可以表现为数字、文本、视频、音频、图片等多种形式,既包括结构化数据(数字、符号等),也包括非结构化数据(文本、音视频等)和半结构化数据