数据处理过程风险控制分析 摘要:文章通过分析现阶段市场主流大数据处理方式,及该流程下易产生的数据失真原因和导致的后果,提出相应的有针对性的处理方式,从而讨论大数据处理过程中的风险控制可行性,并对未来用户数据隐私保护时代和海量数据背景下如何增强数据有效性收集提出部分设想。 关键词:大数据挖掘;黑天鹅;样本免疫;血字数据 1 大数据处理现状 目前行业内大数据常用的处理流程可以概括为四步,分别是数据采集、导入和预处理、统计分析以及挖掘。1.1 数据采集。大数据的采集是通过多个数据库介质来接收发自客户端的数据(随着智能手机的普及,App 端口采集已经成为主要来源),且数据采集者可以通过这些数据库来进行简单的查询和处理工作。在大数据的采集过程中,其主要特点和挑战是并发数高访问量在峰值时达到上百万或千万级别,如“天猫双 11”和春运抢票以及各种网购平台促销时的“秒杀”活动,都要求采集端部署大量数据库才能支撑,负载均衡和分片处理将是采集端设计的重点考量范围。1.2 导入预处理。很多业内流行的做法是在采集端进行前端数据导入的大型分布式汇总,且在分布式储存群中进行数据的清洗和和预处理,甚至嵌入流式计算步骤。此步骤要注意的是百兆、千兆每秒的数据量处理难度较大。 1.3 统计分析。传统统计与分析的需求端运用 EMC 的GreenPlum、Oracle 的 Exadata,以及基于 MySQL 的列式存储Infobright。实际运用过程中我们常遇到批处理,或者基于半结构化数据的需求,这点应当区分考虑,同时统计、分析步骤涉及到的数据量十分巨大,近年来随着数据采集量的爆炸式增长,系统资源占用往往没有上线,这点硬件布局时应当充分考虑。1.4 挖掘。市场上目前挖掘方式,主要是在现有数据根据客户需求进行基于各种算法的计算,从而起到预测的效果,高级别数据分析的需求,也往往是基于初级算法的嵌套性叠加。往年典型算法有用于聚类的 K-Means、用于统计学习的 SVM 和用于分类的 NaiveBayes,使用工具有 Python、Hadoop 等,该过程的难点往往是精准把握用户数据需求,再基于需求的基础之上进行算法的调整。 2 大数据失真的危害及风险 在处理流程中,采集、导入预处理、统计分析,都可以通过预设数据库完成。而真正用于企业营销、战略、市场分析的核心数据挖掘阶段则是完全无法具体量化,可以说不同行业和不同市场阶段有着截然不同的数据库需求,假如我们挖掘和提炼数据的过程严重或者部分失效,则在...