数据处理过程风险控制分析

下载本文档

阅读 199
下载 25
格式 doc
大小 19 KB
约12页
2025-04-17 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/12页

2/12页

3/12页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/12

文本预览下载提示常见问题

数据处理过程风险控制分析摘要:文章通过分析现阶段市场主流大数据处理方式，及该流程下易产生的数据失真原因和导致的后果，提出相应的有针对性的处理方式，从而讨论大数据处理过程中的风险控制可行性，并对未来用户数据隐私保护时代和海量数据背景下如何增强数据有效性收集提出部分设想。关键词:大数据挖掘；黑天鹅；样本免疫；血字数据 1 大数据处理现状目前行业内大数据常用的处理流程可以概括为四步，分别是数据采集、导入和预处理、统计分析以及挖掘。1.1 数据采集。大数据的采集是通过多个数据库介质来接收发自客户端的数据（随着智能手机的普及，App 端口采集已经成为主要来源），且数据采集者可以通过这些数据库来进行简单的查询和处理工作。在大数据的采集过程中，其主要特点和挑战是并发数高访问量在峰值时达到上百万或千万级别，如“天猫双 11”和春运抢票以及各种网购平台促销时的“秒杀”活动，都要求采集端部署大量数据库才能支撑，负载均衡和分片处理将是采集端设计的重点考量范围。1.2 导入预处理。很多业内流行的做法是在采集端进行前端数据导入的大型分布式汇总，且在分布式储存群中进行数据的清洗和和预处理，甚至嵌入流式计算步骤。此步骤要注意的是百兆、千兆每秒的数据量处理难度较大。 1.3 统计分析。传统统计与分析的需求端运用 EMC 的GreenPlum、Oracle 的 Exadata，以及基于 MySQL 的列式存储Infobright。实际运用过程中我们常遇到批处理，或者基于半结构化数据的需求，这点应当区分考虑，同时统计、分析步骤涉及到的数据量十分巨大，近年来随着数据采集量的爆炸式增长，系统资源占用往往没有上线，这点硬件布局时应当充分考虑。1.4 挖掘。市场上目前挖掘方式，主要是在现有数据根据客户需求进行基于各种算法的计算，从而起到预测的效果，高级别数据分析的需求，也往往是基于初级算法的嵌套性叠加。往年典型算法有用于聚类的 K-Means、用于统计学习的 SVM 和用于分类的 NaiveBayes，使用工具有 Python、Hadoop 等，该过程的难点往往是精准把握用户数据需求，再基于需求的基础之上进行算法的调整。 2 大数据失真的危害及风险在处理流程中，采集、导入预处理、统计分析，都可以通过预设数据库完成。而真正用于企业营销、战略、市场分析的核心数据挖掘阶段则是完全无法具体量化，可以说不同行业和不同市场阶段有着截然不同的数据库需求，假如我们挖掘和提炼数据的过程严重或者部分失效，则在...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

数据处理过程风险控制分析

数据处理过程风险控制分析

您可能关注的文档

热门下载

相关标签