电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

大数据复习要点

大数据复习要点_第1页
1/21
大数据复习要点_第2页
2/21
大数据复习要点_第3页
3/21
第 1 页(共 3 页)1、简述大数据的来源与数据类型大数据的来源非常多,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。2、大数据产生的三个阶段(1)被动式生成数据(2)主动式生成数据(3)感知式生成数据3、大数据处理的基本流程1.数据抽取与集成2.数据分析3.数据解释4、大数据的特征4V1OVolume,Variety,Value,Velocity,On-Line5、适合大数据的四层堆栈式技术架构应用序严玄时決策*内富预测能力■>救摇业功,数据货币化J并析层r日助屎务渤弋、灵涼实时协作、丿•管理层r结构化敕据和 1*结构化敎摇井行处理“餓件可护屣 ri.u第 2 页(共 3 页)甚础二f虚■拟化*网络化、仆布式、横向可护展体绩皓梅1JJ6、大数据的整体技术和关键技术大数据的整体技术一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。7、新一代数据体系的分类新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其归纳到线上行为数据与内容数据两大类别。8、EDC 系统的定义临床试验电子数据采集(ElectricDataCapture,EDC)系统,在临床试验中的应用可以有效解决纸质 CRF 存在的问题。EDC 是通过互联网从试验中心(Sites)直接远程收集临床试验数据的一种数据采集系统。9、EDC 系统的基本功能数据录入、数据导出、试验设计、编辑检查、操作痕迹、系统安全、在线交流、医学编码和支持多语言。10、EDC 系统的优点(1)提高了临床研究的效率,缩短了临床研究周期(2)通过逻辑检查提高了数据质量(3)对研究质量的监测更加方便11、大数据采集的数据来源大数据的三大主要来源为商业数据、互联网数据与传感器数据。12、网络数据采集和处理的四个主要模块第 3 页(共 3 页)网络爬虫(Spider)、数据处理(DataProcess)、URL 队列(URLQueue)和数据(Data)。13、大数据集成在大数据领域中,数据集成技术也是实现大数据方案的关键组件。大数据中的集成是将大量不同类型的数据原封不动的保存在原地,而将处理过程适当的分配给这些数据。这是一个并行处理的过程,当在这些分布式数据上执行请求后,需要整合并返回结果。1...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

大数据复习要点

您可能关注的文档

wxg+ 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部