大数据与社会科学概论刘涛雄大纲1
大数据概论2
大数据得主要技术手段3
数据分析技术:机器学习概论4
“大数据社会科学”何为大数据
(Big Data)特点:大
超过常用软件工具得收集、管理与处理数据得能力范围得数据集
但就是,也不就是简单地以规模论大,而就是相对得复杂程度
假如以现在计算机得能力:针对简单查询(如关键词查询),数据量为 TB 或 PB 就是即可称为大数据
针对复杂查询(如数据挖掘),数据量为 GB 至 TB 时即可称为大数据
大数据特性:4VVolume:体量巨大Velocity:速度极快Variety:模态多样Veracity:真伪难辨无所不在得数据生成源:1
全社会(发言、网状结构)、2
网络用户(浏览行为、搜索行为)、3
管理者(发票、医院记录、交通检测)、4
商业机构(手机记录、信用卡记录、保险记录、商场购物记录)、5
健康数据(电子医疗设备记录、医疗检测)、6
卫星信息系统(物联网)我们都有哪些数据
文本信息中文分词多媒体时间序列(高频数据)空间数据网页数据社会网络大数据与社会科学第一层次:基于数据得知识发现(Knowledge Discover in Database, KDD)有理论假设得好处:可以节约信息量,缩小搜寻范围
当数据猎取与处理能力足够强,KDD 也能体现其优势
例子:Hedonometrics and TwitterHow Obama’s Data Crunchers helped him win活跃领域:数据挖掘(data mining)政治学、经济学、社会学、心理学、管理学如:price index预测(forcasting)与现测(nowcasting)如:对 google trends 得利用社会计算(putational Social Sciences)putation about(