大数据与社会科学概论刘涛雄大纲1.大数据概论2.大数据得主要技术手段3.数据分析技术:机器学习概论4.“大数据社会科学”何为大数据?(Big Data)特点:大。超过常用软件工具得收集、管理与处理数据得能力范围得数据集。但就是,也不就是简单地以规模论大,而就是相对得复杂程度。假如以现在计算机得能力:针对简单查询(如关键词查询),数据量为 TB 或 PB 就是即可称为大数据。针对复杂查询(如数据挖掘),数据量为 GB 至 TB 时即可称为大数据。大数据特性:4VVolume:体量巨大Velocity:速度极快Variety:模态多样Veracity:真伪难辨无所不在得数据生成源:1.全社会(发言、网状结构)、2.网络用户(浏览行为、搜索行为)、3.管理者(发票、医院记录、交通检测)、4.商业机构(手机记录、信用卡记录、保险记录、商场购物记录)、5.健康数据(电子医疗设备记录、医疗检测)、6.卫星信息系统(物联网)我们都有哪些数据?文本信息中文分词多媒体时间序列(高频数据)空间数据网页数据社会网络大数据与社会科学第一层次:基于数据得知识发现(Knowledge Discover in Database, KDD)有理论假设得好处:可以节约信息量,缩小搜寻范围。当数据猎取与处理能力足够强,KDD 也能体现其优势。例子:Hedonometrics and TwitterHow Obama’s Data Crunchers helped him win活跃领域:数据挖掘(data mining)政治学、经济学、社会学、心理学、管理学如:price index预测(forcasting)与现测(nowcasting)如:对 google trends 得利用社会计算(putational Social Sciences)putation about(of) the people:如社会情感putation for the people:如信任计算、风险计算putation by the people:如主体参加、群体智能大数据得主要技术手段关键技术Hadoop:分布式管理平台来自 Google 得设计思想:一个分布式文件系统与并行执行环境(HDFS 与 MapReduce)方便用户处理海量数据云计算机器学习计算机针对特定任务(Tasks)与效果评价指标(Performance Measurement),基于已有经验(Experiences),自动地不断改进算法,并随着 E 得扩大不断提高对 T 得执行效果(P)T:任务P:效果评价E:经验集(训练集)训练与预测最佳预测:Bias-Variance 平衡一般来说,模型越复杂,变量越多,Bias2越低,但 var(f(x))越大所以对于模型选择,一个很重要得准则就是降维。大数据对社会科学得机遇与挑战机遇数据来源极大拓展猎取信息速度大大加快计算能...