时间培训大纲内容第一天上午第一章机器学习及数据挖掘基础原理1)什么是机器学习?2)什么是数据挖掘?3)什么是大数据?4)典型应用5)机器学习基本思想与原理a)假设空间b)主要流派(机械学习/示教学习/类别学习/归纳学习)c)归纳学习(有监督的学习/无监督的学习)6)机器学习应用的一般流程(收集数据/准备数据/分析数据/训练/测试/应用)7)大数据下机器学习算法的特点8)基础知识a)常见文本处理流程(分词、词性标注、实体识别、句法分析、索引)b)向量空间模型c)高维数据降维c)相似度计算方法d)基本概率统计知识9)常用工具第一天下午第二章机器学习及数据挖掘常用技术1)分类方法a)特征选择及降维b)朴素贝叶斯c)决策树d)回归分类器第二天上午第二章机器学习及数据挖掘常用技术e)中心向量法f)KNNg)SVMh)线性分类器2)分类的研究进展及趋势a)大数据下的分类算法b)情感分析c)众包标注第二天下午第二章机器学习及数据挖掘常用技术3)常见聚类算法a)k-Meansb)层次聚类c)DBSCAN4)聚类的研究进展及趋势a)大数据下的聚类算法b)Science上最新发表的聚类算法c)社交网络中的社区发现第三天上午第二章机器学习及数据挖掘常用技术5)回归算法a)线性回归b)Logistic回归c)岭回归d)Lasso回归6)回归的研究进展及趋势a)树回归b)支持向量回归第三天下午第二章机器学习及数据挖掘常用技术7)推荐算法a)基于内容的推荐b)基于协同的推荐8)推荐的研究进展及趋势c)社交化推荐第四天上午第三章数据挖掘实战1大数据基础应用之分类问题:垃圾邮件过滤1)实验环境a)开发语言b)软件包2)问题定义a)目标b)可用数据c)预期输出3)算法分析a)贝叶斯方法回顾b)理论与应用结合c)算法应用过程4)数据预处理a)获取原始数据b)查看数据样本c)编写数据过滤程序d)获取训练样本与测试样本5)特征提取a)使用哪些特征?b)使用什么类型的特征?c)编写特征提取程序6)模型训练a)一般过程b)训练与测试c)参数化模型选择d)关于overfitting模型实验e)回顾第四天下午第三章数据挖掘实战2大数据基础应用之回归问题:美国社区犯罪率预测1)实验环境2)问题定义a)目标b)可用数据c)预期输出3)算法分析a)回归方法回顾b)理论与应用结合c)算法应用过程4)数据预处理a)获取原始数据b)查看数据样本c)编写数据过滤程序d)获取训练样本与测试样本5)模型训练a)一般过程b)训练与测试c)参数化模型选择d)关于overfitting模型实验e)回顾第三章数据挖掘实战3分布式计算:大数据基础设施1)分布式环境简介a)分布式环境的基石b)ApacheHadoop生态环境2)分布式计算举例a)Mapreduce原理b)WordCount:基本案例c)WordMedian:WordCount的深化d)计算π值:统计学与大数据e)分布式NaïveBayes:从单机小数据到分布式大数据第三章数据挖掘实战4大数据应用问题1)大数据在实际场景中面临的问题与挑战2)大数据系统方案选型3)大数据应用常见误区第五天上午实践教学中国科学院计算技术研究所网络数据科学与技术重点实验室网络数据科学与技术重点实验室致力于面向网络空间的大规模数据感知与获取、存储与管理、分析与挖掘等方面的基础理论、关键技术与应用系统的研究工作。研究方向包括网络数据复杂性与数据计算理论、网络空间感知与数据表示、大数据存储与管理、网络数据挖掘和社会化计算、网络数据管理引擎相关技术、大数据与信息安全等,以此支撑国家网络空间战略性任务,并推动网络数据的产业发展。