大数据技术1.什么是数据挖掘,什么是机器学习:什么是机器学习关注的问题:计算机程序如何随着经验积累自动提高性能;研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能;通过输入和输出,来训练一个模型。2.大数据分析系统层次结构:应用层、算法层、系统软件层、基础设施层3.传统的机器学习流程预处理-》特征提取-》特征选择-》再到推理-》预测或者识别。手工地选取特征是一件非常费力、启发式(需要专业知识)的方法,如果数据被很好的表达成了特征,通常线性模型就能达到满意的精度。4.大数据分析的主要思想方法4.1三个思维上的转变关注全集(不是随机样本而是全体数据):面临大规模数据时,依赖于采样分析;统计学习的目的——用尽可能少的数据来证实尽可能重大的发现;大数据是指不用随机分析这样的捷径,而是采用大部分或全体数据。关注概率(不是精确性而是概率):大数据的简单算法比小数据的复杂算法更有效关注关系(不是因果关系而是相关关系):建立在相关关系分析法基础上的预测是大数据的核心,相关关系的核心是量化两个数据值之间的数理关系,关联物是预测的关键。4.2数据创新的思维方式可量化是数据的核心特征(将所有可能与不可能的信息数据化);挖掘数据潜在的价值是数据创新的核心;三类最有价值的信息:位置信息、信令信息以及网管和日志。数据混搭为创造新应用提供了重要支持。数据坟墓:提供数据服务,其他人都比我聪明!数据废气:是用户在线交互的副产品,包括了浏览的页面,停留了多久,鼠标光标停留的位置、输入的信息。4.3大数据分析的要素大数据“价值链”构成:数据、技术与需求(思维);数据的价值在于正确的解读。5.数据化与数字化的区别数据化:将现象转变为可制表分析的量化形式的过程;数字化:将模拟数据转换成使用0、1表示的二进制码的过程6.基于协同过滤的推荐机制基于协同过滤的推荐(这种机制是现今应用最为广泛的推荐机制)——基于模型的推荐(SVM、聚类、潜在语义分析、贝叶斯网络、线性回归、逻辑回归)余弦距离(又称余弦相似度):表示是否有相同的倾向欧几里得距离(又称欧几里得相似度):表示绝对的距离这种推荐方法的优缺点:它不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可理解的;推荐是开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好。数据稀疏性问题,大量的用户只是评价了一小部分的项目,而大多数的项目是没有进行评分;冷启动问题,新物品和新用户依赖于用户历史偏好数据的多少和准确性,一些特殊品味的用户不能给予很好的推荐。7.机器学习:构建复杂系统的可能方法/途径机器学习使用场景的核心三要素:存在潜在模式、不容易列出规则并编程实现、有历史的数据8.机器学习的基础算法之PLA算法和Pocket算法(贪心PLA)感知器——线性二维分类器,都属于二分类算法二者的区别:迭代过程有所不同,结束条件有所不同;证明了线性可分的情况下是PLA和Pocket可以收敛。9.机器为什么能学习学习过程被分解为两个问题:能否确保Eout(g)与Ein(g)足够相似?能否使Ein(g)足够小?规模较大的N,有限的dVC,较低的Ein条件下,学习是可能的。切入点:利用具体特征的,基于有监督方式的,批量学习的分析,进行二分类预测。10.VC维:11.噪声的种类:12.误差函数(损失函数)13.给出数据计算误差14.线性回归算法:简单并且有效的方法,典型公式线性回归的误差函数:使得各点到目标线/平面的平均距离最小!15.线性回归重点算法部分:16.线性分类与线性回归的区别:17.过拟合:原因:模型复杂太高,噪声,数据量规模有限。解决方案:使用简单的模型,数据清洗(整形),正则化,验证。18.正则化19.分布式文件系统:一种通过网络实现文件在多台主机上进行分布式存储的文件系统;分布式文件系统一般采用C/S模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求;客户端和服务器可以通过设置访问权限来限制请求方对底层数据存储块的访问。20.计算机集群结构:分布式文件系统把文件分布存储到多个计算机节点上,成千上万...