机器学习面试题目

下载本文档

阅读 192
下载 23
格式 pdf
大小 1.07 MB
约17页
2025-03-04 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/17页

2/17页

3/17页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/17

文本预览下载提示常见问题

1、有监督学习和无监督学习的区别有监督学习：对具有标记的训练样本进行学习，以尽可能对训练样本集外的数据进行分类预测。（LR,SVM,BP,RF,GBDT）无监督学习：对未标记的样本进行训练学习，比发现这些样本中的结构知识。(KMeans,DL) 2、正则化正则化是针对过拟合而提出的，以为在求解模型最优的是一般优化最小的经验风险，现在在该经验风险上加入模型复杂度这一项（正则化项是模型参数向量的范数），并使用一个 rate比率来权衡模型复杂度与以往经验风险的权重，如果模型复杂度越高，结构化的经验风险会越大，现在的目标就变为了结构经验风险的最优化，可以防止模型训练过度复杂，有效的降低过拟合的风险。奥卡姆剃刀原理，能够很好的解释已知数据并且十分简单才是最好的模型。过拟合如果一味的去提高训练数据的预测能力，所选模型的复杂度往往会很高，这种现象称为过拟合。所表现的就是模型训练时候的误差很小，但在测试的时候误差很大。产生的原因过拟合原因： 1. 样本数据的问题。样本数量太少；抽样方法错误，抽出的样本数据不能有效足够代表业务逻辑或业务场景。比如样本符合正态分布，却按均分分布抽样，或者样本数据不能代表整体数据的分布；样本里的噪音数据干扰过大 2. 模型问题模型复杂度高、参数太多决策树模型没有剪枝权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征. 解决方法 1. 样本数据方面。增加样本数量，对样本进行降维，添加验证数据抽样方法要符合业务场景清洗噪声数据 2. 模型或训练问题控制模型复杂度，优先选择简单的模型，或者用模型融合技术。利用先验知识，添加正则项。L1 正则更加容易产生稀疏解、L2 正则倾向于让参数 w 趋向于0. 4、交叉验证不要过度训练，最优化求解时，收敛之前停止迭代。决策树模型没有剪枝权值衰减 5、泛化能力泛化能力是指模型对未知数据的预测能力 6、生成模型和判别模型 1. 生成模型：由数据学习联合概率分布 P(X,Y)，然后求出条件概率分布 P(Y|X)作为预测的模型，即生成模型：P(Y|X)= P(X,Y)/ P(X)。（朴素贝叶斯、Kmeans）生成模型可以还原联合概率分布 p(X,Y)，并且有较快的学习收敛速度，还可以用于隐变量的学习 2. 判别模型：由数据直接学习决策函数 Y=f(X)或者条件概率分布 P(Y|X)作为预测的模型，即判别模型。（k 近邻、决策树、SVM）直接面对预测，往往...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容