电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

大数据复习提纲

大数据复习提纲_第1页
1/16
大数据复习提纲_第2页
2/16
大数据复习提纲_第3页
3/16
第 1 页 共 16 页 1、 线性判别函数的正负和数值大小的几何意义 正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。 2、 感知器算法特点 收敛性:经过算法的有限次迭代运算后,求出了一个使所有样本都能正确分类的 W,则称算法是收敛的。感知器算法是在模式类别线性可分条件下才是收敛的。 感知器算法只对线性可分样本有收敛的解,对非线性可分样本集会造成训练过程的震荡,这也是它的缺点。 3、 聂曼-皮尔逊判决准则、最小最大判决准则等区别 聂曼-皮尔逊判决准则主要用于某一种判决错误较另一种判决错误更为重要情况; 最小最大判别准则主要用于先验概率未知的情况。 4、 马式距离较之于欧式距离的优点 优点:马氏距离不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。由标准化数据和中心化数据(即原始数据与均值之差)计 算出的二 点之间的马氏距离相 同 。马氏距离还可以 排 除 变 量之间的相 关性的干 扰 。 缺点:夸 大了变 化微 小的变 量的作 用。受协 方 差矩 阵 不稳定 的影响,马氏距离并 不总 是能顺 利 计 算出。尺 度 不变 性;考 虑 了模式的分布 5、 关联 规 则的经典 算法有哪 些 Apriori 算法;FP-tree;基 于划 分的算法 Apriori 算法、GRI 算法、Carma 6、 分类的过程或 步 骤 答 案 一:ppt 上 的 1、模型 构 建 (归 纳 ) 通 过对训练集合 的归 纳 ,建 立 分类模型 。 2、预 测应 用(推 论 ) 根 据建 立 的分类模型 ,对测试 集合 进 行 测试 。 答 案 二 :老 师 版 本的 训练样本的收集 训练集的预 处 理 、模型 的选 择 、模型 的训练(问 老 师 后理 解整 理 ) 7、 分类评 价 标准 第 2 页 共 16 页 1)正确率(accuracy) 就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好; 2)错误率(error rate) 错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以 accuracy =1 - error rate; 3)灵敏度(sensitive) sensitive = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力; 4)特效度(specificity) specificity = TN/N, 表示的是所有负例中被分对的比例,衡量...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

大数据复习提纲

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部