机器学习之用Python从零实现贝叶斯分类器

下载本文档

阅读 154
下载 15
格式 pdf
大小 565 KB
约18页
2025-03-04 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/18页

2/18页

3/18页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/18

文本预览下载提示常见问题

机器学习之用 Python从零实现贝叶斯分类器关于朴素贝叶斯朴素贝叶斯算法是一个直观的方法，使用每个属性归属于某个类的概率来做预测。你可以使用这种监督性学习方法，对一个预测性建模问题进行概率建模。给定一个类，朴素贝叶斯假设每个属性归属于此类的概率独立于其余所有属性，从而简化了概率的计算。这种强假定产生了一个快速、有效的方法。给定一个属性值，其属于某个类的概率叫做条件概率。对于一个给定的类值，将每个属性的条件概率相乘，便得到一个数据样本属于某个类的概率。我们可以通过计算样本归属于每个类的概率，然后选择具有最高概率的类来做预测。通常，我们使用分类数据来描述朴素贝叶斯，因为这样容易通过比率来描述、计算。一个符合我们目的、比较有用的算法需要支持数值属性，同时假设每一个数值属性服从正态分布（分布在一个钟形曲线上），这又是一个强假设，但是依然能够给出一个健壮的结果。预测糖尿病的发生本文使用的测试问题是“皮马印第安人糖尿病问题”。这个问题包括 768 个对于皮马印第安患者的医疗观测细节，记录所描述的瞬时测量取自诸如患者的年纪，怀孕和血液检查的次数。所有患者都是 21 岁以上（含 21 岁）的女性，所有属性都是数值型，而且属性的单位各不相同。每一个记录归属于一个类，这个类指明以测量时间为止，患者是否是在 5 年之内感染的糖尿病。如果是，则为 1，否则为 0。机器学习文献中已经多次研究了这个标准数据集，好的预测精度为 70%-76%。下面是pima-indians.data.csv 文件中的一个样本，了解一下我们将要使用的数据。注意：下载文件，然后以.csv 扩展名保存（如：pima-indians-diabetes.data.csv）。查看文件中所有属性的描述。 Py thon 1 2 3 4 5 6,148,72,35,0,33.6,0.627,50,1 1,85,66,29,0,26.6,0.351,31,0 8,183,64,0,0,23.3,0.672,32,1 1,89,66,23,94,28.1,0.167,21,0 0,137,40,35,168,43.1,2.288,33,1 朴素贝叶斯算法教程教程分为如下几步： 1.处理数据：从 CSV 文件中载入数据，然后划分为训练集和测试集。 2.提取数据特征：提取训练数据集的属性特征，以便我们计算概率并做出预测。 3.单一预测：使用数据集的特征生成单个预测。 4.多重预测：基于给定测试数据集和一个已提取特征的训练数据集生成预测。 5.评估精度：评估对于测试数据集的预测精度作为...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

机器学习之用Python从零实现贝叶斯分类器

机器学习之用 Python从零实现贝叶斯分类器关于朴素贝叶斯朴素贝叶斯算法是一个直观的方法，使用每个属性归属于某个类的概率来做预测

你可以使用这种监督性学习方法，对一个预测性建模问题进行概率建模

给定一个类，朴素贝叶斯假设每个属性归属于此类的概率独立于其余所有属性，从而简化了概率的计算

这种强假定产生了一个快速、有效的方法

给定一个属性值，其属于某个类的概率叫做条件概率

对于一个给定的类值，将每个属性的条件概率相乘，便得到一个数据样本属于某个类的概率

我们可以通过计算样本归属于每个类的概率，然后选择具有最高概率的类来做预测

通常，我们使用分类数据来描述朴素贝叶斯，因为这样容易通过比率来描述、计算

一个符合我们目的、比较有用的算法需要支持数值属性，同时假设每一个数值属性服从正态分布（分布在一个钟形曲线上），这又是一个强假设，但是依然能够给出一个健壮的结果

预测糖尿病的发生本文使用的测试问题是“皮马印第安人糖尿病问题”

这个问题包括 768 个对于皮马印第安患者的医疗观测细节，记录所描述的瞬时测量取自诸如患者的年纪，怀孕和血液检查的次数

所有患者都是 21 岁以上（含 21 岁）的女性，所有属性都是数值型，而且属性的单位各不相同

每一个记录归属于一个类，这个类指明以测量时间为止，患者是否是在 5 年之内感染的糖尿病

如果是，则为 1，否则为 0

机器学习文献中已经多次研究了这个标准数据集，好的预测精度为 70%-76%

下面是pima-indians

csv 文件中的一个样本，了解一下我们将要使用的数据

注意：下载文件，然后以

csv 扩展名保存（如：pima-indians-diabetes

查看文件中所有属性的描述

Py thon 1 2 3 4 5 6,148,72,35,0,33

小辰8 + 关注: 实名认证
内容提供者

出售各种资料和文档

收藏店铺进入空间

机器学习之用Python从零实现贝叶斯分类器

机器学习之用Python从零实现贝叶斯分类器

您可能关注的文档

相关文档

热门下载

相关标签