2024年数据挖掘实训报告VIP免费

下载本文档

阅读 111
下载 14
格式 doc
大小 262.5 KB
约14页
2024-09-10 发布于江苏
收藏
评论
点赞(0)
海报
举报

1/14页

2/14页

3/14页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/14

文本预览下载提示常见问题

项目1：基于sｋlｅarn的数据分类挖掘一、项目任务①熟悉skleａrｎ数据挖掘的基本功能。②进行用朴素贝叶斯、KNＮ、决策树C4.5、ＳVＭ算法进行数据分类分析。二、项目环境及条件ｓｋlearn-０.18.０ｐytｈｏｎ-2.7.13nｕmpy-1.１1.3+mkl－cp27-cp27ｍ-win_aｍｄ64ｓcipy-0．19.0-cp27－ｃp2７m-win_amd6４matplｏtlib-1.５.3－cｐ２7-cｐ27m-wiｎ_amd６4三、实验数据Iris数据集Iris数据集是常用的分类实验数据集,由Fisｈeｒ,１９３6收集整理。Ｉｒis也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集，分为3类,每类5０个数据,每个数据包含４个属性。可通过花萼长度，花萼宽度,花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于(Ｓｅtｏｓａ，Verｓicoｌour，Vｉｒginica）三个种类中的哪一类。Ｄigｉts数据集美国著名数据集NIST的子集,模式识别常用实验数据集，图像属于灰度图像。分辨率为8x8四、项目内容及过程1.读取数据集从sklｅaｒｎ中读取irｉs和digｉtｓ数据集并测试打印fromsklearnimｐorｔｄatasｅtsｉｒis=datasｅtｓ.load_iris（）digiｔs=daｔasｅts.ｌoad＿digits（)print'iris：',iris．data,'\nｄｉgits:'，digits.daｔa打印的数据集存在ｎuｍpy.ndarｒay中，ndａrｒay会自动省略较长矩阵的中间部分。Ｉriｓ数据集的样本数据为其花瓣的各项属性Digits数据集的样本数据为手写数字图像的像素值2.划分数据集引入sklearn的ｍｏｄel_seleｃtion使用ｔraiｎ_test_sｐlit划分dｉgits数据集,训练集和测试集比例为８:2fｒomsｋｌeａrn．model_sｅｌectionimｐoｒｔtrain_ｔesｔ_splitｘ_trａin，x_test,y＿traiｎ,ｙ_test=traiｎ_test_sｐlｉｔ(digits．ｄaｔa，ｄigitｓ．taｒget,ｔｅsｔ＿sｉｚe=0.２)priｎt'x_tｒaiｎ：'，x_traｉn，'\ｎx_ｔeｓｔ:＇,x＿ｔｅｓｔ,'＼ｎy_trａｉn:'，y_tｒain，＇\ｎｙ＿tｅsｔ:'，y_ｔest3.使用ＫNＮ和ＳVM对digｉｔs测试集分类引用sｋlearｎ的sｖｍ.SＶＣ和neｉghｂors.ＫＮeighborsＣlasｓiｆｉｅr模块调用算法，使用clａssｉficaｔion_repoｒｔ查看预测结果的准确率和召回率fｒomｓｋleａrn.mｅtricsiｍpｏrtclassifｉcaｔioｎ＿ｒeportfromsklearnimportｎeighｂorscｌf=neighｂoｒs.KNeighborsClaｓsifiｅｒ()clf．fit(x_ｔrａin，ｙ_ｔraｉn)y＿ｐｒed=cｌf．ｐredicｔ(x＿teｓt)prｉntclassificatiｏn_report(y_test,y_pred）frｏmskleaｒn．svｍimporｔＳＶCcｌｆ=SVC（)ｃlｆ．ｆit（x_ｔrａｉn,y_tｒaｉn)y_pｒｅｄ＝ｃｌf.ｐｒedｉｃt(x_test）ｐrintclasｓｉficａtiｏn_report(y_test,y_pred）KＮN的预测结果:所有数字的预测正确率几乎达到了100%SVM的预测结果：对部分数字的预测误差较大,基本情况不如KNN考虑SVM分类器的特性,在分类前对特征值进行标准化后再分类：ｆromｓklearnimporｔpｒｅｐrｏｃessinｇｍin_mａx_scaｌer＝pｒepｒocessinｇ．MｉnMａｘScaｌer（)x＿traｉn=min_max_scalｅｒ.fｉｔ_tranｓform（x＿tｒain)ｘ＿ｔest＝min＿maｘ＿sｃａler.fit＿ｔrａｎsfoｒm(x_test）标准化数据后ＳVM的预测结果达到了ＫＮＮ的准度：4．使用贝叶斯和决策树对ｉris数据集分类ｆromsklｅarn.ｍodｅl_seｌｅctｉonimpoｒｔtraiｎ＿teｓt_splｉtx_train，x＿tesｔ,y_train,ｙ_tｅsｔ=traｉn_tｅｓt＿sｐｌｉt(iriｓ.data，iris．tａrgｅt,ｔest_sｉzｅ=0．4）ｆroｍsklearn.meｔricsiｍpoｒtclassification_reporｔｆromsｋlｅaｒnｉmportnaive_bａｙesｃlf＝nａｉve＿ｂayes.GausｓiａnＮB（）clf.fｉt(x_trａｉｎ,y_train)y_prｅｄ＝cｌｆ.predicｔ(x_test)priｎtclasｓｉfication＿ｒeｐoｒt(y_ｔeｓt,y＿prｅd)frｏmsklearnｉmpｏrttreecｌf=ｔree.DecisioｎTrｅeＣlａssifier(）clｆ．fit(x_ｔrain,ｙ_traｉn)y_ｐｒｅｄ＝ｃlf．preｄict(x_test)ｐrintcｌaｓsｉficatioｎ＿report（ｙ_tesｔ,y_prｅd)决策树和贝叶斯都有较好的分类效果五、实验结果分析为什么用svm和ｋnn处理diｇits数据集，用tｒee和bayes处理iris数据集,这是一个经验问题。我们都知道diｇits数据集的每一个特征就是像素点的...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

2024年数据挖掘实训报告

项目1：基于sｋlｅarn的数据分类挖掘一、项目任务①熟悉skleａrｎ数据挖掘的基本功能

②进行用朴素贝叶斯、KNＮ、决策树C4

5、ＳVＭ算法进行数据分类分析

二、项目环境及条件ｓｋlearn-０

０ｐytｈｏｎ-2

13nｕmpy-1

3+mkl－cp27-cp27ｍ-win_aｍｄ64ｓcipy-0．19

0-cp27－ｃp2７m-win_amd6４matplｏtlib-1

3－cｐ２7-cｐ27m-wiｎ_amd６4三、实验数据Iris数据集Iris数据集是常用的分类实验数据集,由Fisｈeｒ,１９３6收集整理

Ｉｒis也称鸢尾花卉数据集,是一类多重变量分析的数据集

数据集包含150个数据集，分为3类,每类5０个数据,每个数据包含４个属性

可通过花萼长度，花萼宽度,花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于(Ｓｅtｏｓａ，Verｓicoｌour，Vｉｒginica）三个种类中的哪一类

Ｄigｉts数据集美国著名数据集NIST的子集,模式识别常用实验数据集，图像属于灰度图像

分辨率为8x8四、项目内容及过程1

读取数据集从sklｅaｒｎ中读取irｉs和digｉtｓ数据集并测试打印fromsklearnimｐorｔｄatasｅtsｉｒis=datasｅtｓ

load_iris（）digiｔs=daｔasｅts

ｌoad＿digits（)print'iris：',iris．data,'\nｄｉgits:'，digits

daｔa打印的数据集存在ｎuｍpy

ndarｒay中，ndａrｒay会自动省略较长矩阵的中间部分

Ｉriｓ数据集的样本数据为其花瓣的各项属性Digits数据集的样本数据为手写数字图像的像素值2

划分数据集引入sklearn的ｍｏｄel_seleｃtion使用ｔraiｎ_test_sｐl

您可能关注的文档

山水人家 + 关注: 实名认证
内容提供者

读万卷书，行万里路。

收藏店铺进入空间

2024年数据挖掘实训报告VIP免费

2024年数据挖掘实训报告

您可能关注的文档

相关文档

热门下载

相关标签