rpart 包的rpart 函数 Iris 数据集 library(rpart) #加载rpart 包 head(iris) #看看iris 数据集里有哪些变量 iris 以鸢尾花的特征作为数据来源,数据集包含150 个数据,分为3 类,每类50 个数据,每个数据包含4 个属性分别是花萼长度、花萼宽带、花瓣长度、花瓣宽度 用gini 度量纯度 iris
rp1=rpart(Species~
,data=iris,method="class",parms=list(split="gini")) # rpart(formula, data, method, parms,
)得到决策树对象,其中 (1)formula 是回归方程的形式,y~x1+x2+…,iris 一共有5 个变量,因变量是Species,自变量是其余四个变量,所以formula 可以省略为Species~
(2) data 是所要学习的数据集 (3)method 根据因变量的数据类型有如下几种选择:anova(连续型),poisson(计数型),class(离散型),exp(生存型),因为我们的因变量是花的种类,属于离散型,所以method 选择 class (4)parms 可以设置纯度的度量方法,有gini(默认)和 information(信息增益)两种
plot(iris
rp1, uniform=T, branch=0, margin=0
1,main="Classification Tree\nIris Species by Petal and Sepal Length") #plot 的对象是由 rpart 得到的决策树对象,可以把这课决策树画出来,其中 (1) uniform 可取 T,F 两个值,T 表示图形在空间上均匀分配 (2) branch 刻画分支的形状,取值在 0 和 1