Cart分类树
基本概念
采用gini系数来代表模型的不纯度,gini系数越小,不纯度越低,代表越有序。每个样本存在多个
特征,每个特征不同的值约定为
类别,每个样本归属哪一类约定为
标签。gini系数定义式如下
假设样本集D分为K个标签,第k个标签的概率为,则该样本集的Gini系数表达式为如果是二分标签问题,样本集中第一个标签的概率为p,则样本集的Gini系数表达式为如果样本集合D根据特征Asdf
CART分类树算法每次仅对
某个特征值的值进行二分,而不是多分,这样CART分类树建立起来的是
二叉树。
建立流程
剪枝原理及流程
缺失值处理
训练过程
推理过程
实际案例
Cart回归树
基本概念
实际案例