数据挖掘-基础知识-笔记汇总4:数据预处理-特征选择

tech2024-07-18  61

课程笔记第三篇

本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。

第二章第五节-特征选择:

特征选择就是要找出那些数据中好的属性。

熵entropy:

衡量一个系统或者变量的值的不确定性,不确定性越大,熵值越大。

例如,如果男人和女人都是50%的话,这个时候是最不确定一个人的性别的,这个时候的熵值就会很高。

在0.5时熵最高为1,0或者1的时候熵值是最低的。

信息增益information gain:

当你知道一个额外的属性的时候,你对这个系统的不确定性降多少,就叫信息增益,原来的熵减去现在的熵,差值就是信息增益。越大越好,说明这个属性的效能越高,决策树时会用到。

特征属性子集搜索:

暴力列举法;

分支定界法(分支界限法?):需要有个单调假设(比如某个子集一定比这个子集的子集要好),才能剪枝。

最优列举;但是要注意把最优的属性合一起不一定是最好的属性集(组合爆炸);

一系列贪婪算法:

A.    序列前向选择( SFS , Sequential Forward Selection )

算法描述:特征子集X从空集开始,每次选择一个特征x加入特征子集X,使得特征函数J( X)最优。简单说就是,每次都选择一个使得评价函数的取值达到更优的特征加入,是一种简单的贪心算法。

算法评价:缺点是只能加入特征而不能去除特征。例如:特征A完全依赖于特征B与C,可以认为如果加入了特征B与C则A就是多余的。假设序列前向选择算法首先将A加入特征集,然后又将B与C加入,那么特征子集中就包含了多余的特征A。

B.    序列后向选择( SBS , Sequential Backward Selection )

算法描述:从特征全集O开始,每次从特征集O中剔除一个特征x,使得剔除特征x后评价函数值达到最优。

算法评价:序列后向选择与序列前向选择正好相反,它的缺点是特征只能去除不能加入。

另外,SFS与SBS都属于贪心算法,容易陷入局部最优值。

 

一些优化算法( Optimization Algorithms):

stimulated annealing 模拟退火;

Tabu Search 禁忌搜索;

genetic algorithm 遗传算法;

#跳脱出局部最优#

 

最新回复(0)