数据挖掘-基础知识-笔记汇总4：数据预处理-特征选择

tech2024-07-18 120

课程笔记第三篇

本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。

第二章第五节-特征选择：

特征选择就是要找出那些数据中好的属性。

熵entropy：

衡量一个系统或者变量的值的不确定性，不确定性越大，熵值越大。

例如，如果男人和女人都是50%的话，这个时候是最不确定一个人的性别的，这个时候的熵值就会很高。

在0.5时熵最高为1，0或者1的时候熵值是最低的。

信息增益information gain：

当你知道一个额外的属性的时候，你对这个系统的不确定性降多少，就叫信息增益，原来的熵减去现在的熵，差值就是信息增益。越大越好，说明这个属性的效能越高，决策树时会用到。

特征属性子集搜索：

暴力列举法；

分支定界法（分支界限法？）：需要有个单调假设（比如某个子集一定比这个子集的子集要好），才能剪枝。

最优列举；但是要注意把最优的属性合一起不一定是最好的属性集（组合爆炸）；

一系列贪婪算法：

A. 序列前向选择( SFS , Sequential Forward Selection )

算法描述：特征子集X从空集开始，每次选择一个特征x加入特征子集X，使得特征函数J( X)最优。简单说就是，每次都选择一个使得评价函数的取值达到更优的特征加入，是一种简单的贪心算法。

算法评价：缺点是只能加入特征而不能去除特征。例如：特征A完全依赖于特征B与C，可以认为如果加入了特征B与C则A就是多余的。假设序列前向选择算法首先将A加入特征集，然后又将B与C加入，那么特征子集中就包含了多余的特征A。

B. 序列后向选择( SBS , Sequential Backward Selection )

算法描述：从特征全集O开始，每次从特征集O中剔除一个特征x，使得剔除特征x后评价函数值达到最优。

算法评价：序列后向选择与序列前向选择正好相反，它的缺点是特征只能去除不能加入。

另外，SFS与SBS都属于贪心算法，容易陷入局部最优值。

一些优化算法（ Optimization Algorithms）：

stimulated annealing 模拟退火；

Tabu Search 禁忌搜索；

genetic algorithm 遗传算法；

#跳脱出局部最优#

最新回复(0)