机器学习笔记—模式识别与智能计算(二)特征的选择与优化

tech2024-11-12  29

系列文章:

机器学习笔记—模式识别与智能计算(一)模式识别概述

同类文章:

暂无

 

1、特征空间优化设计问题

         特征选择和优化的基本任务是从许多特征中找出那些最有效的特征,对现有特征进行评估并通过现有特征产生更好的特征。主要过程如下:

(1)样本特征库初步分析

         对原始数据抽取对区别不同类别最为重要的特征,舍去对分类并无多大贡献的特征

(2)样本筛选处理

         去除离群点/噪声点,减少离群点/噪声点对分类器的干扰

(3)特征筛选处理

         分析相关性,考察每个特征因子与目标有无关系、特征因子之间是否相关,去除相关的特征因子。样本数N与特征数n的比值应足够大,通常是5到10倍的关系

(4)特征评估

         分析筛选处理后的特征对分类效果能否提高,能否拉大不同类别之间的距离,通常只能从这个分类识别系统获得的分类结果给予评价

(5)特征提取

         用较少的特征对样本进行描述,以达到降低特征空间维数的目的

(6)特征空间分布分析

         进一步掌握样本库总体分布情况,若发现效果不理想应再次考察样本库并重新提取特征或增加特征、进一步删除离群点/噪声点

2、样本特征库初步分析(步骤1)

         对于样本数量N和特征数目n,两类分类问题要求N/n>=3;线性或非线性回归问题要求N>>n。

         在无法获得足够多样本情况下,应考虑使n减小:通过特征筛选去除对目标影响小的特征;将若干特征组合成数目较少的特征。

         对样本特征库做初步分析的主要工作就是衡量各类别之间的可分性,常用KNN做近邻分析,即以每个样本点与其多数最近邻属于同类与否作为判据;如果样本在特征空间中分散,则需要选择泛化能力强的分类器如神经网络、支持向量机等。

3、样本筛选处理(步骤2)

         判断离群点/噪声点的方法:样本特征呈近线性关系时,用稳健回归方法确定离群点/噪声点;样本特征非线性关系时,通常将近邻多半为异类的样本去除,或将目标值与各近邻相差特别大的样本去除,或将特征压缩后做回归分析

4、特征筛选处理(步骤3)

         单特征相关分析:逐个分析单个特征与目标值之间的相关性,计算目标值t与特征xj之间的相关系数r(t,xj)。类似可做双特征相关分析、三特征相关分析。

         作为初步考查手段,相关分析方法(特别是结合划分的子空间)很有用,因为分析的是原始特征,若能找到规律则其物理或化学意义的诠释比较简单明了。其局限性在于去除相关系数小的特征的做法对于样本分布不均匀的特征库不可靠,但可以肯定的是,若xi与t或xj的相关系数很大,则xi肯定对t或xj有较大影响;若相关系数小则要参照其他信息才能决定是否可去除。

         特征筛选的原理是:一个原有n+1个特征的特征库,去除一个特征得到n个特征的新特征库;若去除的特征贡献的信息小于带来的噪声量,即去除后信息量未显著减少,则该特征可去除。

         选择最优特征组使可分离性判据J(x)达到最大值即具有最大可分性需要穷举算法,现有算法都是用非穷举算法获取次优特征组,即每次从现存特征组中增加或去掉某些特征的方法直至特征数为n,特征数从0逐步增加的方法称为自下而上法,特征数从D开始逐步减少为n的方法称为自下而上方法。

5、特征评估(步骤4)

         类别可分离性判据:通过反复选择不同的特征组合,定量分析比较优化结果,判断所得到的特征维数及所使用的特征是否对分类最有利的定量检验分类性能准则。

       特征评估方法分为基于距离的可分性判据即以计算样品在特征空间离散程度为基础的准则和基于概率密度分布的准则。

         基于距离的可分性判据假设:给定一组表示联合分布的训练集,假设每一类别的模式向量在观察空间中占据不同的区域,即各类样本之间的距离越大、类内散度越小,则类别的可分性越好。

         距离相关衡量指标:第i类均值向量、样本集总体均值向量、第i类协方差、样本总体协方差、第i类类内散布矩阵Si、总体类内散布矩阵Sw、总体类间散布矩阵SB、总体散布矩阵ST,类内散布矩阵表征各样本点围绕其均值的散布情况,类间散布矩阵表征各类间的距离分布情况且依赖于样本类别属性和划分,而总体散布矩阵则与样本类别属性和划分无关。

         距离相关的可分离性判据:均方误差/迹准则J=tr(Sw)或det(Sw)、类间距离最大准则J=tr(SB)或det(SB)、行列式准则J=|Sw|。

6、特征提取—基于主成分分析(步骤5)

         主成分分析是把多个特征映射为少数几个综合特征进行降维的统计分析方法,通过找出几个综合特征因子代表原来众多的特征尽可能反映原来的信息并保持彼此互不相关。

         假设X为n维度特征随机向量,Y是n维度新特征组成的向量,Y=CX=(y1,y2,...,yn),其中y1,y2,...,yn彼此不相关且不失一般性其对应方差分别为λ1>λ2>...>λn,则y1,y2,...,yn分别为第1、第2、...、第n个主分量。第i个主分量的贡献率为λi/Σλk,选择累计贡献率达到一定阈值要求如80%的前m个主分量代替原始数据进行分析达到降维目的。

7、特征空间分布分析(步骤6)

         对于样本的特征空间描述,主要分析特征的集中位置、分散程度、数据的分布为正态还是偏态,多维数据各个分量之间的相关性。

(1)特征空间描述:一维特征、二维特征、多维特征

 

 

 

(2)特征空间分布分析

         假设总体X的分布函数为F(X),当X为离散分布时其总体分布可由概率分布P{X=Xi}描述,当X为连续分布时其总体分布可由概率密度f(X)描述,常见的连续总体分布有正态分布、对数正态分布、指数分布和Gamma分布。

         对于多维正态分布,其性质有:a.分布由参数均值向量μ和协方差矩阵Σ决定;b.正态分布的不相关性(E{xi*xj}=E{xi}*E{xj})等价于独立性(p(xi*xj)=p(xi)*p(xj)),对于一般的分布独立性是比不相关性更强的条件;c.多维正态分布的边缘分布和条件分布仍是正态分布;d.正态分布经过线性变换后仍是正态分布。

         实际中多维正态分布N(μ,Σ)的参数μ和Σ常常未知,需要通过样本来估计,假设X1,X2,...,XN是从总体X中取出的一个样本,通过构造似然函数和最大似然函数估计可推导出u的最大似然估计为均值向量,Σ的最大似然估计为(N-1)*S/N。而通常对于任意总体,样本的均值向量和协方差矩阵S是总体均值向量μ、总体协方差矩阵Σ的无偏估计。

8、手写数字特征提取与分析

(1)手写数字特征提取

         搜索手写数字图片数据区域,找出手写数字的上、下、左、右边界;将数字区域平均分为5*5的小区域,计算每个小区域中黑像素所占比例,第一行区域的5个比例值对应特征1~5,第二行区域的5个比例值对应特征6~10,一幅图片样本总计5行,可提取25维特征。

(2)手写数字特征空间分布分析

         手写数字总体参数估计:假设手写数字总体的特征分布服从正态分布N(μ,Σ)但是总体参数未知,采用最大似然法,根据一组N个样本求出μ、Σ的最大似然估计值。

         总体参数好的估计值判别标准:无偏性、有效性和一致性。

         总体参数μ、Σ的区间估计:假设手写数字总体的特征分布服从正态分布N(μ,Σ),对于预先给定的显著性水平α,可用一组N个样本的均值x和标注差s来估计总体参数μ、Σ在置信水平1-α下的置信区间。

         卡方检验:统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

         卡方检验用于总体分布函数的检验时,基于对数据按其取值范围进行分组后计算频数的基础上,考虑每个区间的实际频数{vi}与理论频数{pi}的差异做出判断,该差异使用统计量卡方值。检验问题为:H0:F(x)=F0(x);H1:F(x)不是F0(x),对于手写数字识别总体,原假设H0:总体分布函数为正态分布N(μ,Σ),根据统计量卡方值使用卡方检验该假设是否可信。当样本容量N充分大且原假设H0为真时,卡方统计量近似服从自由度为l-k-1的卡方分布,对于一组N个样本计算样本的统计量卡方值,若该值小于显著水平α下、自由度为l-k-1的卡方分布值,即实际频数与理论频数差异小,则接受原假设H0。

         为了分析手写数字样本的空间分布情况,采用行投影法将25个特征压缩为5个特征,进一步采用主成分分析法,取特征值最大的主分量作为每个样品的特征,最后进行正态分布检验。

最新回复(0)