Lasso方法是在普通线性模型中增加 L 1 L_1 L1惩罚项,有助于降低过拟合风险,更容易获得稀疏解,求得的 θ \theta θ会有更少的非零分量。与岭回归的不同在于,此约束条件使用了绝对值的一阶惩罚函数代替了平方和的二阶函数。
Lasso回归原式: arg min θ ∣ ∣ A θ − y ∣ ∣ 2 2 + λ ∣ ∣ θ ∣ ∣ 1 \mathop{\arg\min}\limits_{\theta}||A\theta-y||_2^2+\lambda||\theta||_1 θargmin∣∣Aθ−y∣∣22+λ∣∣θ∣∣1
公式转换为: arg min θ 1 2 ∣ ∣ A θ − y ∣ ∣ 2 2 + 1 2 λ ∣ ∣ W θ ∣ ∣ 2 2 \mathop{\arg\min}\limits_{\theta}\frac{1}{2}||A\theta-y||_2^2+\frac{1}{2}\lambda||W\theta||_2^2 θargmin21∣∣Aθ−y∣∣22+21λ∣∣Wθ∣∣22
= arg min θ 1 2 ( A θ − y ) T ( A θ − y ) + 1 2 λ ( W θ ) T W θ \mathop{\arg\min}\limits_{\theta}\frac{1}{2}(A\theta-y)^T(A\theta-y)+\frac{1}{2}\lambda(W\theta)^TW\theta θargmin21(Aθ−y)T(Aθ−y)+21λ(Wθ)TWθ
上式对求导,
= 1 2 ( 2 A T A θ − 2 A T y ) + λ W T W θ =\frac{1}{2}(2A^TA\theta-2A^Ty)+\lambda W^TW\theta =21(2ATAθ−2ATy)+λWTWθ
= A T A θ − A T y + λ W T W θ =A^TA\theta-A^Ty+\lambda W^TW\theta =ATAθ−ATy+λWTWθ
令求导结果等于0,
θ = ( A T A + λ W T W ) − 1 A T y , 其 中 w i = 1 ∣ e i ∣ + ϵ , ϵ 是 一 个 接 近 于 0 的 数 ( 例 1 e − 5 ) \theta=(A^TA+\lambda W^TW)^{-1}A^Ty, 其中w_i=\frac{1}{\sqrt{|e_i|}+\epsilon},\epsilon 是一个接近于0的数(例1e-5) θ=(ATA+λWTW)−1ATy,其中wi=∣ei∣ +ϵ1,ϵ是一个接近于0的数(例1e−5)
数据集的大小为(867,897),数据一共有867个样本,每个样本有896个属性,数据最后一列为标签,表示此样本属于某个人的,数据集一共有38个人的人脸数据。测试样本为,每人抽取两个人脸数据作为测试样本,即数据集表示为[A1, A2, …, A75, A76],y从总的数据集中随机抽选一个。
用lasso回归函数求解数据集的稀疏表示:
理论公式如下: θ = ( A T A + λ W T W ) − 1 A T y , \theta=(A^TA+\lambda W^TW)^{-1}A^Ty, θ=(ATA+λWTW)−1ATy,
其 中 w i = 1 ∣ e i ∣ + ϵ , ϵ 是 一 个 接 近 于 0 的 数 ( 例 1 e − 5 ) 其中w_i=\frac{1}{\sqrt{|e_i|}+\epsilon},\epsilon 是一个接近于0的数(例1e-5) 其中wi=∣ei∣ +ϵ1,ϵ是一个接近于0的数(例1e−5)
其中W为系数矩阵。
第一种情况:
图一 seta数据表示图输出结果:
当前y对应人的系数表示:
[[0.81046264]]
[[0.24147223]]
预测值: 16(稀疏表示系数最大处)
真实值: 16
Seta稀疏表示具有稀疏性,预测结果满足预期要求。原因是,测试的样本y能够由当前的测试样本很好的表示出来,对于选取的测试集样本,能够获得具有代表性的稀疏表示。
另一种情况:
图二 seta数据表示图输出结果:
当前y对应人的系数表示:
[[0.6094047]]
[[-0.30913317]]
预测值: 8(稀疏表示系数最大处)
真实值: 19
Seta稀疏表示表现出的稀疏性不强,预测结果不满足预期要求。产生的原因可能是某个个体的样本数量太少,测试集样本太过于特殊,还不足以能用稀疏表示来代表这个个体。解决结果是增加每个个体的训练样本,能让训练出来的稀疏表示更加具有代表性。
选择不同的lambda作为惩罚项系数,在本代码中,选择lambda = [10000, 10, 0.01, 0.00001]这四种情况进行比较。此次实验每人选取两个样本共78张图片作为测试集y,剩下的691个样本作为数据集。
输出结果:
本测试结果选取第一张图片的输出结果,Lambda值分别选取10000, 10, 0.01, 0.00001,选取seta稀疏表示的前100个系数,实验运行结果如下图所示,
图三 不同lambda下的稀疏表示seta结论:
Lasso的主要思想是构造一个一阶惩罚函数获得一个精炼的模型, 通过最终确定一些变量的系数为0进行特征筛选。Lasso的复杂程度由λ来控制,λ越大对变量较多的线性模型的惩罚力度就越大,会压缩一些回归系数,从而最终获得一个变量较少,较为精炼的模型。当λ较大时,获得的稀疏表示就越稀疏。在上述实验过程中,选择一个较大的lambda值即可获得一个理想的seta结果输出。