一文搞定(二)—— 贝叶斯线性回归

tech2022-10-05  90

【参考资料】 1.B站:机器学习-白板推导系列(十九)-贝叶斯线性回归(Bayesian Linear Regression)

1 Introduction

贝叶斯线性回归的模型与普通线性回归一致,即 Data: { ( x i , y i ) } i = 1 N \small \{(x_i,y_i)\}^N_{i=1} {(xi,yi)}i=1N(N 组数据)where x i ∈ R p , y i ∈ R \small x_i\in \R^p,y_i\in \R xiRp,yiR Model: f ( x ) = w T x = x T w y = f ( x ) + ε ε ∽ N ( 0 , σ 2 ) \small f(x)=w^Tx=x^Tw \\ y=f(x)+\varepsilon \\ \varepsilon \backsim N(0,\sigma^2) f(x)=wTx=xTwy=f(x)+εεN(0,σ2)

但她们的区别在于,普通线性回归(频率派),旨在求解一个最佳的 w \small w w,并将其视作一个未知的常量。而贝叶斯线性回归将 w \small w w 视为一个概率分布

2 贝叶斯方法 Baysian Method

贝叶斯线性回归所用到方法也称贝叶斯方法 贝叶斯方法主要由两部分组成,Inference + Prediction (1)Inference,求解 w \small w w 的后验分布 P ( w ∣ D a t a ) \small P(w|Data) P(wData) (2)Prediction,依据后验分布 P \small P P 以及 x ∗ \small x^* x,预测 f ( x ∗ )    o r    y ∗ \small f(x^*)\;or\;y^* f(x)ory 下文将分别对这两部分进行数学推导,并在每个推导的结尾给出公式化的结论

2.1 推导 Inferenece

Inference 的目的即求解后验 P ( w ∣ X , Y ) \small P(w|X,Y) P(wX,Y)

x i , y i    s c a l a r w    v e c t o r ( p , 1 ) x    v e c t o r ( p , 1 ) X    m a t r i x ( N , p ) Y    v e c t o r ( N , 1 ) \small x_i,y_i\;scalar \\ w\;vector(p,1) \\ x\;vector(p,1) \\ X\;matrix(N,p) \\ Y\;vector(N,1) xi,yiscalarwvector(p,1)xvector(p,1)Xmatrix(N,p)Yvector(N,1)

P ( Y ∣ X , w ) = Π i = 1 N 1 ( 2 π ) N 2 σ N exp ⁡ ( − 1 2 σ 2 ( y i − w T x i ) 2 ) ∝ exp ⁡ ( − 1 2 σ 2 Σ i = 1 N ( y i − w T x i ) 2 ) = exp ⁡ ( − 1 2 σ 2 ( Y − X w ) T ( Y − X w ) ) \small \begin{aligned} P(Y|X,w) &= \Pi_{i=1}^N\frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N}\exp(-\frac{1}{2\sigma^2}(y_i-w^Tx_i)^2) \\ &\propto \exp(-\frac{1}{2\sigma^2}\Sigma_{i=1}^N(y_i-w^Tx_i)^2) \\ &= \exp(-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)) \\ \end{aligned} P(YX,w)=Πi=1N(2π)2NσN1exp(2σ21(yiwTxi)2)exp(2σ21Σi=1N(yiwTxi)2)=exp(2σ21(YXw)T(YXw))

P ( w ) = exp ⁡ ( − 1 2 w T Σ p − 1 w ) \small P(w)=\exp(-\frac{1}{2}w^T\Sigma_p^{-1}w) P(w)=exp(21wTΣp1w)

P ( w ∣ X , Y ) = P ( Y ∣ X , w ) P ( w ∣ X ) ∫ P ( Y ∣ X , w ) P ( w ) d w ∝ P ( Y ∣ X , w ) P ( w ∣ X ) = P ( Y ∣ X , w ) P ( w ) ∝ exp ⁡ ( − 1 2 σ 2 ( Y − X w ) T ( Y − X w ) − 1 2 w T Σ p − 1 w ) = exp ⁡ ( − 1 2 σ 2 ( Y T Y − 2 Y T X w + w T X T X w ) − 1 2 w T Σ p − 1 w ) = exp ⁡ ( − 1 2 ( w T ( σ − 2 X T X + Σ p − 1 ) w − 2 σ − 2 Y T X w + C ) ) \small \begin{aligned} P(w|X,Y) &= \frac{P(Y|X,w)P(w|X)}{\int P(Y|X,w)P(w)dw} \\ &\propto P(Y|X,w)P(w|X) \\ &= P(Y|X,w)P(w) \\ &\propto \exp(-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)-\frac{1}{2}w^T\Sigma_p^{-1}w) \\ &= \exp(-\frac{1}{2\sigma^2}(Y^TY-2Y^TXw+w^TX^TXw)-\frac{1}{2}w^T\Sigma_p^{-1}w) \\ &= \exp(-\frac{1}{2}(w^T(\sigma^{-2}X^TX+\Sigma^{-1}_p)w-2\sigma^{-2}Y^TXw+C)) \end{aligned} P(wX,Y)=P(YX,w)P(w)dwP(YX,w)P(wX)P(YX,w)P(wX)=P(YX,w)P(w)exp(2σ21(YXw)T(YXw)21wTΣp1w)=exp(2σ21(YTY2YTXw+wTXTXw)21wTΣp1w)=exp(21(wT(σ2XTX+Σp1)w2σ2YTXw+C))

至此,由于 P ( w ∣ X , Y ) \small P(w|X,Y) P(wX,Y) 正比于 P ( Y ∣ X , w ) , P ( w ) \small P(Y|X,w),P(w) P(YX,w),P(w) 这俩正态分布的乘积,可得 P ( w ∣ X , Y ) \small P(w|X,Y) P(wX,Y) 也是一个形如 N ( μ w , Σ w ) \small N(\mu_w,\Sigma_w) N(μw,Σw) 的正态分布

因此下一步要做的,是根据该正态分布的表达式来求解 μ w , Σ w \small \mu_w,\Sigma_w μw,Σw。但由于直接求解貌似毫无头绪,我们不妨先观察一个普通的多元高斯分布,如下

P ( x ) = N ( μ , Σ ) ∽ exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) \small P(x)=N(\mu,\Sigma)\backsim\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) P(x)=N(μ,Σ)exp(21(xμ)TΣ1(xμ))

− 1 2 ( x − μ ) T Σ − 1 ( x − μ ) = − 1 2 ( x T Σ − 1 − μ T Σ − 1 ) ( x − μ ) = − 1 2 ( x T Σ − 1 x − μ T Σ − 1 x − x T Σ − 1 μ + C ) = − 1 2 ( x T Σ − 1 x − 2 μ T Σ − 1 x + C ) \small \begin{aligned} -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) &= -\frac{1}{2}(x^T\Sigma^{-1}-\mu^T\Sigma^{-1})(x-\mu) \\ &= -\frac{1}{2}(x^T\Sigma^{-1}x-\mu^T\Sigma^{-1}x- x^T\Sigma^{-1}\mu+C) \\ &= -\frac{1}{2}(x^T\Sigma^{-1}x-2\mu^T\Sigma^{-1}x+C) \\ \end{aligned} 21(xμ)TΣ1(xμ)=21(xTΣ1μTΣ1)(xμ)=21(xTΣ1xμTΣ1xxTΣ1μ+C)=21(xTΣ1x2μTΣ1x+C) 分析最后一个等号的 RHS,可知该式的二次项系数为 Σ − 1 \small\Sigma^{-1} Σ1,一次项系数为 − 2 μ T Σ − 1 \small-2\mu^T\Sigma^{-1} 2μTΣ1。据此我们可以大胆地猜测,正态分布 P ( w ∣ X , Y ) \small P(w|X,Y) P(wX,Y) 的表达式同样也满足这一规律,即二次项系数为 Σ w − 1 \small\Sigma^{-1}_w Σw1,一次项系数为 − 2 μ w T Σ w − 1 \small-2\mu^T_w\Sigma^{-1}_w 2μwTΣw1

回顾先前计算得到的 P ( w ∣ X , Y ) ∝ exp ⁡ ( . . . ) \small P(w|X,Y)\propto\exp(...) P(wX,Y)exp(...),该式的

二次项系数为 σ − 2 X T X + Σ p − 1 \small \sigma^{-2}X^TX+\Sigma_p^{-1} σ2XTX+Σp1 由此可得 Σ w − 1 = σ − 2 X T X + Σ P − 1 \small \Sigma_w^{-1}=\sigma^{-2}X^TX+\Sigma_P^{-1} Σw1=σ2XTX+ΣP1(令 A = Σ w − 1 \small A=\Sigma_w^{-1} A=Σw1 )一次项系数为 − 2 σ − 2 Y T X \small -2\sigma^{-2}Y^TX 2σ2YTX 由此可得 μ w T Σ w − 1 = μ w T A = σ − 2 Y T X μ w T = σ − 2 Y T X A − 1 μ w = σ − 2 A − T X T Y = σ − 2 A − 1 X T Y \small \mu^T_w \Sigma^{-1}_w=\mu^T_wA=\sigma^{-2}Y^TX \\ \mu^T_w=\sigma^{-2}Y^TXA^{-1} \\ \mu_w=\sigma^{-2}A^{-T}X^TY=\sigma^{-2}A^{-1}X^TY μwTΣw1=μwTA=σ2YTXμwT=σ2YTXA1μw=σ2ATXTY=σ2A1XTY A A A 为对称矩阵)

总结

P ( w ∣ X , Y ) = N ( μ w , Σ w ) \small P(w|X,Y)=N(\mu_w,\Sigma_w) P(wX,Y)=N(μw,Σw)

μ w = σ − 2 A − 1 X T Y Σ w = A − 1 A = σ − 2 X T X + Σ P − 1 \small\mu_w=\sigma^{-2}A^{-1}X^TY \\ \Sigma_w=A^{-1} \\ A=\sigma^{-2}X^TX+\Sigma_P^{-1} μw=σ2A1XTYΣw=A1A=σ2XTX+ΣP1

2.2 推导 Prediction

Process: Given x ∗ \small x^* x,solve f ( x ∗ )    o r    y ∗ \small f(x^*)\;or\;y^* f(x)ory Model: f ( x ) = w T x = x T w y = f ( x ) + ε ε ∽ N ( 0 , σ 2 ) \small f(x)=w^Tx=x^Tw \\ y=f(x)+\varepsilon \\ \varepsilon \backsim N(0,\sigma^2) f(x)=wTx=xTwy=f(x)+εεN(0,σ2)

2.2.1 求 f ( x ∗ ) \small f(x^*) f(x) (noise-free)

l e t    D a t a = ( X , Y ) s i n c e    w ∽ N ( μ w , Σ w ) , f ( x ∗ ) = ( x ∗ ) T w ( x ∗ ) T w ∽ N ( ( x ∗ ) T μ w , ( x ∗ ) T Σ w x ∗ ) t h e r e f o r e , f ( x ) = P ( f ( x ∗ ) ∣ D a t a , x ∗ ) = N ( ( x ∗ ) T μ w , ( x ∗ ) T Σ w x ∗ ) \small let\;Data=(X,Y) \\ \begin{aligned} since\;w &\backsim N(\mu_w,\Sigma_w),f(x^*)=(x^*)^Tw \\ (x^*)^Tw &\backsim N((x^*)^T\mu_w,(x^*)^T\Sigma_wx^*) \end{aligned} \\ therefore,f(x)=P(f(x^*)|Data,x^*)=N((x^*)^T\mu_w,(x^*)^T\Sigma_wx^*) letData=(X,Y)sincew(x)TwN(μw,Σw),f(x)=(x)TwN((x)Tμw,(x)TΣwx)therefore,f(x)=P(f(x)Data,x)=N((x)Tμw,(x)TΣwx)

2.2.2 求 y ∗ \small y^* y (noisy)

y ∗ = f ( x ∗ ) + ε = N ( ( x ∗ ) T μ w , ( x ∗ ) T Σ w x ∗ + σ 2 ) \small y^*=f(x^*)+\varepsilon=N((x^*)^T\mu_w,(x^*)^T\Sigma_wx^*+\sigma^2) y=f(x)+ε=N((x)Tμw,(x)TΣwx+σ2)

最新回复(0)