【参考资料】 1.B站:机器学习-白板推导系列(十九)-贝叶斯线性回归(Bayesian Linear Regression)
贝叶斯线性回归的模型与普通线性回归一致,即 Data: { ( x i , y i ) } i = 1 N \small \{(x_i,y_i)\}^N_{i=1} {(xi,yi)}i=1N(N 组数据)where x i ∈ R p , y i ∈ R \small x_i\in \R^p,y_i\in \R xi∈Rp,yi∈R Model: f ( x ) = w T x = x T w y = f ( x ) + ε ε ∽ N ( 0 , σ 2 ) \small f(x)=w^Tx=x^Tw \\ y=f(x)+\varepsilon \\ \varepsilon \backsim N(0,\sigma^2) f(x)=wTx=xTwy=f(x)+εε∽N(0,σ2)
但她们的区别在于,普通线性回归(频率派),旨在求解一个最佳的 w \small w w,并将其视作一个未知的常量。而贝叶斯线性回归将 w \small w w 视为一个概率分布
贝叶斯线性回归所用到方法也称贝叶斯方法 贝叶斯方法主要由两部分组成,Inference + Prediction (1)Inference,求解 w \small w w 的后验分布 P ( w ∣ D a t a ) \small P(w|Data) P(w∣Data) (2)Prediction,依据后验分布 P \small P P 以及 x ∗ \small x^* x∗,预测 f ( x ∗ ) o r y ∗ \small f(x^*)\;or\;y^* f(x∗)ory∗ 下文将分别对这两部分进行数学推导,并在每个推导的结尾给出公式化的结论
Inference 的目的即求解后验 P ( w ∣ X , Y ) \small P(w|X,Y) P(w∣X,Y)
x i , y i s c a l a r w v e c t o r ( p , 1 ) x v e c t o r ( p , 1 ) X m a t r i x ( N , p ) Y v e c t o r ( N , 1 ) \small x_i,y_i\;scalar \\ w\;vector(p,1) \\ x\;vector(p,1) \\ X\;matrix(N,p) \\ Y\;vector(N,1) xi,yiscalarwvector(p,1)xvector(p,1)Xmatrix(N,p)Yvector(N,1)
P ( Y ∣ X , w ) = Π i = 1 N 1 ( 2 π ) N 2 σ N exp ( − 1 2 σ 2 ( y i − w T x i ) 2 ) ∝ exp ( − 1 2 σ 2 Σ i = 1 N ( y i − w T x i ) 2 ) = exp ( − 1 2 σ 2 ( Y − X w ) T ( Y − X w ) ) \small \begin{aligned} P(Y|X,w) &= \Pi_{i=1}^N\frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N}\exp(-\frac{1}{2\sigma^2}(y_i-w^Tx_i)^2) \\ &\propto \exp(-\frac{1}{2\sigma^2}\Sigma_{i=1}^N(y_i-w^Tx_i)^2) \\ &= \exp(-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)) \\ \end{aligned} P(Y∣X,w)=Πi=1N(2π)2NσN1exp(−2σ21(yi−wTxi)2)∝exp(−2σ21Σi=1N(yi−wTxi)2)=exp(−2σ21(Y−Xw)T(Y−Xw))
P ( w ) = exp ( − 1 2 w T Σ p − 1 w ) \small P(w)=\exp(-\frac{1}{2}w^T\Sigma_p^{-1}w) P(w)=exp(−21wTΣp−1w)
P ( w ∣ X , Y ) = P ( Y ∣ X , w ) P ( w ∣ X ) ∫ P ( Y ∣ X , w ) P ( w ) d w ∝ P ( Y ∣ X , w ) P ( w ∣ X ) = P ( Y ∣ X , w ) P ( w ) ∝ exp ( − 1 2 σ 2 ( Y − X w ) T ( Y − X w ) − 1 2 w T Σ p − 1 w ) = exp ( − 1 2 σ 2 ( Y T Y − 2 Y T X w + w T X T X w ) − 1 2 w T Σ p − 1 w ) = exp ( − 1 2 ( w T ( σ − 2 X T X + Σ p − 1 ) w − 2 σ − 2 Y T X w + C ) ) \small \begin{aligned} P(w|X,Y) &= \frac{P(Y|X,w)P(w|X)}{\int P(Y|X,w)P(w)dw} \\ &\propto P(Y|X,w)P(w|X) \\ &= P(Y|X,w)P(w) \\ &\propto \exp(-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)-\frac{1}{2}w^T\Sigma_p^{-1}w) \\ &= \exp(-\frac{1}{2\sigma^2}(Y^TY-2Y^TXw+w^TX^TXw)-\frac{1}{2}w^T\Sigma_p^{-1}w) \\ &= \exp(-\frac{1}{2}(w^T(\sigma^{-2}X^TX+\Sigma^{-1}_p)w-2\sigma^{-2}Y^TXw+C)) \end{aligned} P(w∣X,Y)=∫P(Y∣X,w)P(w)dwP(Y∣X,w)P(w∣X)∝P(Y∣X,w)P(w∣X)=P(Y∣X,w)P(w)∝exp(−2σ21(Y−Xw)T(Y−Xw)−21wTΣp−1w)=exp(−2σ21(YTY−2YTXw+wTXTXw)−21wTΣp−1w)=exp(−21(wT(σ−2XTX+Σp−1)w−2σ−2YTXw+C))
至此,由于 P ( w ∣ X , Y ) \small P(w|X,Y) P(w∣X,Y) 正比于 P ( Y ∣ X , w ) , P ( w ) \small P(Y|X,w),P(w) P(Y∣X,w),P(w) 这俩正态分布的乘积,可得 P ( w ∣ X , Y ) \small P(w|X,Y) P(w∣X,Y) 也是一个形如 N ( μ w , Σ w ) \small N(\mu_w,\Sigma_w) N(μw,Σw) 的正态分布
因此下一步要做的,是根据该正态分布的表达式来求解 μ w , Σ w \small \mu_w,\Sigma_w μw,Σw。但由于直接求解貌似毫无头绪,我们不妨先观察一个普通的多元高斯分布,如下
P ( x ) = N ( μ , Σ ) ∽ exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) \small P(x)=N(\mu,\Sigma)\backsim\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) P(x)=N(μ,Σ)∽exp(−21(x−μ)TΣ−1(x−μ))
− 1 2 ( x − μ ) T Σ − 1 ( x − μ ) = − 1 2 ( x T Σ − 1 − μ T Σ − 1 ) ( x − μ ) = − 1 2 ( x T Σ − 1 x − μ T Σ − 1 x − x T Σ − 1 μ + C ) = − 1 2 ( x T Σ − 1 x − 2 μ T Σ − 1 x + C ) \small \begin{aligned} -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) &= -\frac{1}{2}(x^T\Sigma^{-1}-\mu^T\Sigma^{-1})(x-\mu) \\ &= -\frac{1}{2}(x^T\Sigma^{-1}x-\mu^T\Sigma^{-1}x- x^T\Sigma^{-1}\mu+C) \\ &= -\frac{1}{2}(x^T\Sigma^{-1}x-2\mu^T\Sigma^{-1}x+C) \\ \end{aligned} −21(x−μ)TΣ−1(x−μ)=−21(xTΣ−1−μTΣ−1)(x−μ)=−21(xTΣ−1x−μTΣ−1x−xTΣ−1μ+C)=−21(xTΣ−1x−2μTΣ−1x+C) 分析最后一个等号的 RHS,可知该式的二次项系数为 Σ − 1 \small\Sigma^{-1} Σ−1,一次项系数为 − 2 μ T Σ − 1 \small-2\mu^T\Sigma^{-1} −2μTΣ−1。据此我们可以大胆地猜测,正态分布 P ( w ∣ X , Y ) \small P(w|X,Y) P(w∣X,Y) 的表达式同样也满足这一规律,即二次项系数为 Σ w − 1 \small\Sigma^{-1}_w Σw−1,一次项系数为 − 2 μ w T Σ w − 1 \small-2\mu^T_w\Sigma^{-1}_w −2μwTΣw−1
回顾先前计算得到的 P ( w ∣ X , Y ) ∝ exp ( . . . ) \small P(w|X,Y)\propto\exp(...) P(w∣X,Y)∝exp(...),该式的
二次项系数为 σ − 2 X T X + Σ p − 1 \small \sigma^{-2}X^TX+\Sigma_p^{-1} σ−2XTX+Σp−1 由此可得 Σ w − 1 = σ − 2 X T X + Σ P − 1 \small \Sigma_w^{-1}=\sigma^{-2}X^TX+\Sigma_P^{-1} Σw−1=σ−2XTX+ΣP−1(令 A = Σ w − 1 \small A=\Sigma_w^{-1} A=Σw−1 )一次项系数为 − 2 σ − 2 Y T X \small -2\sigma^{-2}Y^TX −2σ−2YTX 由此可得 μ w T Σ w − 1 = μ w T A = σ − 2 Y T X μ w T = σ − 2 Y T X A − 1 μ w = σ − 2 A − T X T Y = σ − 2 A − 1 X T Y \small \mu^T_w \Sigma^{-1}_w=\mu^T_wA=\sigma^{-2}Y^TX \\ \mu^T_w=\sigma^{-2}Y^TXA^{-1} \\ \mu_w=\sigma^{-2}A^{-T}X^TY=\sigma^{-2}A^{-1}X^TY μwTΣw−1=μwTA=σ−2YTXμwT=σ−2YTXA−1μw=σ−2A−TXTY=σ−2A−1XTY( A A A 为对称矩阵)P ( w ∣ X , Y ) = N ( μ w , Σ w ) \small P(w|X,Y)=N(\mu_w,\Sigma_w) P(w∣X,Y)=N(μw,Σw)
μ w = σ − 2 A − 1 X T Y Σ w = A − 1 A = σ − 2 X T X + Σ P − 1 \small\mu_w=\sigma^{-2}A^{-1}X^TY \\ \Sigma_w=A^{-1} \\ A=\sigma^{-2}X^TX+\Sigma_P^{-1} μw=σ−2A−1XTYΣw=A−1A=σ−2XTX+ΣP−1
Process: Given x ∗ \small x^* x∗,solve f ( x ∗ ) o r y ∗ \small f(x^*)\;or\;y^* f(x∗)ory∗ Model: f ( x ) = w T x = x T w y = f ( x ) + ε ε ∽ N ( 0 , σ 2 ) \small f(x)=w^Tx=x^Tw \\ y=f(x)+\varepsilon \\ \varepsilon \backsim N(0,\sigma^2) f(x)=wTx=xTwy=f(x)+εε∽N(0,σ2)
l e t D a t a = ( X , Y ) s i n c e w ∽ N ( μ w , Σ w ) , f ( x ∗ ) = ( x ∗ ) T w ( x ∗ ) T w ∽ N ( ( x ∗ ) T μ w , ( x ∗ ) T Σ w x ∗ ) t h e r e f o r e , f ( x ) = P ( f ( x ∗ ) ∣ D a t a , x ∗ ) = N ( ( x ∗ ) T μ w , ( x ∗ ) T Σ w x ∗ ) \small let\;Data=(X,Y) \\ \begin{aligned} since\;w &\backsim N(\mu_w,\Sigma_w),f(x^*)=(x^*)^Tw \\ (x^*)^Tw &\backsim N((x^*)^T\mu_w,(x^*)^T\Sigma_wx^*) \end{aligned} \\ therefore,f(x)=P(f(x^*)|Data,x^*)=N((x^*)^T\mu_w,(x^*)^T\Sigma_wx^*) letData=(X,Y)sincew(x∗)Tw∽N(μw,Σw),f(x∗)=(x∗)Tw∽N((x∗)Tμw,(x∗)TΣwx∗)therefore,f(x)=P(f(x∗)∣Data,x∗)=N((x∗)Tμw,(x∗)TΣwx∗)
y ∗ = f ( x ∗ ) + ε = N ( ( x ∗ ) T μ w , ( x ∗ ) T Σ w x ∗ + σ 2 ) \small y^*=f(x^*)+\varepsilon=N((x^*)^T\mu_w,(x^*)^T\Sigma_wx^*+\sigma^2) y∗=f(x∗)+ε=N((x∗)Tμw,(x∗)TΣwx∗+σ2)