一文搞定（二）—— 贝叶斯线性回归

tech2022-10-05 170

【参考资料】 1.B站：机器学习-白板推导系列(十九)-贝叶斯线性回归(Bayesian Linear Regression)

1 Introduction

贝叶斯线性回归的模型与普通线性回归一致，即 Data: $\small \{(x_i,y_i)\}^N_{i=1}$ （N 组数据）where $\small x_i\in \R^p,y_i\in \R$ Model: $\small f(x)=w^Tx=x^Tw \\ y=f(x)+\varepsilon \\ \varepsilon \backsim N(0,\sigma^2)$

但她们的区别在于，普通线性回归（频率派），旨在求解一个最佳的 $\small w$ ，并将其视作一个未知的常量。而贝叶斯线性回归将 $\small w$ 视为一个概率分布

2 贝叶斯方法 Baysian Method

贝叶斯线性回归所用到方法也称贝叶斯方法贝叶斯方法主要由两部分组成，Inference + Prediction （1）Inference，求解 $\small w$ 的后验分布 $\small P(w|Data)$ （2）Prediction，依据后验分布 $\small P$ 以及 $\small x^*$ ，预测 $\small f(x^*)\;or\;y^*$ 下文将分别对这两部分进行数学推导，并在每个推导的结尾给出公式化的结论

2.1 推导 Inferenece

Inference 的目的即求解后验 $\small P(w|X,Y)$

$\small x_i,y_i\;scalar \\ w\;vector(p,1) \\ x\;vector(p,1) \\ X\;matrix(N,p) \\ Y\;vector(N,1)$

$\small \begin{aligned} P(Y|X,w) &= \Pi_{i=1}^N\frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N}\exp(-\frac{1}{2\sigma^2}(y_i-w^Tx_i)^2) \\ &\propto \exp(-\frac{1}{2\sigma^2}\Sigma_{i=1}^N(y_i-w^Tx_i)^2) \\ &= \exp(-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)) \\ \end{aligned}$

$\small P(w)=\exp(-\frac{1}{2}w^T\Sigma_p^{-1}w)$

$\small \begin{aligned} P(w|X,Y) &= \frac{P(Y|X,w)P(w|X)}{\int P(Y|X,w)P(w)dw} \\ &\propto P(Y|X,w)P(w|X) \\ &= P(Y|X,w)P(w) \\ &\propto \exp(-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)-\frac{1}{2}w^T\Sigma_p^{-1}w) \\ &= \exp(-\frac{1}{2\sigma^2}(Y^TY-2Y^TXw+w^TX^TXw)-\frac{1}{2}w^T\Sigma_p^{-1}w) \\ &= \exp(-\frac{1}{2}(w^T(\sigma^{-2}X^TX+\Sigma^{-1}_p)w-2\sigma^{-2}Y^TXw+C)) \end{aligned}$

至此，由于 $\small P(w|X,Y)$ 正比于 $\small P(Y|X,w),P(w)$ 这俩正态分布的乘积，可得 $\small P(w|X,Y)$ 也是一个形如 $\small N(\mu_w,\Sigma_w)$ 的正态分布

因此下一步要做的，是根据该正态分布的表达式来求解 $\small \mu_w,\Sigma_w$ 。但由于直接求解貌似毫无头绪，我们不妨先观察一个普通的多元高斯分布，如下

$\small P(x)=N(\mu,\Sigma)\backsim\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))$

$\small \begin{aligned} -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) &= -\frac{1}{2}(x^T\Sigma^{-1}-\mu^T\Sigma^{-1})(x-\mu) \\ &= -\frac{1}{2}(x^T\Sigma^{-1}x-\mu^T\Sigma^{-1}x- x^T\Sigma^{-1}\mu+C) \\ &= -\frac{1}{2}(x^T\Sigma^{-1}x-2\mu^T\Sigma^{-1}x+C) \\ \end{aligned}$ 分析最后一个等号的 RHS，可知该式的二次项系数为 $\small\Sigma^{-1}$ ，一次项系数为 $\small-2\mu^T\Sigma^{-1}$ 。据此我们可以大胆地猜测，正态分布 $\small P(w|X,Y)$ 的表达式同样也满足这一规律，即二次项系数为 $\small\Sigma^{-1}_w$ ，一次项系数为 $\small-2\mu^T_w\Sigma^{-1}_w$

回顾先前计算得到的 $\small P(w|X,Y)\propto\exp(...)$ ，该式的

二次项系数为

\small \sigma^{-2}X^TX+\Sigma_p^{-1}

由此可得

\small \Sigma_w^{-1}=\sigma^{-2}X^TX+\Sigma_P^{-1}

（令

\small A=\Sigma_w^{-1}

）一次项系数为

\small -2\sigma^{-2}Y^TX

由此可得

\small \mu^T_w \Sigma^{-1}_w=\mu^T_wA=\sigma^{-2}Y^TX \\ \mu^T_w=\sigma^{-2}Y^TXA^{-1} \\ \mu_w=\sigma^{-2}A^{-T}X^TY=\sigma^{-2}A^{-1}X^TY

（

A

为对称矩阵）

总结

$\small P(w|X,Y)=N(\mu_w,\Sigma_w)$

$\small\mu_w=\sigma^{-2}A^{-1}X^TY \\ \Sigma_w=A^{-1} \\ A=\sigma^{-2}X^TX+\Sigma_P^{-1}$

2.2 推导 Prediction

Process: Given $\small x^*$ ，solve $\small f(x^*)\;or\;y^*$ Model: $\small f(x)=w^Tx=x^Tw \\ y=f(x)+\varepsilon \\ \varepsilon \backsim N(0,\sigma^2)$

2.2.1 求 $\small f(x^*)$ (noise-free)

$\small let\;Data=(X,Y) \\ \begin{aligned} since\;w &\backsim N(\mu_w,\Sigma_w),f(x^*)=(x^*)^Tw \\ (x^*)^Tw &\backsim N((x^*)^T\mu_w,(x^*)^T\Sigma_wx^*) \end{aligned} \\ therefore,f(x)=P(f(x^*)|Data,x^*)=N((x^*)^T\mu_w,(x^*)^T\Sigma_wx^*)$

2.2.2 求 $\small y^*$ (noisy)

$\small y^*=f(x^*)+\varepsilon=N((x^*)^T\mu_w,(x^*)^T\Sigma_wx^*+\sigma^2)$

最新回复(0)