UA STAT687 线性模型II 最小二乘理论1 普通最小二乘法

tech2022-09-03  124

UA STAT687 线性模型II 最小二乘理论1 普通最小二乘法

参数的OLS估计可估函数与Gauss-Markov定理方差的OLS估计正态线性模型与UMVUE

Legendre与Gauss在19世纪初提出了最小二乘的思想,1900年Markov证明了最小二乘估计的性质良好,在此之后最小二乘就开始广泛应用于线性模型的估计了。对于线性模型 y = X β + ϵ , E ϵ = 0 , C o v ( ϵ ) = σ 2 I y=X\beta + \epsilon,E\epsilon=0,Cov(\epsilon)=\sigma^2I y=Xβ+ϵ,Eϵ=0,Cov(ϵ)=σ2I

其中 y , ϵ y,\epsilon y,ϵ n × 1 n\times 1 n×1的向量, X X X n × p n \times p n×p的Design Matrix,如果 r a n k ( X ) ≥ p rank(X)\ge p rank(X)p,称这个线性模型为满秩的;否则称之为降秩的。这部分我们将介绍普通最小二乘法(OLS)、带约束的最小二乘法、广义最小二乘法(GLS)、稳健性、两步法、最小二乘法的几何解释以及常用数值算法,这一篇介绍OLS。

参数的OLS估计

OLS的思路是 min ⁡ β    Q = ∥ e ∥ 2 = ( y − X β ) ′ ( y − X β ) = y ′ y − 2 y ′ X β + β ′ X ′ X β \min_{\beta}\ \ Q = \left\| e \right\|^2 = (y-X\beta)'(y-X\beta)=y'y-2y'X\beta+\beta'X'X\beta βmin  Q=e2=(yXβ)(yXβ)=yy2yXβ+βXXβ

计算 Q Q Q关于 β \beta β的梯度 ∇ β Q = − 2 X ′ y + 2 X ′ X β = 0 ⇒ X ′ X β = X ′ y \nabla_{\beta} Q=-2X'y+2X'X\beta=0 \Rightarrow X'X\beta = X'y βQ=2Xy+2XXβ=0XXβ=Xy

这个方程叫做OLS的正则方程,求解这个方程可以得到系数的OLS估计,并且基于这个方程还可以获得残差的性质。 X ′ y X'y Xy X ′ X' X的列空间中,因此这个方程是相容的,可以用系数矩阵的广义逆表示解: β ^ = ( X ′ X ) − X ′ y \hat{\beta} = (X'X)^{-}X'y β^=(XX)Xy

计算 Q Q Q关于 β \beta β的Hessian矩阵, H β Q = 2 X ′ X ≥ 0 H_{\beta}Q = 2X'X\ge 0 HβQ=2XX0

因此 β ^ \hat{\beta} β^使 Q Q Q取最小值,并且最小值点唯一。

下面考虑广义逆的确定。假设 r a n k ( X ) ≥ p rank(X)\ge p rank(X)p,则 X ′ X X'X XX是满秩的方阵, β ^ = ( X ′ X ) − 1 X ′ y \hat{\beta} = (X'X)^{-1}X'y β^=(XX)1Xy

假设 r a n k ( X ) < p rank(X)<p rank(X)<p,则 X ′ X X'X XX降秩,它的逆不存在,此时不存在 β \beta β的线性无偏估计。 证明 假设 A y Ay Ay是线性无偏估计,则 E ( A y ) = A X β = β ⇒ A X = I p ⇒ r a n k ( A X ) = p E(Ay) = AX\beta = \beta \Rightarrow AX = I_p \Rightarrow rank(AX)=p E(Ay)=AXβ=βAX=Iprank(AX)=p,然而 r a n k ( A X ) ≤ r a n k ( X ) < p rank(AX)\le rank(X)<p rank(AX)rank(X)<p,这就出现了矛盾。

可估函数与Gauss-Markov定理

如果我们就停留在上一节的讨论,那么OLS的局限性是很强的,因为我们有时并不一定是要关注 β \beta β,也不一定总是需要线性无偏估计。

r a n k ( X ) < p rank(X)<p rank(X)<p这种情况中,称 β \beta β是不可估计,但我们可以考察 β \beta β的某种线性组合(参考RCD的线性组合与contract理论) c ′ β c'\beta cβ,如果 ∃ a \exists a a n × 1 n \times 1 n×1的列向量,使得 E [ a ′ y ] = c ′ β E[a'y]=c'\beta E[ay]=cβ,就称 c ′ β c'\beta cβ是可估函数。显然 c c c属于 X ′ X' X的列空间。如果 c 1 ′ β c_1'\beta c1β c 2 ′ β c_2'\beta c2β中的 c 1 , c 2 c_1,c_2 c1,c2线性无关,则称 c 1 ′ β c_1'\beta c1β c 2 ′ β c_2'\beta c2β线性无关。因为 c c c属于 X ′ X' X的列空间,所以一组线性无关的可估函数最多有 r a n k ( X ) rank(X) rank(X)个,并且据此可以得出 ∃ a \exists a a, c = X ′ a c=X'a c=Xa,进而 c ′ β ^ = c ′ ( X ′ X ) − X ′ y = a ′ X ( X ′ X ) − X ′ y c'\hat{\beta} = c'(X'X)^{-}X'y=a'X(X'X)^{-}X'y cβ^=c(XX)Xy=aX(XX)Xy

参考矩阵分析与多元统计那个系列,包含广义逆的 X ( X ′ X ) − X ′ X(X'X)^{-}X' X(XX)X一项与广义逆的选取无关,这个性质保证 c ′ β ^ c'\hat{\beta} cβ^是一个良定义。另外, E ( c ′ β ^ ) = a ′ X ( X ′ X ) − X ′ E y = a ′ X ( X ′ X ) − X ′ X β = a ′ X β = c ′ β E(c'\hat{\beta}) = a'X(X'X)^{-}X'Ey=a'X(X'X)^{-}X'X\beta=a'X\beta=c'\beta E(cβ^)=aX(XX)XEy=aX(XX)XXβ=aXβ=cβ

说明 c ′ β ^ c'\hat{\beta} cβ^是可估函数 c β c\beta cβ的无偏估计。基于这些分析,我们可以自信地定义 c ′ β ^ c'\hat{\beta} cβ^ c ′ β c'\beta cβ的OLS估计。OLS是具有唯一性的,但在回归那个系列我们讨论过,线性无偏估计不具有唯一性,但Gauss-Markov定理指出OLS估计是最优线性无偏估计(Best Linear Unbiased Estimator,BLUE):

Gauss-Markov定理 c ′ β ^ c'\hat{\beta} cβ^ c ′ β c'\beta cβ的BLUE。 证明 无偏性说明过了,下面讨论最优性(所有线性无偏估计中方差最小)。计算 c ′ β ^ c'\hat{\beta} cβ^的方差: V a r ( c ′ β ^ ) = V a r ( a ′ X ( X ′ X ) − X ′ y ) = σ 2 a ′ X ( X ′ X ) − X ′ X ( X ′ X ) − X ′ a = σ 2 a ′ X ( X ′ X ) − X ′ a = σ 2 c ′ ( X ′ X ) − c Var(c'\hat{\beta}) = Var(a'X(X'X)^{-}X'y) =\sigma^2a'X(X'X)^{-}X'X(X'X)^{-}X'a \\= \sigma^2a'X(X'X)^{-}X'a = \sigma^2 c'(X'X)^{-}c Var(cβ^)=Var(aX(XX)Xy)=σ2aX(XX)XX(XX)Xa=σ2aX(XX)Xa=σ2c(XX)c

假设 b ′ y b'y by c ′ β c'\beta cβ的另一个线性无偏估计,则 E ( b ′ y ) = b ′ X β = c ′ β E(b'y)=b'X\beta=c'\beta E(by)=bXβ=cβ,也就是 c = X ′ b c=X'b c=Xb,计算 V a r ( b ′ y ) = σ 2 b ′ b Var(b'y) = \sigma^2b'b Var(by)=σ2bb

考虑两个方差的差, V a r ( b ′ y ) − V a r ( c ′ β ^ ) = σ 2 [ b ′ b − c ′ ( X ′ X ) − c ] = σ 2 [ b ′ − c ′ ( X ′ X ) − ] [ b − ( X ′ X ) − c ] = σ 2 ∥ b − ( X ′ X ) − c ∥ ≥ 0 Var(b'y)-Var(c'\hat{\beta}) =\sigma^2[b'b-c'(X'X)^{-}c] \\ = \sigma^2[b'-c'(X'X)^{-}][b-(X'X)^{-}c]=\sigma^2 \left\| b-(X'X)^{-}c\right\| \ge 0 Var(by)Var(cβ^)=σ2[bbc(XX)c]=σ2[bc(XX)][b(XX)c]=σ2b(XX)c0

所以OLS是BLUE。

方差的OLS估计

模型的残差为 e = y − X β ^ = ( I − P X ) y e=y-X\hat{\beta}=(I-P_X)y e=yXβ^=(IPX)y,其中 P X = X ( X ′ X ) − X ′ P_X=X(X'X)^{-}X' PX=X(XX)X是到 X X X列空间中的投影矩阵,可以计算 E e ^ = ( I − P X ) X β = X β − X ( X ′ X ) − X ′ X β = 0 C o v ( e ^ ) = σ 2 ( I − P X ) ( I − P X ) ′ = σ 2 ( I − P X ) E\hat{e}=(I-P_X)X\beta=X\beta - X(X'X)^{-}X'X\beta=0 \\ Cov(\hat{e})=\sigma^2(I-P_X)(I-P_X)'=\sigma^2(I-P_X) Ee^=(IPX)Xβ=XβX(XX)XXβ=0Cov(e^)=σ2(IPX)(IPX)=σ2(IPX)

基于这个结果可以构造 σ 2 \sigma^2 σ2的无偏估计为 σ ^ 2 = e ^ ′ e ^ n − r a n k ( X ) \hat\sigma^2=\frac{\hat{e}'\hat{e}}{n-rank(X)} σ^2=nrank(X)e^e^

证明 首先 e ^ ′ e ^ = y ′ ( I − P X ) y \hat{e}'\hat{e}=y'(I-P_X)y e^e^=y(IPX)y,下面计算 E [ e ^ ′ e ^ ] = ( X β ) ′ ( I − P X ) + t r [ ( I − P X ) C o v ( y ) ] = σ 2 t r ( I − P X ) = σ 2 ( n − r a n k ( X ) ) E[\hat{e}'\hat{e}]=(X\beta)'(I-P_X)+tr[(I-P_X)Cov(y)] \\=\sigma^2tr(I-P_X)=\sigma^2(n-rank(X)) E[e^e^]=(Xβ)(IPX)+tr[(IPX)Cov(y)]=σ2tr(IPX)=σ2(nrank(X))

第一行到第二行应用的第一个结论是 ( I − P X ) X = 0 (I-P_X)X=0 (IPX)X=0,用到的第二个结论是如果 E X = μ , C o v ( X ) = Σ EX=\mu,Cov(X)=\Sigma EX=μ,Cov(X)=Σ,则 E [ X ′ A X ] = μ ′ A μ + t r ( A Σ ) E[X'AX]=\mu'A\mu+tr(A\Sigma) E[XAX]=μAμ+tr(AΣ)

下面证明这个恒等式。计算 X ′ A X = ( X − μ + μ ) ′ A ( X − μ + μ ) = ( X − μ ) ′ A ( X − μ ) + μ ′ A ( X − μ ) + ( X − μ ) ′ A μ + μ ′ A μ X'AX=(X-\mu+\mu)'A(X-\mu+\mu) \\ = (X-\mu)'A(X-\mu)+\mu'A(X-\mu)+(X-\mu)'A\mu+\mu'A\mu XAX=(Xμ+μ)A(Xμ+μ)=(Xμ)A(Xμ)+μA(Xμ)+(Xμ)Aμ+μAμ

接下来求期望, E [ μ ′ A ( X − μ ) ] = E [ μ ′ A X ] − μ ′ A μ = 0 E[\mu'A(X-\mu)]=E[\mu'AX]-\mu'A\mu=0 E[μA(Xμ)]=E[μAX]μAμ=0

类似的,第三项的期望也为0,计算第一项的期望, E [ ( X − μ ) ′ A ( X − μ ) ] = E t r [ ( X − μ ) ′ A ( X − μ ) ] = E t r [ A ( X − μ ) ( X − μ ) ′ ] = t r A E [ ( X − μ ) ( X − μ ) ′ ] = t r ( A Σ ) E[(X-\mu)'A(X-\mu)]=Etr[(X-\mu)'A(X-\mu)] \\ = Etr[A(X-\mu)(X-\mu)'] = trAE[(X-\mu)(X-\mu)'] = tr(A\Sigma) E[(Xμ)A(Xμ)]=Etr[(Xμ)A(Xμ)]=Etr[A(Xμ)(Xμ)]=trAE[(Xμ)(Xμ)]=tr(AΣ)

这就完成了整个证明。在回归那个系列给出过另一种证明,但思路类似,都是把数量用trace表示,在利用trace中矩阵乘法满足交换律的技巧。

正态线性模型与UMVUE

需要注意的是OLS对随机误差的分布形式是没有要求的,只有当我们试图对OLS估计量做统计推断的时候,我们才需要考虑随机误差的分布形式。这是OLS与MLE一个很大的区别,MLE为了获得估计量就需要在一开始引入某种特定的分布,再去最大化给定数据在这种分布下的似然。

现在假设随机误差服从正态分布,则OLS有一些优越的性质,这些性质在MATH 564、566、571A的博客中都有过证明了,所以这里就简单归纳一下:

OLS也是MLE,且 c ′ β ^ ∼ N ( c ′ β , σ 2 c ′ ( X ′ X ) − c ) c'\hat{\beta} \sim N(c'\beta,\sigma^2c'(X'X)^{-}c) cβ^N(cβ,σ2c(XX)c) σ 2 \sigma^2 σ2的MLE是 e ^ ′ e ^ / n \hat{e}'\hat{e}/n e^e^/n,且 ( n − r a n k ( X ) ) σ ^ 2 ∼ σ 2 χ n − r a n k ( X ) 2 (n-rank(X))\hat{\sigma}^2\sim \sigma^2 \chi^2_{n-rank(X)} (nrank(X))σ^2σ2χnrank(X)2 c ′ β ^ c'\hat{\beta} cβ^ σ ^ 2 \hat{\sigma}^2 σ^2互相独立 c ′ β ^ c'\hat{\beta} cβ^是唯一的UMVUE
最新回复(0)