《Deep Learning》第五章笔记(上)

tech2023-10-27  108

Deep Learning 第五章

1.基本假设(独立同分布~iid)

​ 训练集与数据集的样本独立的由分布函数 p d a t a p_{data} pdata产生

2.估计

p m o d e l ( x ; θ ) p_{model}(x;\theta) pmodel(x;θ)为一族由θ确定的在相同空间上的概率分布。​ 使用这一分布来将输入 x x x映射到实数来估计真实概率分布 p d a t a ( x ) p_{data}(x) pdata(x)

3.最大似然估计(MLE)

​ 定义: θ M L = arg ⁡ max ⁡ θ   p m o d e l ( X ; θ ) = arg ⁡ max ⁡ θ   ∏ i = 1 m p m o d e l ( x ( i ) ; θ ) \theta_{ML}=\arg\max_{\theta} \ p_{model}(\mathbb{X};\theta) =\arg\max_{\theta} \ \prod_{i=1}^mp_{model}(x^{(i)};\theta) θML=argmaxθ pmodel(X;θ)=argmaxθ i=1mpmodel(x(i);θ)​ log形式: arg ⁡ max ⁡ θ ∑ i = 1 m l o g p m o d e l ( x ( i ) ; θ ) \arg\max_{\theta}\sum_{i=1}^mlogp_{model}(x^{(i)};\theta) argmaxθi=1mlogpmodel(x(i);θ)

4.MLE与loss function联系 M L E → 最 小 化 K L 散 度 → 最 小 化 交 叉 熵 → 最 小 化 ( 负 对 数 似 然 组 成 的 ) 损 失 函 数 MLE\to 最小化KL散度\to最小化交叉熵\to 最小化(负对数似然组成的)损失函数 MLEKL()

自信息: I ( x ) = − l o g P ( x ) I(x)=-logP(x) I(x)=logP(x)

香农熵: H ( x ) = E x ∼ P [ I ( x ) ] = − E x ∼ P [ l o g P ( x ) ] H(x)=\mathbb{E}_{x\sim P}[I(x)]=-\mathbb{E}_{x\sim P}[logP(x)] H(x)=ExP[I(x)]=ExP[logP(x)]

H(x)为X=x中所用自信息的均值,故也可以写作 H ( x ) = − ∑ x P ( x ) l o g P ( x ) H(x)=-\sum_xP(x)logP(x) H(x)=xP(x)logP(x)

KL散度定义:对同一随机变量x有两个单独的概率分布P(x)和Q(x),可以用KL散度衡量分布间的差异

D K L ( P ∣ ∣ Q ) = E x ∼ P [ l o g P ( x ) Q ( x ) ] = E x ∼ P [ l o g P ( x ) − l o g ( Q ( x ) ) ] D_{KL}(P||Q)=\mathbb{E}_{x\sim P}[log\frac{P(x)}{Q(x)}]=\mathbb{E}_{x\sim P}[logP(x)-log(Q(x))] DKL(PQ)=ExP[logQ(x)P(x)]=ExP[logP(x)log(Q(x))]

交叉熵定义: H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) , H ( P , Q ) = − E x ∼ P l o g Q ( x ) H(P,Q)=H(P)+D_{KL}(P||Q),H(P,Q)=-\mathbb{E}_{x\sim P}logQ(x) H(P,Q)=H(P)+DKL(PQ),H(P,Q)=ExPlogQ(x)

Q对应定义在的模型上的分布,P对应定义在训练集上的经验分布,可以使用最小化KL散度的方式,来用Q来拟合P,又因为在P确定时,H§为常数,此时最小化KL散度等价于最小化交叉熵。 a r g m i n θ H ( P , Q ) = a r g m i n θ − E x ∼ P l o g Q ( x ) = a r g m a x θ E x ∼ P l o g Q ( x ) 由 上 方 对 数 M L E 定 义 : θ M L = arg ⁡ max ⁡ θ ∑ i = 1 m l o g p m o d e l ( x ( i ) ; θ ) , θ M L 除 以 m 可 以 得 到 a r g m a x θ E x ∼ P ^ d a t a l o g p m o d e l ( x ) , p ^ d a t a 对 应 P , p m o d e l 对 应 Q , a r g m a x θ E x ∼ P ^ d a t a l o g p m o d e l ( x ) = a r g m a x θ E x ∼ P l o g Q ( x ) = a r g m i n θ H ( P , Q ) argmin_{\theta}H(P,Q) = argmin_{\theta}-\mathbb{E}_{x\sim P}logQ(x) =argmax_{\theta}\mathbb{E}_{x\sim P}logQ(x) \\由上方对数MLE定义: \theta_{ML}=\arg\max_{\theta}\sum_{i=1}^mlogp_{model}(x^{(i)};\theta) , \\\theta_{ML}除以m可以得到argmax_{\theta}\mathbb{E}_{x\sim\hat{P}_{data}}logp_{model}(x) ,\\\hat{p}_{data}对应P,p_{model}对应Q,\\argmax_{\theta}\mathbb{E}_{x\sim\hat{P}_{data}}logp_{model}(x) =argmax_{\theta}\mathbb{E}_{x\sim P}logQ(x) =argmin_{\theta}H(P,Q) argminθH(P,Q)=argminθExPlogQ(x)=argmaxθExPlogQ(x)MLEθML=argθmaxi=1mlogpmodel(x(i);θ),θMLmargmaxθExP^datalogpmodel(x),p^dataP,pmodelQ,argmaxθExP^datalogpmodel(x)=argmaxθExPlogQ(x)=argminθH(P,Q) 这里不是很懂 a r g m a x θ E x ∼ P ^ d a t a l o g p m o d e l ( x ) 为 什 么 等 于 a r g max ⁡ θ 1 m ∑ i = 1 m l o g p m o d e l ( x ( i ) ; θ ) argmax_{\theta}\mathbb{E}_{x\sim\hat{P}_{data}}logp_{model}(x) 为什么等于arg\max_{\theta}\frac{1}{m}\sum_{i=1}^mlogp_{model}(x^{(i)};\theta) argmaxθExP^datalogpmodel(x)argmaxθm1i=1mlogpmodel(x(i);θ),似乎是估计时默认 p ^ d a t a \hat{p}_{data} p^data为均匀分布。

最新回复(0)