1.基本假设(独立同分布~iid)
训练集与数据集的样本独立的由分布函数 p d a t a p_{data} pdata产生2.估计
p m o d e l ( x ; θ ) p_{model}(x;\theta) pmodel(x;θ)为一族由θ确定的在相同空间上的概率分布。 使用这一分布来将输入 x x x映射到实数来估计真实概率分布 p d a t a ( x ) p_{data}(x) pdata(x)3.最大似然估计(MLE)
定义: θ M L = arg max θ p m o d e l ( X ; θ ) = arg max θ ∏ i = 1 m p m o d e l ( x ( i ) ; θ ) \theta_{ML}=\arg\max_{\theta} \ p_{model}(\mathbb{X};\theta) =\arg\max_{\theta} \ \prod_{i=1}^mp_{model}(x^{(i)};\theta) θML=argmaxθ pmodel(X;θ)=argmaxθ ∏i=1mpmodel(x(i);θ) log形式: arg max θ ∑ i = 1 m l o g p m o d e l ( x ( i ) ; θ ) \arg\max_{\theta}\sum_{i=1}^mlogp_{model}(x^{(i)};\theta) argmaxθ∑i=1mlogpmodel(x(i);θ)4.MLE与loss function联系 M L E → 最 小 化 K L 散 度 → 最 小 化 交 叉 熵 → 最 小 化 ( 负 对 数 似 然 组 成 的 ) 损 失 函 数 MLE\to 最小化KL散度\to最小化交叉熵\to 最小化(负对数似然组成的)损失函数 MLE→最小化KL散度→最小化交叉熵→最小化(负对数似然组成的)损失函数
自信息: I ( x ) = − l o g P ( x ) I(x)=-logP(x) I(x)=−logP(x)
香农熵: H ( x ) = E x ∼ P [ I ( x ) ] = − E x ∼ P [ l o g P ( x ) ] H(x)=\mathbb{E}_{x\sim P}[I(x)]=-\mathbb{E}_{x\sim P}[logP(x)] H(x)=Ex∼P[I(x)]=−Ex∼P[logP(x)]
H(x)为X=x中所用自信息的均值,故也可以写作 H ( x ) = − ∑ x P ( x ) l o g P ( x ) H(x)=-\sum_xP(x)logP(x) H(x)=−∑xP(x)logP(x)
KL散度定义:对同一随机变量x有两个单独的概率分布P(x)和Q(x),可以用KL散度衡量分布间的差异
D K L ( P ∣ ∣ Q ) = E x ∼ P [ l o g P ( x ) Q ( x ) ] = E x ∼ P [ l o g P ( x ) − l o g ( Q ( x ) ) ] D_{KL}(P||Q)=\mathbb{E}_{x\sim P}[log\frac{P(x)}{Q(x)}]=\mathbb{E}_{x\sim P}[logP(x)-log(Q(x))] DKL(P∣∣Q)=Ex∼P[logQ(x)P(x)]=Ex∼P[logP(x)−log(Q(x))]
交叉熵定义: H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) , H ( P , Q ) = − E x ∼ P l o g Q ( x ) H(P,Q)=H(P)+D_{KL}(P||Q),H(P,Q)=-\mathbb{E}_{x\sim P}logQ(x) H(P,Q)=H(P)+DKL(P∣∣Q),H(P,Q)=−Ex∼PlogQ(x)
Q对应定义在的模型上的分布,P对应定义在训练集上的经验分布,可以使用最小化KL散度的方式,来用Q来拟合P,又因为在P确定时,H§为常数,此时最小化KL散度等价于最小化交叉熵。 a r g m i n θ H ( P , Q ) = a r g m i n θ − E x ∼ P l o g Q ( x ) = a r g m a x θ E x ∼ P l o g Q ( x ) 由 上 方 对 数 M L E 定 义 : θ M L = arg max θ ∑ i = 1 m l o g p m o d e l ( x ( i ) ; θ ) , θ M L 除 以 m 可 以 得 到 a r g m a x θ E x ∼ P ^ d a t a l o g p m o d e l ( x ) , p ^ d a t a 对 应 P , p m o d e l 对 应 Q , a r g m a x θ E x ∼ P ^ d a t a l o g p m o d e l ( x ) = a r g m a x θ E x ∼ P l o g Q ( x ) = a r g m i n θ H ( P , Q ) argmin_{\theta}H(P,Q) = argmin_{\theta}-\mathbb{E}_{x\sim P}logQ(x) =argmax_{\theta}\mathbb{E}_{x\sim P}logQ(x) \\由上方对数MLE定义: \theta_{ML}=\arg\max_{\theta}\sum_{i=1}^mlogp_{model}(x^{(i)};\theta) , \\\theta_{ML}除以m可以得到argmax_{\theta}\mathbb{E}_{x\sim\hat{P}_{data}}logp_{model}(x) ,\\\hat{p}_{data}对应P,p_{model}对应Q,\\argmax_{\theta}\mathbb{E}_{x\sim\hat{P}_{data}}logp_{model}(x) =argmax_{\theta}\mathbb{E}_{x\sim P}logQ(x) =argmin_{\theta}H(P,Q) argminθH(P,Q)=argminθ−Ex∼PlogQ(x)=argmaxθEx∼PlogQ(x)由上方对数MLE定义:θML=argθmaxi=1∑mlogpmodel(x(i);θ),θML除以m可以得到argmaxθEx∼P^datalogpmodel(x),p^data对应P,pmodel对应Q,argmaxθEx∼P^datalogpmodel(x)=argmaxθEx∼PlogQ(x)=argminθH(P,Q) 这里不是很懂 a r g m a x θ E x ∼ P ^ d a t a l o g p m o d e l ( x ) 为 什 么 等 于 a r g max θ 1 m ∑ i = 1 m l o g p m o d e l ( x ( i ) ; θ ) argmax_{\theta}\mathbb{E}_{x\sim\hat{P}_{data}}logp_{model}(x) 为什么等于arg\max_{\theta}\frac{1}{m}\sum_{i=1}^mlogp_{model}(x^{(i)};\theta) argmaxθEx∼P^datalogpmodel(x)为什么等于argmaxθm1∑i=1mlogpmodel(x(i);θ),似乎是估计时默认 p ^ d a t a \hat{p}_{data} p^data为均匀分布。