模型的前端压缩

tech2023-11-09  87

一、知识蒸馏

利用迁移学习的方法,将一个复杂精度高的老师模型,与一个小但是目标与老师精度一样高的学生模型进行结合。

1. 对整个网络进行知识蒸馏

知识蒸馏的简图: 数据生成器就是我们框架产生的batch,我们将图片输入到教师模型和学生模型中,先计算出教师模型的loss然后通过教师模型的loss引导学生模型的loss,从而使学生模型的loss下降。下面是详细的图解: 将训练集图片分别放入到老师网络(已经训练好的)和学生网络(未训练)中,获得他们预测的概率。我们的目的就是要使得我们学生网络的预测结果与我们学生网络的预测结果尽可能相似,于是我们会使用的是一个KL散度

KL散度是描述两个概率分布P和Q差异的一种方法。它是非对称的,在信息论中, D ( P ∣ ∣ Q ) D(P||Q) D(PQ)表示当用概率分布Q来拟合真实分布P

由于KL散度是一个双向的公式,但是我们的只是蒸馏中需要学生向老师学习,因此只使用一个就可以了

下面是loss计算方式: p 1 p_1 p1表示老师网络预测的概率, p 2 p_2 p2学生网络预测的概率, L c 2 L_{c2} Lc2表示学生网络本身计算的loss D K L ( p 2 ∥ p 1 ) = ∑ i = 1 N ∑ m = 1 M p 2 m ( x i ) log ⁡ p 2 m ( x i ) p 1 m ( x i ) D_{K L}\left(\boldsymbol{p}_{2} \| \boldsymbol{p}_{1}\right)=\sum_{i=1}^{N} \sum_{m=1}^{M} p_{2}^{m}\left(\boldsymbol{x}_{i}\right) \log \frac{p_{2}^{m}\left(\boldsymbol{x}_{i}\right)}{p_{1}^{m}\left(\boldsymbol{x}_{i}\right)} DKL(p2p1)=i=1Nm=1Mp2m(xi)logp1m(xi)p2m(xi) 我们的总loss L Θ 2 = L C 2 + D K L ( p 1 ∥ p 2 ) L_{\Theta_{2}}=L_{C_{2}}+D_{K L}\left(\boldsymbol{p}_{1} \| \boldsymbol{p}_{2}\right) LΘ2=LC2+DKL(p1p2) 我们通过这个总loss对知识蒸馏的训练过程进行指导 在pytorch这个loss可以使用代码(size_average表示的是是否需要除以种类数):

torch.nn.KLDivLoss(size_average=None,reduce = None,reduction='elementwise_mean') loss = torch.nn.KLDivLoss(size_average=False) L = loss(预测结果,真实结果)/batch_size

2. 对feture map进行知识蒸馏:

通过提取两个网络的feature map,借助MMDLoss(最大均值差异)将两者进行结合从而引导模型训练,简而言之,就是讲老师的分布与学生的分布进行温和地结合过程。 M M D ( X , Y ) = ∥ 1 n ∑ i = 1 n ϕ ( x i ) − 1 m ∑ j = 1 m ϕ ( y j ) ∥ H 2 M M D(X, Y)=\left\|\frac{1}{n} \sum_{i=1}^{n} \phi\left(x_{i}\right)-\frac{1}{m} \sum_{j=1}^{m} \phi\left(y_{j}\right)\right\|_{H}^{2} MMD(X,Y)=n1i=1nϕ(xi)m1j=1mϕ(yj)H2 ϕ ( ) \phi() ϕ()将数据映射到再生希尔伯特空间(RKHS)中进行度量

详细可参考https://blog.csdn.net/a529975125/article/details/81176029

二、紧致的网络结构

直接设计又小又快又好的网络,就是紧致网络设计的方法 常见的紧致网络有:

ShuffleNet:使用通道打乱的方式实现通道信息融合,打乱过程使用reshape实现不需要参数MobileNet V1:DWconv+PconvMobileNet V2:逆残差SqueezeNet:用1*1卷积,集合下采样降低通道数
最新回复(0)