尽管损失函数得到了发展,但通用网络,不是为人脸识别而设计的网络,在有效训练网络以识别大量的人身份方面还存在困难。不像分类等常见问题,在评估阶段,人脸识别模型会遇到不包含在训练集的新身份。因此,该模型需要在训练集中嵌入近100k个身份,和考虑大量未知的身份。然而,现有的方法大多只是在VGG、ResNet等广泛使用的backbone网之后附加几个全连接的层,而没有对人脸识别的特征进行设计。
Grouping是高效灵活地嵌入大量人员并能简要描述未知人员的关键思想。每个人的脸上都有自己的特点。与此同时,他们在一群人中也有共同之处。在现实世界中,基于group的描述(如有着深邃的黑眼睛和红胡子的男人)涉及到群体中的共同特征,可以帮助缩小候选人范围,尽管它不能确定确切的人。遗憾的是,显式分组需要对海量数据进行手工分类,可能受到人类知识描述范围有限的限制,但通过采用分组的概念,识别网络可以减少搜索空间,灵活地将大量身份嵌入到一个嵌入特征中。
我们定义Latent Groups, 其被内部确定为通过综合考虑面部因素(如头发、姿势,胡子)和非面部因素(如噪声、背景、照明)决定的潜在变量。为了学习Latent Groups,我们引入了一种通过考虑Latent Groups的整体分布来确定group标签的自分布分组方法。在结构上,该方法GroupFace将多个group-aware表征集成到原始的基于实例的表征中去进行人脸识别(即图1将图像这个实例表征和下面的latent groups表征合并成一个Enriched表征)。
简单来说,解决openset时如,何有一个更优秀的人脸识别backbone模型,意思就是假定人脸是可以分组的
Instance-based Representation 是常规的人脸识别流程,中间插入一个分支来(Group Decision)确定当前人脸属于哪个组。 Group-aware Representations 是组表征生成模块(这个组里面的人脸都有什么样的特征)。 最后加权结合(也可以直接用最大概率的那一组表征特征,但是效果不行),最后sum起来做最后的人脸识别任务。
看了一些解读,没看论文,总结来说稍显玄学,这种偏向无监督的分组是否真的能学到可靠的类别,但是效果还是不错的,后续跟进继续研究
概率性人脸嵌入(PFE)是人脸识别领域首个考虑数据不确定性的工作。对于每个样本,它估计其在隐空间中的高斯分布(即概率嵌入),而不是一个点嵌入。具体而言,给定一个预训练好的点嵌入 FR 模型,PFE 将每个样本的点嵌入特征视作该样本高斯概率嵌入的均值,并固定住。接着,PFE 在原本的 FR 模型后接入一个新的分支用来预测其高斯概率嵌入的方差。
PFE 的训练损失函数基于一个新的相似性度量,mutual likelihood score(MLS),它可估计两个高斯分布之间的散度。通过优化 MLS 损失,高质量人脸样本的方差会被预测的较小,噪声人脸图像的方差则会被预测的较大。结合 MLS 度量,PFE 可以有效减少噪声样本 1v1 verification 时造成的误匹配问题,如图(b)所示。
关于人脸概率嵌入 PFE,可以看看ICCV2019这篇论文 ,简单来说就是考虑到图像质量问题,有可能一张确定过的图像并非在潜空间里一对一确定了一个点,有可能眼睛、鼻子因为模糊会偏离当前点一些距离。
尽管有效,PFE依然有所限制,即在训练过程中,PFE 仅仅优化方差的学习,而不优化原本点嵌入的特征(即均值)。因此,数据不确定性并没有被真正用于影响模型中特征的学习;并且,传统的基于余弦相似性的度量方式无法适用于 PFE 模型。而且,PFE 所依赖的 MLS 度量方式复杂度更高,也更耗内存。
也就看了一下解读,感觉看下来有点像是一个偏差和方差的问题,PFE方案,只考虑了方差并没有优化特征编码(所以看到a->b点的位置没变),高质量图像的内聚高,低质量图像的内聚差。但是整体上,噪声图像依旧偏离高质量图像cluster。这里那就需要优化一下编码出来的特征,让噪声图像的点的位置靠cluster更近一些
方法:具体来说,我们将每个样本 x i \mathbf{x}_{i} xi的潜在空间中的表示 z i \mathbf{z}_i zi定义为高斯分布: p ( z i ∣ x i ) = N ( z i ; μ i σ i 2 I ) p\left(\mathbf{z}_{i} \mid \mathbf{x}_{i}\right)=\mathcal{N}\left(\mathbf{z}_{i} ; \mu_{i} \sigma_{i}^{2} \mathbf{I}\right) p(zi∣xi)=N(zi;μiσi2I) 由CNNs预测高斯分布的两个参数(平均值和方差,这俩都与输入相关) μ i = f θ 1 ( x i ) , σ i = f θ 2 ( x i ) \mu_{i}=f_{\theta_{1}}\left(\mathbf{x}_{i}\right), \sigma_{i}=f_{\theta_{2}}\left(\mathbf{x}_{i}\right) μi=fθ1(xi),σi=fθ2(xi), μ i \mu_i μi看作为输入图像的identity信息, σ i \sigma_i σi看作为 μ i \mu_i μi的不确定性。这就使得特征编码不再是点嵌入,而是一个从 N ( z i ; μ i σ i 2 I ) \mathcal{N}\left(\mathbf{z}_{i} ; \mu_{i} \sigma_{i}^{2} \mathbf{I}\right) N(zi;μiσi2I)中随机抽样的过程。
这样理解虽然ok,但是抽样是不可微的,对参数优化有问题。采用类似VAE的方案,首先从标准正态分布中随机采样一个噪声ε,它独立与模型参数之外,然后,本文利用公式2得到等价于采样操作的随机性嵌入表征:
该策略主要针对早期训练阶段的易样本和后期训练阶段的难样本,使其在不同的训练阶段,通过一个课程表自适应地调整简单和困难样本的相对重要性。由于人类学习的本质是先易后难,CurricularFace是以一种适应性的方式将课程学习的理念融入到人脸识别中,这与传统的认知有两处明显不同:
首先,课程设计的自适应性。在传统的课程学习中,样本是按照相应的难易程度排序的,这些难易程度往往是由先验知识定义的,然后固定下来建立课程。而在CurricularFace中,做法是由每个Batch随机抽取样本,通过在线挖掘难样本自适应地建立课程。其次,难样本的重要性是自适应的。一方面,易样本和难样本的相对重要性是动态的,可以在不同的训练阶段进行调整。另一方面,当前Batch中每一个难样本的重要性取决于其自身的难易程度。目前主流的人脸识别方法很少考虑不同层的多尺度局部特征。为此,本文提出了一个分层的金字塔多样化注意力模型。当面部全局外观发生巨大变化时,局部区域将起重要作用。最近的一些工作应用注意力模块来自动定位局部区域。如果不考虑多样性,所学的注意力通常会在一些相似的局部块周围产生冗余的响应,而忽略了其他潜在的有判别力的局部块。此外,由于姿态或表情变化,局部块可能以不同的尺度出现。为了缓解这些挑战,百度团队提出了一种金字塔多样化注意模块,以自动和自适应地学习多尺度的多样化局部表示。更具体地说,开发了金字塔注意力模块以捕获多尺度特征;同时为了鼓励模型专注于不同的局部块,开发了多元化的学习方法。其次,为了融合来自低层的局部细节或小尺度面部特征图,可以使用分层双线性池化来代替串联或添加。
流程图 PDA module LANet简单来看就是一个金字塔多尺度,虽然前面也有不少人注意到局部特征的重要性,但是同一个人的不同人脸往往会因为各种表情光照等变化造成五官变化幅度较大,因此会造成较大的尺度差异,而且其他的方法在注意力机制通常会导致一些相似的区域(但非人脸区域)的响应