Whole-Body Human Pose Estimation in the Wild

tech2022-07-14  160

财大气粗的商汤出的第一个全身关键点数据集,直接对COCO数据集进行了扩展,将脸上的68个点,躯干的23个点(body17+feet6),以及手的23个点全部进行了标注,并将label进行了开源,地址:https://github.com/jin-s13/COCO-WholeBody,果然是大佬风范,佩服三连~

除了很🐂的推出了第一个large-scale whole body pose dataset,还针对如何训练whole body pose提出了ZoomNet,网络结构如下所示:

因为face hand body三者的尺度信息在同一张图片上相差太大,因此如果使用一个网络直接输出这三个不同部位的结果当然是不够准确的。为了解决这个问题,并且能够end-to-end training,提出的ZoomNet相当于3个子网络的堆叠,训练及检测流程如下:

图片首先经过一个FeatureNet进行特征提取,并分别得到两个不同尺度的featuremap F1(1/2)和F2(1/4),后面的BodyNet FaceHead HandHead共用这一个FeatureNet,相当于检测任务里的BackboneBodyNet直接使用F2做输入,经过类似HrNet的结果进行特征提取后,要生成23个body kps及face/hand boxes。face/hand boxes都是用2个角点+1个中心点表示的(CornerNet),所以最终BodyNet要得到38个关键点(23+5*3)BodyNet得到hand/face的box后,在F1和F2上进行相应位置的Crop,然后从F1得到的feature resize到64x64,F2得到的feature resize到32x32,接着将这2个feature送进去FaceHead/HandHead网络,这两个网络同样是类似HRNet的结果,最终得到face/hand的输出(输出未64x64大小)这样,就可以做到end-to-end的training/inference

ZoomNet结果很感人,无论是在单独的任务(hand/face/body)还是一起(whole body)都比当前的sota方法要好:

这篇文章最大的贡献还是那个数据集,直接在COCO的数据集上标注,之后whole body的任务又可以往前推一大步了~

最新回复(0)