《论文阅读》Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning

tech2023-08-02  95

留个笔记自用

Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning

做什么

Cross-modal retrieval between videos and texts,跨模态检索,简单来说就是根据一段描述文字检索出展现出这段文字内容的视频

做了什么

这篇文章将一句话看成三个层级,即全局转局部,首先是Events事件,即整句话,描述的是整句话的结构,然后是actions,即事件句中包含的动词,描述的是事件的动作,最后是entities,即事件中做动作的名词短语,描述的是事件的主语,使用这种方法来保留句子的语义信息和关系。

怎么做

整体模型结构分为三个部分,hierarchical textual encoding分层文本编码模块, hierarchical video encoding分层视频编码模块,video-text matching视频文本匹配模块 首先是第一部分文本编码模块 这部分分为两个小部分,Semantic Role Graph Structure语义图结构,Attention-based Graph Reasoning基于注意力的图推理 首先是第一小部分,输入即为整个网络的初始输入一段text(当然这里是word embedding),将这一段text作为图event,然后再用一个语义角色分析工具提取这段text里的动词和名词,将动词分别作为event节点的子节点,将有关联性的名词节点作为关联的动词的子节点。接下来图结构构造好了,需要给图结构附上对应的vector 这里采用的是Bi-LSTM产生的word-embedding,Wc是输入句子的word embedding矩阵,θ是双向不同的参数,最后结合的方法是取平均 这里的We是训练的参数,这里是利用到了注意力的机制,其实也就是让全局中重要的(出现多的)单词作为全局语义嵌入ge中,而ge就是每个语义节点的embedding。 然后是第二部分分层视频编码模块 获得了上一部分得到的Attention-based graph(语义节点)的图结构后,接下来就是使用GCN的时候了,因为每条边所代表的语义信息不同,这会极大程度地影响权重,比如上面的egg和broken,没有broken的话egg可以有很多形状或者形容的可能,但broken就是对它进行了限制。所以这里定义了两种权重矩阵 其中D是节点表示的维数,K是语义角色的个数,然后再输入进初始的GCN之前,先对其附带上语义的限制,即 这里的gi即每个节点,rij就是连接边的权重 这里的Ni表示节点i所连接的节点域,Wa皆为训练权重 之后 这就是GCN的一次迭代计算,每次迭代更新节点的vector,这就是GCN的基本操作,最后则输出各自的节点。 之后是整体结构的第二大部分hierarchical video encoding部分,这模块的功能则是跟上面的text相反,是对视频进行类似的编码 首先这里定义了三种不同的权重Wev、Wav、Wov,三个权重分别对应着event、action、object 这里f是所用到的视频的一系列帧特征,使用三种不同的权重来区别编码三种类型,对于全局event用的是类似,至于action和entity,则直接以序列形式作为结果 之后是最后一部分视频和文本的特征匹配部分 首先是global match,即全局性匹配,这部分由event来匹配,由于event都被编码成了附带attention的向量类似结构,所以判断两者是否匹配的得分直接用余弦相似度来计算 然后是local匹配,即action和entity之间的匹配,首先先简单计算每一对跨模态之间的相似度 这里v指的是视频得到的序列结果,c是文本得到的序列结果,这里可以理解成为计算每个文本的语义节点和视频的每一帧之间的关系,然后norm归一化它一下 这里的[·]+是max(·,0)的意思,于是就得到了ϕ。它可以动态地将c也就是文本语义节点与视频的每一帧对齐。 之后就能根据前面跨模态对的相似度和归一化后的对齐度ϕ得到最后的score 最后就是总score的计算了 LOSS采用的是contrastive ranking loss,v+和c+表示对齐的一对,其余类似,这里的[·]+仍是max(·,0)

总结

1.这种编码方式非常值得学习,分层式的分析text一样也可以应用到很多地方 2.不太理解这里视频的编码是怎么做到的,它该怎么判断action和entity,但总体主要看的还是转换图结构的编码方式,或者说对text的拆分方式

最新回复(0)