论文地址:https://arxiv.org/pdf/2101.10292.pdf
代码地址: https://github.com/DirtyHarryLYL/Transferable-Interactiveness-Network
本文为了探索人与物之间是否存在交互的互动性,这些互动性可以通过HOI数据集学习到,并且能够缩小不同HOI种类设置之间的差距,本文的核心思想利用互动性网络从多个HOI数据集中学习常见的互动性知识,并在推理HOI分类之前进行交互抑制(Non-Interaction Suppression,NIS)。由于交互性的泛化能力,交互性网络是一种可转移的知识学习者,可以结合其他模型,得到理想的效果,利用人体实例和身体部位的特征结合起来学习分层结构中的交互性,如实例级和身体部位级的交互性。在HICO-DET,V-COCO,PaStaNet-HOI数据集评估该方法。
介绍
交互性包含了很多重要的基础信息,因此使得更容易进行跨数据集的传输,我们提出了一个交互性知识学习方法,该方法可以跨数据集学习交互性,并且可以用于任意数据集。该方法采用两阶段来识别HOI,首先判断人物对之间是否存在交互,然后对其分类。该方法相比其他方法的优势在于能够整合其他数据集的信息
本文提出了一个两阶段的分层分类方法(TIN),由三个网络组成,Representation Network(特征提取,称为R),HOI网络(分类器,称为C),交互性网络(鉴别器,成为D),D用于二分类(交互或非交互)C与D可以一起训练来同时学习HOI和交互性知识。由于其输入通常是非交互边占主要部分,因此,利用从HOI标签转换而来的二进制交互性标签,该模型将获得更好的性能。另一方面D只需要通过HOI类别的二进制标签,这些交互性是可转移的和可重用的,因此D可以从多个数据集学习交互性,并分别应用于每个数据集。在测试时,使用两阶段的方法,首先D评估人物对的交互性,将密集的HOI图转换为稀疏的图。然后使用C对剩下的稀疏图的边进行分类,
本文提出了一个分层的框架,首先利用人/物的外观和空间关系作为实例级的特征来学习实例之间的交互性,并且交互性与人体部位相关。和日常物体的交互,只有一部分部位会参与其中,如看书时,只有头和手与书有关系,而下方部位与书不会有交互,因此我们定义了物体与身体部位之间的交互(部位交互性),利用身体部位特征与物体特征进行匹配学习。实例交互性与部位交互性之间也具有内在的关系,他们之间的关系符合多实例学习(MIL)。当且仅当至少一个人体部位与物体发生交互时,人与物体才发生交互,因此当输入两个级别的目标时,我们可以构建两个级别之间的一致性,具有更高交互性分数的部位需要更加关注,可以使用注意力机制来突出HOI中的重要部位。
相关工作
视觉关系检测
之前有研究结合了先验语言,通过检测<主,谓,宾>三元组来进行视觉关系的检测,但是该方法存在词汇设置以及数据集的严重长程问题,因此又提出了更大的数据集 Visual Genome,还有一些研究利用语义信息来优化关系检测。
人物交互检测
深度神经网络(DNN)促进了该问题的研究,有研究结合视觉特征,空间位置的多流模型来解决这个问题,为了解决长尾问题,有研究利用zero-sho学习分别预测动作和物体。InteractNet引入特定动作的密度图估计方法来定位交互的物体,GPNN结合了图模型和DNN,使用消息解析迭代的更新状态,并对所有可能的对/边进行分类,有方法使用以人为中心的注意力模块来增强感兴趣区域的信息加速HOI的识别,还有方法通过结合视觉和语义特征通过实体类比来检测看不见的交互,通常但阶段的HOI检测会经历非交互对支配问题,因此,利用交互性来区分非交互对并在HOI分类之前抑制掉他们。
基于部位的动作识别
有研究利用基于部位的模型进行细粒度的行为识别,也有研究利用成对的身体部位注意力模型来关注重要的部位,在本文中利用部位特征和整个身体的特征来学习分层交互性,充分挖掘这两个层次之间的独特一致性,以指导学习。
研究方法
使用图来描述该模式,分别使用节点和边来表示实例和关系,那么HOI图就可以表示为G=(V,E),其中V表示节点,包含人物节点Vh,和物体节点Vo,E表示人与物之间的边,因此我们的目标是找出在边上有正确标签的稀疏图G*
网络结构如图所示:
- 交互性网络
交互性网络D适用于二进制分类:交互和非交互,我们按层推断交互性:
- 实例级
利用人/物的外观和空间关系作为实例级特征来预测人与物之间的交互性 - 部位级
利用身体部位特征深入了解不同身体部位和物体之间的交互性
我们利用这两级交互性之间的一致性来引导学习.D中含有4中流(人,物,空间姿势,部位),他们关注于HOI的不同元素,交互性网络D如下图所示:
(1)three streams with instance feature
人和物体的视觉外观包含了学习交互性的必要信息,除此之外,也可以利用空间位置和人的姿态信息来区分交互对与非交互对。因此结合视觉外观,空间位置和姿势信息是交互性判断的关键,D需要将这些信息一起编码来学习交互性知识,采用多流结构对这些信息进行编码:人,物,空间姿势流,以及以实例为中心的注意力模块。
人和物体流:对于人与物体的外观,我们从R中提取ROI池化特征,然后将其输入残差块HD,OD,然后采用全局平均池化和FCs之后,这两个流的特征分别表示为fh,fo.
空间姿势流:输入包含一个特殊的6464的姿势图,给出人与物体对的联合边界框,我们使用姿态估计来估计17个身体关键点,将这些关键点用0.15-0.95的不同灰度值的直线连接起来以表示不同的身体部位,隐式编码姿态特征。将其他区域设置为0,最后重新调整联合边界框到6464重建姿势图。将姿势图与人和物体的特征图连接起来,就形成了空间姿势流的输入,接下来使用两个卷积层和最大池化以及两个1024的全连接层来提取三张图的特征fsp,最后将这三个流的输出连接起来,用于接下来的交互区分。
(2) Part Stream with Part-Level Features
由于大量身体部位与物体之间的关系很难进行标注,因此在交互识别中往往会更加关注于实例级的交互识别,可以通过对交互性的定义来解决这个问题,为了对部位进行定位,利用姿态估计来构建10个部位边界框,每个边界框以被检测到的关节为中心,对于部位流,从被检测的部位边界框提取ROI池化特征作为部位特征。fpi对应第i个部位, 1 ≤ i ≤ 10.
(3)二值交互性分类
总共有11个交互性二值分类器与D的结构类似,10个用于表示部位交互性,1个用于表示实例交互性,他们都使用上面的4个流中提取的特征作为输入,并通过连接操作和全连接层构建。
部位级分类器:
第i个部位特征fpi和fh,fo,fsp连接起来并输入FC然后使用sigmoid用于产生部位交互性的概率
p(pi,o)^D^= Sigmoid(s(pi,o)D), s(pi,o)D表示第i个部位的部位交互性分数,可以利用部位交互性作为注意力来选择重要的部位,
重新加权后,这些传递到下一个实例级分类器的信息将会被过滤掉,因此,该模型会更加关注于重要的部位而忽略其他部位引起的噪声。
实例级的分类器:
将10个部位特征fpi连接起来,并表示为fp,将fh,fo,fsp,fp作为输入,并产生实例级的交互概率p(h,o)D=Sigmoid(s(h,o)D),我们可以通过HOI 标签转化而来的二进制标签和p(h,o)D构建一个二值分类损失LDh,s(h,o)D就是交互性分数.
(4)交互一致性
当人与物体存在交互性性时,那么至少有一个部位与其发生交互,当没有交互时,那么一个部位也没与其发生交互.在理论上来说,实例的交互性等同于所有部位的交互性的OR操作,我们可以使用max pooling来实现OR操作,满足与MIL范式:
我们也使用p(hp,o)D来产生另一个二值分类器损失LDhp,这里的max表示最大池化操作,我们使用预测的交互性分数来构建一致性损失(一致性损失能够避免不同级别的信息之间的冲突并能加强监督指导):
交互性辨别器D的最终损失可以表达为:
(5)低级实例抑制函数
提出低级实例抑制函数(LIS)增强高级和低级目标检测之间的差别,给出一个带有所有可能边的HOI图G,D 将会评估人物对(vh,vo)之间的交互性,并给出一个分数s(h,o)D,然后使用LIS根据人/物检测质量来调节这个分数,当边界框的分数高于阈值时,就会有较高的权重(T,k,w都是采用数据驱动的方式决定的),从而达到强调高等级的人/物,并将高级的与低级的实例分开:
2. 非交互抑制推理
经过交互性学习之后,在测试时抑制非交互候选对,即非交互抑制(NIS),将测试集中被检测的实例进行完全配对,生成一个人和物的密集图G,利用D来计算所有边的交互性分数,然后对满足NIS条件的边进行抑制(交互性分数低于阈值α),那么图G就会转变为近似稀疏HOI图G’,经过C之后的(vh,vo)的HOI分类的的分数向量S(h,o)C可以表示为(Γ′表示输入特征):
(vh,vo)最终的HOI分数向量可以表示为(也就是将通过D和C得到的分数乘起来):
实验
使用faster R-CNN和ResNet-50作为R,C由3个流组成,Γ′是通过实例提取的外观,空间位置,以及上下文特征,
该方法能够检测比较度杂的HOI,包括一个人物对之间存在多种交互,和一个人与不同的物体有多个交互,多个人与物体具有交互,多个人与多个物体的不同交互,
实验结果,在HICO-DET上达到最高20.93%,在V-COCO上达到49.1%
结论
本文的创新点主要是以下几个方面:
- 在进行HOI分类之前,先判断交互性,如果对应的人与物体之间没有交互性,那么就不需要进行接下来的HOI判断.
- 该方法利用了人和物体的外观特征,空间关系,人体的部位特征进行综合判断交互性.首先判断部位的交互性,采用注意力机制,选择最重要的部位,然后判断实例的交互性,最后判断他们之间的一致性,从而避免不同级别特征的冲突性.(其损失也是这3中损失之和)
- 采用低级实例抑制(LIS)函数,抑制掉低级的实例,采用非交互性抑制(NIS),抑制掉不存在交互性的人物对