用于视觉问答的问题-引导混合卷积模型《Question-Guided Hybrid Convolution for Visual Question Answering》

这是视觉问答论文阅读的系列笔记之一，本文有点长，请耐心阅读，定会有收货。如有不足，随时欢迎交流和探讨。

一、文献摘要介绍

In this paper, we propose a novel Question-Guided Hybrid Convolution (QGHC) network for Visual Question Answering (VQA). Most state-of-the-art VQA methods fuse the high-level textual and visual features from the neural network and abandon the visual spatial information when learning multi-modal features. To address these problems, question-guided kernels generated from the input question are designed to convolute with visual features for capturing the textual and visual relationship in the early stage. The question-guided convolution can tightly couple the textual and visual information but also introduce more parameters when learning kernels. We apply the group convolution, which consists of question-independent kernels and question-dependent kernels, to reduce the parameter size and alleviate over-fitting. The hybrid convolution can generate discriminative multi-modal features with fewer parameters. The proposed approach is also complementary to existing bilinear pooling fusion and attention based VQA methods. By integrating with them, our method could further boost the performance. Experiments on VQA datasets validate the effectiveness of QGHC.

作者在本文提出了一种新的用于视觉问答（VQA）的问题引导混合卷积（QGHC）网络。目前最先进的VQA方法大多融合了神经网络的高水平文本特征和视觉特征，在学习多模态特征时放弃了视觉空间信息。为了解决这些问题，从输入问题生成的以问题为指导的内核被设计为与视觉特征进行卷积，以便在早期捕获文本和视觉关系。以问题为导向的卷积可以将文本和视觉信息紧密耦合，但在学习内核时也可以引入更多参数。我们应用由与问题无关的内核和与问题相关的内核组成的组卷积来减小参数大小并缓解过度拟合。混合卷积可以以较少的参数产生有区别的多模态特征。所提出的方法也与现有的双线性池融合和基于注意力的VQA方法相补充。通过与它们的集成，我们的方法可以进一步提高性能。在VQA数据集上的实验验证了QGHC的有效性。

二、网络框架介绍

通常，采用卷积神经网络（CNN）来学习视觉特征，而循环神经网络（RNN）（例如长短期记忆（LSTM）或门控循环单元（GRU））对输入问题进行编码，即

其中

$\large f_v$

和

$\large f_q$

分别代表视觉特征和问题特征。

一般的视觉特征

$\large f_v$

和后来融合的文本视觉特征放弃了输入图像的空间信息，因而对空间变化的鲁棒性较差，为了充分利用输入图像的空间信息，我们提出了语言引导的混合卷积特征融合。与以对称方式处理视觉和文本特征的双线性池化方法不同，我们的方法在视觉特征图上执行卷积，并且基于问题特征预测卷积核，可以将其表示为：

其中，

是最后一个池层之前的输出，

表示基于问题特征

预测的卷积核，视觉特征映射与预测核

的卷积产生多模态特征图

。

但是，直接预测“完整”卷积内核的原始解决方案内存效率低下且耗时，为了解决这一问题，我们提出预测组卷积核的参数。组卷积将输入特征图沿通道维划分为几个组，因此每个组的卷积通道数都减少了。然后，将每个组的卷积输出在通道维中进行级联，以生成输出特征图。另外，我们将卷积核分为动态预测的核和自由更新的核。动态核是依赖于问题的，其基于问题特征向量

$\large f_g$

进行预测。自由更新的内核是问题无关的。它们被训练为传统的卷积核，通过反向传播。动态预测的内核在模型早期阶段融合了文本和视觉信息，可以更好地捕获多模型关系。自由更新的内核减少了参数大小，并确保可以有效地训练模型。通过在这两种核函数之间进行打乱参数的次序，我们的模型既能达到精度又能达到效率。在测试阶段，动态核由问题决定，而所有输入图像问题对的更新核是固定的。

正式地，我们将等式（3）替换为VQA的提出的QGHC，

其中，

表示具有动态预测的核

和自由更新的核

的组卷积网络。卷积神经网络(CNN)输出

融合文本和视觉信息并推断最终答案。MLP是一个多层感知模块，

是预测的答案。

自由更新的内核可以捕获预先训练的图像模式，我们会在测试阶段对其进行修复。动态预测的内核取决于输入的问题，并捕获问题图像之间的关系。我们的模型通过卷积运算在模型早期融合了文本和视觉信息。两种模态之间的空间信息得到了很好的保存，这比以前的特征级联策略可导致更准确的结果。动态内核和自由更新的内核的组合对于保持准确性和效率至关重要，并且在我们的实验中显示出令人鼓舞的结果。

2.1QGHC module

我们堆叠多个QGHC模块，以更好地捕捉输入图像和问题之间的交互。在ResNet和ResNeXt的启发下，我们的QGHC模块由1×1、3×3和1×1卷积组成。

如图2所示，该模块的设计类似于ShffuleNet 模块，具有组卷积和标识快捷方式。

$\large C_i$

通道输入特征图首先平均划分为N个组（路径）。然后，N个组中的每一个都要经过3个阶段的卷积并输出

$\large C_o$

$\large / N-d$

特征图。对于每个组，第一个卷积是1×1卷积，可输出

$\large C_i / 2N$

通道特征图。第二个3×3卷积输出

$\large C_i / 2N$

通道特征图，最后一个1×1卷积输出

$\large C_o / N$

通道特征图。在3×3卷积层后加入一个打乱群次序层，使不同群之间的特征相互作用，保持动态预测核和自由更新核的优点。然后，将N个组的

$\large C_o / N$

通道特征图的输出沿着通道维度连接在一起。对于快捷连接，一个1×1卷积变换输入特征图到共享特征，与输出特征图相加。批处理归一化和ReLU在每个卷积运算之后执行，但最后一个除外，后者在使用快捷方式添加后执行ReLU，3×3组卷积由输入问题指导。我们随机选择n个组内核，根据问题特征预测其参数。这些核权重与问题相关，用于捕获位置敏感的问题-图像交互。其余的

$\large N-n$

组内核具有自由更新的内核。它们在训练阶段通过反向传播进行更新，并在测试期间针对所有图像进行了固定。这些内核捕获预训练的图像模式或图像问题模式。它们对于输入的问题和图像是不变的。

2.2. QGHC network for visual question answering

QGHC网络的网络结构如图3所示。ResNet 首先在ImageNet上进行了预训练，以提取中级水平视觉特征。问题特征由语言RNN模型生成。

然后将视觉特征图发送到

$\large N = 8$

组且

$\large C_o = 512$

的三个QGHC模块。QGHC模块

的输出与输入特征图具有相同的空间大小。将全局平均池应用于最终特征图，以生成最终的多峰特征表示形式，以预测最可能的答案

。

为了学习QGHC模块中的动态卷积核，问题特征

$\large f_q$

被两个FC层转换，中间有一个ReLU激活。两个FC层首先将问题投影到9216-d向量。通过将学习到的参数重构为3×3×32×32，可以获得三个QGHC模块的3×3与问题相关的内核权重。但是，用动态预测的内核和自由更新的内核直接训练提出的网络并非易事。动态核参数是ReLU非线性函数与自由更新核参数相比具有不同量级的输出。我们采用权重规范化来平衡两类3×3核之间的权重，从而稳定了网络的训练。

2.3. QGHC network with bilinear pooling and attention

我们提出的QGHC网络还可以与现有的双线性合并融合方法和注意力机制互补。为了与MLB融合方案结合，可以使用MLB将从全局平均池层提取的多模式特征与RNN问题特征再次融合。融合的功能可用于预测最终答案。文本和视觉功能的第二阶段融合在我们的实验中进一步提高了回答的准确性。

我们还应用了注意模型来更好地捕捉空间信息。因此，原来的全局平均池层被注意力图所取代。为了在感兴趣的位置上增加权重，通过注意机制学习权重图。空间Softmax函数后的1×1卷积生成注意加权图。最终的多模态特征是所有位置特征的加权和。最后一个QGHC模块的输出特征图与线性变换的问题特征相加。注意机制在图3中显示为绿色矩形。

三、实验分析

我们的模型在与最先进的方法进行比较时具有相同的设置。比较方法遵循其原始设置。对于所提出的方法，图像被调整为448×448。14×14×2048视觉特征是通过ImageNet预先训练的ResNet-152来学习的，并且问题被skip-thought使用GRU编码为2400 d特征向量。候选问题被选为训练和验证集中最常见的2,000个答案。使用ADAM优化器对模型进行训练，初始学习率为

$\large 10^-^4$

。对于验证集上的结果，仅将训练集用于训练。对于test-dev的结果，我们遵循先前方法的设置，训练和验证数据均用于训练。

表1 我们提出的QGHC网络在VQA数据集上的消融研究。

表2在不使用注意机制的情况下，在VQA数据集上比较所提出的方法和最先进的方法的问题回答精度。

表3将所提出的方法的问题回答精度与VQA数据集上最先进的方法与注意机制进行比较。

表4所提出的方法的问题回答精度与CLVER数据集上最先进的方法的比较。

图4. QGHC生成的答案激活图的可视化。

四、结论

In this paper, we propose a question-guided hybrid convolution for learning discriminative multi-modal feature representations. Our approach fully utilizes the spatial information and is able to capture complex relations between the image and question. By introducing the question-guided group convolution kernels with both dynamically-predicted and freely-updated kernels, the proposed QGHC network shows strong capability on solving the visual question answering problem. The proposed approach is complementary with existing feature fusion methods and attention mechanisms. Extensive experiments demonstrate the effectiveness of our QGHC network and its individual components.

在本文中，我们提出了一种用于学习判别式多模态特征表示的问题引导混合卷积。我们的方法充分利用了空间信息，并且能够捕获图像和问题之间的复杂关系。通过引入具有动态预测和自由更新的内核的问题引导群卷积内核，所提出的QGHC网络在解决视觉问题解答方面显示出强大的能力。所提出的方法是对现有特征融合方法和注意力机制的补充。

此篇论文提出的利用空间信息问题，还真是之前没有考虑到的，利用卷积核操作，充分利用空间信息，得到了一点好的效果，方法还是不错的。

Tiám青年发布了45 篇原创文章 · 获赞 5 · 访问量 4033 私信关注

原文地址：https://blog.csdn.net/xiasli123/article/details/104147898