用于视觉问答的问题-引导混合卷积模型《Question-Guided Hybrid Convolution for Visual Question Answering》

目录

一、文献摘要介绍

二、网络框架介绍

三、实验分析

四、结论


这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。

一、文献摘要介绍

In this paper, we propose a novel Question-Guided Hybrid Convolution (QGHC) network for Visual Question Answering (VQA). Most state-of-the-art VQA methods fuse the high-level textual and visual features from the neural network and abandon the visual spatial information when learning multi-modal features. To address these problems, question-guided kernels generated from the input question are designed to convolute with visual features for capturing the textual and visual relationship in the early stage. The question-guided convolution can tightly couple the textual and visual information but also introduce more parameters when learning kernels. We apply the group convolution, which consists of question-independent kernels and question-dependent kernels, to reduce the parameter size and alleviate over-fitting. The hybrid convolution can generate discriminative multi-modal features with fewer parameters. The proposed approach is also complementary to existing bilinear pooling fusion and attention based VQA methods. By integrating with them, our method could further boost the performance. Experiments on VQA datasets validate the effectiveness of QGHC.

作者在本文提出了一种新的用于视觉问答(VQA)的问题引导混合卷积(QGHC)网络。目前最先进的VQA方法大多融合了神经网络的高水平文本特征和视觉特征,在学习多模态特征时放弃了视觉空间信息。为了解决这些问题,从输入问题生成的以问题为指导的内核被设计为与视觉特征进行卷积,以便在早期捕获文本和视觉关系。以问题为导向的卷积可以将文本和视觉信息紧密耦合,但在学习内核时也可以引入更多参数。我们应用由与问题无关的内核和与问题相关的内核组成的组卷积来减小参数大小并缓解过度拟合。混合卷积可以以较少的参数产生有区别的多模态特征。所提出的方法也与现有的双线性池融合和基于注意力的VQA方法相补充。通过与它们的集成,我们的方法可以进一步提高性能。在VQA数据集上的实验验证了QGHC的有效性。

二、网络框架介绍

通常,采用卷积神经网络(CNN)来学习视觉特征,而循环神经网络(RNN)(例如长短期记忆(LSTM)或门控循环单元(GRU))对输入问题进行编码,即

其中

\large f_v

\large f_q

分别代表视觉特征和问题特征。

一般的视觉特征

\large f_v

和后来融合的文本视觉特征放弃了输入图像的空间信息,因而对空间变化的鲁棒性较差,为了充分利用输入图像的空间信息,我们提出了语言引导的混合卷积特征融合。与以对称方式处理视觉和文本特征的双线性池化方法不同,我们的方法在视觉特征图上执行卷积,并且基于问题特征预测卷积核,可以将其表示为:

其中,

是最后一个池层之前的输出,

表示基于问题特征

预测的卷积核,视觉特征映射与预测核

的卷积产生多模态特征图

        但是,直接预测“完整”卷积内核的原始解决方案内存效率低下且耗时,为了解决这一问题,我们提出预测组卷积核的参数。组卷积将输入特征图沿通道维划分为几个组,因此每个组的卷积通道数都减少了。 然后,将每个组的卷积输出在通道维中进行级联,以生成输出特征图。另外,我们将卷积核分为动态预测的核和自由更新的核。动态核是依赖于问题的,其基于问题特征向量

\large f_g

进行预测。自由更新的内核是问题无关的。它们被训练为传统的卷积核,通过反向传播。动态预测的内核在模型早期阶段融合了文本和视觉信息,可以更好地捕获多模型关系。自由更新的内核减少了参数大小,并确保可以有效地训练模型。通过在这两种核函数之间进行打乱参数的次序,我们的模型既能达到精度又能达到效率。在测试阶段,动态核由问题决定,而所有输入图像问题对的更新核是固定的。

正式地,我们将等式(3)替换为VQA的提出的QGHC,

其中,

表示具有动态预测的核

和自由更新的核

的组卷积网络。卷积神经网络(CNN)输出

融合文本和视觉信息并推断最终答案。MLP是一个多层感知模块,

是预测的答案。

自由更新的内核可以捕获预先训练的图像模式,我们会在测试阶段对其进行修复。 动态预测的内核取决于输入的问题,并捕获问题图像之间的关系。 我们的模型通过卷积运算在模型早期融合了文本和视觉信息。 两种模态之间的空间信息得到了很好的保存,这比以前的特征级联策略可导致更准确的结果。 动态内核和自由更新的内核的组合对于保持准确性和效率至关重要,并且在我们的实验中显示出令人鼓舞的结果。

2.1QGHC module

我们堆叠多个QGHC模块,以更好地捕捉输入图像和问题之间的交互。在ResNet和ResNeXt的启发下,我们的QGHC模块由1×1、3×3和1×1卷积组成。

如图2所示,该模块的设计类似于ShffuleNet 模块,具有组卷积和标识快捷方式。

\large C_i

 通道输入特征图首先平均划分为N个组(路径)。然后,N个组中的每一个都要经过3个阶段的卷积并输出

\large C_o

\large / N-d

特征图。对于每个组,第一个卷积是1×1卷积,可输出

\large C_i / 2N

通道特征图。 第二个3×3卷积输出

\large C_i / 2N

通道特征图,最后一个1×1卷积输出

\large C_o / N

通道特征图。在3×3卷积层后加入一个打乱群次序层,使不同群之间的特征相互作用,保持动态预测核和自由更新核的优点。然后,将N个组的

\large C_o / N

通道特征图的输出沿着通道维度连接在一起。对于快捷连接,一个1×1卷积变换输入特征图到共享特征,与输出特征图相加。批处理归一化和ReLU在每个卷积运算之后执行,但最后一个除外,后者在使用快捷方式添加后执行ReLU,3×3组卷积由输入问题指导。我们随机选择n个组内核,根据问题特征预测其参数。这些核权重与问题相关,用于捕获位置敏感的问题-图像交互。其余的

\large N-n

组内核具有自由更新的内核。 它们在训练阶段通过反向传播进行更新,并在测试期间针对所有图像进行了固定。 这些内核捕获预训练的图像模式或图像问题模式。 它们对于输入的问题和图像是不变的。

2.2. QGHC network for visual question answering

QGHC网络的网络结构如图3所示。ResNet 首先在ImageNet上进行了预训练,以提取中级水平视觉特征。 问题特征由语言RNN模型生成。

        然后将视觉特征图发送到

\large N = 8

 组且

\large C_o = 512

 的三个QGHC模块。QGHC模块

的输出与输入特征图具有相同的空间大小。 将全局平均池应用于最终特征图,以生成最终的多峰特征表示形式,以预测最可能的答案

为了学习QGHC模块中的动态卷积核,问题特征

\large f_q

被两个FC层转换,中间有一个ReLU激活。两个FC层首先将问题投影到9216-d向量。通过将学习到的参数重构为3×3×32×32,可以获得三个QGHC模块的3×3与问题相关的内核权重。但是,用动态预测的内核和自由更新的内核直接训练提出的网络并非易事。动态核参数是ReLU非线性函数与自由更新核参数相比具有不同量级的输出。我们采用权重规范化来平衡两类3×3核之间的权重,从而稳定了网络的训练。

2.3. QGHC network with bilinear pooling and attention

我们提出的QGHC网络还可以与现有的双线性合并融合方法和注意力机制互补。为了与MLB融合方案结合,可以使用MLB将从全局平均池层提取的多模式特征与RNN问题特征再次融合。 融合的功能可用于预测最终答案。 文本和视觉功能的第二阶段融合在我们的实验中进一步提高了回答的准确性。

我们还应用了注意模型来更好地捕捉空间信息。因此,原来的全局平均池层被注意力图所取代。为了在感兴趣的位置上增加权重,通过注意机制学习权重图。空间Softmax函数后的1×1卷积生成注意加权图。最终的多模态特征是所有位置特征的加权和。最后一个QGHC模块的输出特征图与线性变换的问题特征相加。 注意机制在图3中显示为绿色矩形。

三、实验分析

我们的模型在与最先进的方法进行比较时具有相同的设置。比较方法遵循其原始设置。对于所提出的方法,图像被调整为448×448。14×14×2048视觉特征是通过ImageNet预先训练的ResNet-152来学习的,并且问题被skip-thought使用GRU编码为2400 d特征向量。 候选问题被选为训练和验证集中最常见的2,000个答案。 使用ADAM优化器对模型进行训练,初始学习率为

\large 10^-^4

。 对于验证集上的结果,仅将训练集用于训练。 对于test-dev的结果,我们遵循先前方法的设置,训练和验证数据均用于训练。

表1 我们提出的QGHC网络在VQA数据集上的消融研究。

表2在不使用注意机制的情况下,在VQA数据集上比较所提出的方法和最先进的方法的问题回答精度。

表3将所提出的方法的问题回答精度与VQA数据集上最先进的方法与注意机制进行比较。

表4所提出的方法的问题回答精度与CLVER数据集上最先进的方法的比较。

图4. QGHC生成的答案激活图的可视化。

四、结论

In this paper, we propose a question-guided hybrid convolution for learning discriminative multi-modal feature representations. Our approach fully utilizes the spatial information and is able to capture complex relations between the image and question. By introducing the question-guided group convolution kernels with both dynamically-predicted and freely-updated kernels, the proposed QGHC network shows strong capability on solving the visual question answering problem. The proposed approach is complementary with existing feature fusion methods and attention mechanisms. Extensive experiments demonstrate the effectiveness of our QGHC network and its individual components.

在本文中,我们提出了一种用于学习判别式多模态特征表示的问题引导混合卷积。 我们的方法充分利用了空间信息,并且能够捕获图像和问题之间的复杂关系。 通过引入具有动态预测和自由更新的内核的问题引导群卷积内核,所提出的QGHC网络在解决视觉问题解答方面显示出强大的能力。 所提出的方法是对现有特征融合方法和注意力机制的补充。

此篇论文提出的利用空间信息问题,还真是之前没有考虑到的,利用卷积核操作,充分利用空间信息,得到了一点好的效果,方法还是不错的。

Tiám青年 发布了45 篇原创文章 · 获赞 5 · 访问量 4033 私信 关注

原文地址:https://blog.csdn.net/xiasli123/article/details/104147898

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


1.小程序的优缺点优点:不需下载、卸载使用方便缺点:嵌套在微信中,属于微信的子应用2.使用的技术实际上是Hybrid技术的应用HybridApp(混合模式移动应用),使用网页语言和程序语言共同开发小程序兼具了NativeApp所有优势,也兼具了WebApp使用Html5跨平台开发低成本注:微信小程序与传
端口类型-HybridHybrid端口是交换机上既可以连接用户主机,又可以连接其他交换机的端口。Hybrid端口既可以连接接入链路又可以连接干道链路。Hybrid端口允许多个VLAN的帧通过,并可以在出端口方向将某些VLAN帧的Tag剥掉。华为设备默认的端口类型是Hybrid。 Hybrid端口收发数据帧的规则
不同vlan同段IP通信LSW1vlan1vlan2vlan3interfaceEthernet0/0/1porthybriduntaggedvlan2to3interfaceEthernet0/0/2porthybridpvidvlan2porthybriduntaggedvlan2to3interfaceEthernet0/0/3porthybridpvidvlan3porthybriduntaggedvlan2to3
VLAN中access、Trunk和Hybrid三种端口区别:acesss:1、发送不带标签的报文2、一般与PC\server相连时使用3、只可以属于一个VLANTrunk:1、发送带标签的报文2、一般用于交换机级联端口传递多组VLAN信息使用3、可以属于多个VLANHybrid:1、混合端口可以同时属于多个vlan2、混合端口
这系列文章内容包括:STP、RSTP、MSTP、VLAN、LACP、SuperVLAN。以学习实验配置为主要目标;实验引用华为官方na在线视频中实验。6.3VLAN原理和配置实验截图:配置第一个交换机:修改端口类型acc、配置端口所属vlan、配置trunk端口。实验心得:有一个问题,当你配置e0/0/3为trunk以及al
实验一:交换机端口类型配置1.拓扑图如下图所示:2.实验要求:实现二层网络中工程部和市场部不能互访,但是都能与网络中心的服务器通信3.请写出你的配置思路、配置命令实验思路:将交换机SW1、SW2、SW3之间配置为trunk链路,其他接口配置为Hybrid链路;实验配置名如下:SW1sysnameSW
   这个英文材料对我一个英语一般的学生表示亚历山大啊,不过还是勉强看完了,说说自己的看法吧。   谷歌作为一家商业公司,利润是其基本的追求目标,这一点是毋庸置疑的。但是谷歌并没有被这个基本目标挡住了视野,无数公司失败的经验告诉我们,如果缺少创新,公司的一切发展
简介:VLAN10内通信,VLAN20内通信,VLAN30与VLAN10、VLAN20、VLAN30皆可通信Hybrid接口应用拓扑图:  一、配置PC机ip并测试相互能否ping通 PC名称IP子网掩码网关PC110.1.1.1255.255.255.010.1.1.254PC210.1.1.2255.255.255.010.1.1.254PC310.1.1.3
通常情况下,公司对内网的使用远远高于对外网的使用。公司的内部网络是由二层交换网络构建的,所以二层网络设计的好坏直接影响公司的正常业务。好的设计不仅使功能得到体现,还可以应对一些未知的隐患,如线路损坏、设备损坏等。下面我们主要对华为的二层设备进行了解,不过首先要了解的就
手机app代表了互联网时代的发展,促使我们的日常生活也变得越来越轻松,不管是哪个行业或者企业,在人们手机上存在最多的还是APP,手机APP逐渐的超越了网络,本身这些APP系统就是一个大型的APP系统,具体APP怎么开发呢?开发出来的手机APP,主要还是通过编程的方式设计出来的,有了变成那么就需要程
我想导出一种简单可靠的方法来自动提升正在运行的批处理,而无需使用其他线程中建议的额外的VBS文件或提升的快捷方式.通过javascript从批处理调用UAC对话框可确保简短的简单代码.在对话框中选择“是”,但错误对话框弹出时(在Cmd窗口外部)“Windows找不到’test.bat’”,下面的脚
无论如何,我可以在FORTRAN程序中使用BoostGraphLibrary(BGL)来使用图形数据结构.任何人都可以帮助我或给我一个提示.我想在我的MPI-FORTRAN代码中的几个处理器上进行并行图结构.是否可以使用BoostGraphLibrary(BGL)来达到此目的!亲切的问候,谢夫解决方法:你必须构造一个用C语
原文链接:http://www.cnblogs.com/iamzyf/p/3515889.html其实问题很简单:我的产品页面在 http://www.gdtsearch.com/products.spiderstudio.docapi.htm,这是一个静态页面;而我所有的技术博客都在博客园中.为了让访问者能够直接在产品页面中看到我最
Hybrid接口是华为特有的一种接口Hybrid接口是既可以连接普通终端的接入链路,又可以连接交换机间的干道链路。简单说就是Hybrid接口既能实现Access的功能又能实现Trunk接口的功能。实验模拟:实验拓扑:实验编址:测试连通性:查看交换机接口类型(默认情况下都是hybrid类型)displayportvlan
原生APP开发-NativeApp:需要用户下载安装使用,可访问手机的所有功能(GPS,摄像头,重力加速器),拓展性强,是专门为某种操作系统开发的(IOS,Android,黑莓等),但是开发和维护的成本都比较高 webApp:html5语言写出的app,不需要下载安装,基本上就是触屏版的网页,可以在多个设备上运行,有很大的局限性
拓扑图如下:(1)sw1的配置:<Huawei><Huawei>system-view//切换到系统视图Entersystemview,returnuserviewwithCtrl+Z.[Huawei]sysnamesw1//配置主机名Oct25201916:29:31-08:00sw1DS/4/DATASYNC_CFGCHANGE:OID1.3.6.1.4.1.2011.5.25.191
程序员常用等宽字体1SourceCodePro2CourierNew(传统)3Consolas4Monaco5中文雅黑混合版(YaHeiConsolasHybrid)
Japan'shybridmodelinventoryofhairEwhaRinkaLead:passed37thbirthdayofthepear,theeyesofeveryonestillhasaLolita-likegirltemperament,herinterpretationoftheinvolutionBOBlongghdhairstraightener hair,andevensetoffinas
1url不要用hash模式,如果涉及到外部如firebase方式直接发送给客户端动态链接,要求打开app内h5地址的时候,这个#会被截断,客户端无法解析2尽量在多页面,当客户端由不同入口进入的时候,前端尽可能做多业务拆分,避免以后所有模块在一起,一次修改要全部上线,3移动端输入框键盘要求输