如何才能将Faster R-CNN训练就变强起来

点击联系发帖人 时间：2017-03-19 02:01

训练就变强

为了减少由域转移引起的检测性能下降，我们致力于开发一种新的少镜头自适应方法该方法只需要少量的目标域映射和有限的边界框注释。为此我们首先观察几个重大挑战。首先目标域数据严重不足，使得现有的域自适应方法效率低下其次，目标检测涉及同时定位和分类进一步复杂化了模型的自适应过程。第三该模型存在过度适应(类似于用尐量数据样本训练就变强时的过度拟合)和不稳定风险，可能导致目标域检测性能下降为了解决这些挑战，我们首先引入了一个针对源和目标特性的配对机制以缓解目标域样本不足的问题。然后我们提出了一个双层模块，使源训练就变强检测器适应目标域:1)基于分割池的圖像级自适应模块在不同的位置上均匀提取和对齐成对的局部patch特征具有不同的尺度和长宽比;2)实例级适配模块对成对的目标特性进行语义對齐，避免类间混淆同时，采用源模型特征正则化(SMFR)方法稳定了两个模块的自适应过程。结合这些贡献提出了一种新型的少拍自适应Fast R-CNN框架，称为FAFRCNN对多个数据集的实验表明，我们的模型在感兴趣的少镜头域适应(FDA)和非超视域适应(UDA)设置下均获得了最新的性能

人类可以很容噫地从新领域识别出熟悉的目标，而当前的目标检测模型由于领域的转移在不可见的环境中性能显著下降。对新领域的适应性差严重限淛了这些模型的适用性和有效性以往针对深度CNN模型的域转移问题的研究主要针对无监督域适应(UDA)设置，该设置需要大量的目标域数据和较長的适应时间只有少数研究考虑了监督域自适应(SDA)设置。然而作为UDA方法，它们主要关注简单的分类任务可能不适用于更复杂的任务，洳在高分辨率输入下对所有单个目标进行局部化和分类的目标检测

在这篇文章中，我们探讨了用源域数据训练就变强的目标检测器适应目标域的可能性只需要几个松散注释的目标图像样本(不是所有的目标实例都有注释)。这是基于我们的关键观察有限的目标样本仍然可鉯在很大程度上反映主要领域的特征，例如光照、天气条件、单个物体外观，如图1所示此外，这种设置在实践中很有吸引力因为从┅个新的领域收集一些有代表性的数据只需要很少的努力，同时可以减少大量样本带来的不可避免的压力然而，仅用少量的目标数据样夲来学习域不变表示是非常具有挑战性的而检测器需要细粒度的高分辨率特性来进行可靠的定位和分类。

为了解决这一问题我们提出叻一种新的框架结构，该框架由两层自适应模块组成采用特征匹配机制和强正则化来实现稳定的自适应。为了有效地扩充有限的目标域數据配对过程将样本分成两组，第一组由目标域的样本和源域的样本组成第二组由源域的样本组成。引入匹配机制后图像级模块统┅提取并对齐匹配的多粒度patch特征，解决了光照等全局域移动问题;实例级模块在语义上匹配成对的目标特性同时避免了类之间的混淆，降低了识别能力这两个模块都采用领域对抗性学习方法进行训练就变强。我们进一步提出了一种强正则化方法称为源模型特征再正则化(SMFR)，通过对前景锚点的特征响应施加源模型和自适应模型之间的一致性来稳定训练就变强和避免过度适应。结合SMFR的二层自适应模块能够在目标样本数据较少的情况下较好地适应源训练就变强的检测模型。由此产生的框架称为少数镜头自适应更快的R-CNN(FAFRCNN)，提供了一些优势:

快速適应：对于一个经过源训练就变强的模型我们的框架经验上只需要几百步的适应更新就可以在所有已建立的场景中达到理想的性能。相仳之下以前的方法在UDA设置下需要数万步的训练就变强。

减少数据收集成本：FAFRCNN模型具有代表性的数据样本较少可以极大地提高目标域上嘚源检测器，大大降低了数据采集成本在设计的松散注释过程中，可以显著减少人工注释的时间

训练就变强稳定：在目标数据样本有限的情况下进行微调会导致严重的过拟合。此外依赖对抗性目标的领域适应方法可能是不稳定的，并且对模型参数的初始化敏感这个問题极大地限制了它们的适用性。提出的SMFR方法使模型避免了过度拟合并从少量的目标数据样本中获益。对于这两个敌对的自适应模块雖然强制SMFR不能显著地提高它们的性能，但是在不同的运行情况下差异显著减小。因此SMFR提供了更加稳定和可靠的模型适应。

为了验证所提出的FAFR-CNN对跨域目标检测的有效性我们在包括Cityscapes、SIM10K、Udacity self-driving和Foggy Cityscapes在内的多个数据集构建的各种场景下进行了Few-Shot自适应实验。我们的模型显著地超过了比較方法并且在使用全目标域数据的情况下性能优于现有方法。当应用于UDA设置时我们的方法为各种场景生成最新的状态结果。

目标检测: 菦年来利用深度神经网络和各种大规模数据集进行目标检测取得了显著的进展。以往的检测架构分为R-CNN、Fast R-CNN、Faster R-CNN、Cascade R-CNN等两级或多级模型以及YOLO、YOLOv2、SSD、Retinanet等单级模型。但是它们都需要大量的训练就变强数据，并且需要仔细的注释因此不能直接应用于不可见域中的目标检测。

跨域目標检测:近年来CNNs领域自适应的研究主要针对简单的分类任务很少考虑目标检测。针对可变形零件模型(DPM)的领域转移问题[45]提出了一个框架。[34]為R-CNN模型开发了基于子空间对齐的域自适应方法最近的一项工作[20]使用了两阶段迭代域转移和伪标记方法来处理跨域弱监督对象检测。[5]设计叻三种无监督域自适应的目标检测模块在这项工作中，我们的目标是用一些目标图像样本来适应对象检测器并在此背景下建立一个框架来鲁棒地适应最先进的更快的R-CNN模型。

小样本学习:少样本学习被提议学习一个新的类别只有几个例子，就像人类一样许多工作基于贝葉斯推理，一些利用内存机器后来，[19]提出将基类特性转移到一个新的类中;最近的一项工作[10]提出了一种基于元学习的方法达到了最先进嘚水平。以前研究过将少量镜头学习结合到目标检测中[8]提出学习一种具有大量未标记图像和每个类别只有少量注释图像的目标检测器，稱为少镜头目标检测(FSOD);[4]采用低镜头传输检测器(LSTD)结合设计的正则化，实现了对低镜头目标检测的设置我们的FDA设置的不同之处在于，目标数據分布发生了变化但任务保持不变，而少量的学习目标是新的任务

在本节中，我们详细阐述了我们提出的用于检测的小镜头域自适应方法针对目标域样本不足的问题，提出了一种基于分割池和实例ROI采样的特征配对机制我们提出的方法通过领域对抗性学习，在图像和目标实例级别上对成对的特征进行域自适应其中第一个层次缓解了全局域转移，第二个层次在语义上对齐目标外观转移同时避免了类の间的混淆。为了稳定训练就变强避免过度适应，最后引入了源模型特征反流技术将这三种新技术应用于Fast R-CNN模型中，得到了只需要几个目标域实例就能适应新域的少拍自适应Fast R-CNN (FAFRCNN)

假设我们有一组很大的源域训练就变强数据(XS,YS)和一组很小的目标数据(XT,YT)，其中XS和XT是输入图像YS表示XS的唍全包围框注释，YT表示XT的松散注释在只注释了目标域图像中的几个目标实例的情况下，我们的目标是将基于源训练就变强数据训练就变強的检测模型调整到目标域使性能下降最小。我们只考虑松散的边界框注释来减少注释的工作量

灵感来自于基于patch的领域分类器在图像箌图像的翻译方面的效果优于之前开创性著作中的完全图像分类器。我们提出了分割池(SP)方法在不同纵横比和比例尺的位置上均匀地提取局部特征块，用于域的对抗性比对我们提出了分割池(SP)方法，在不同纵横比和比例尺的位置上均匀地提取局部特征块用于域的对抗性比對。

具体来说给定网格宽度w和高度h，建议的分割池首先为x轴和y轴生成随机偏移量sx和sy分别从0到整个网格宽度w和高度h(即， 0<sx<w, 0<sy<h, sx, sy∈N)如图2左上方媔板所示。在输入图像上形成一个随机网格其偏移量(sx, sy)从输入图像的左上角开始。这种随机抽样方案在静态网格(可能产生有偏差的抽样)和耗尽所有冗余和过度抽样的网格位置之间进行了权衡

网格窗口宽度和高度h被设置成比例和比例作为锚框在更快的R-CNN。我们根据经验选择3尺喥(160年大规模的256年,中等规模,96年规模小,相应的特征尺寸16,10和6 relu_5_3 VGG16网络)和3纵横比(0.5、1、2),导致9双w和h每一对,准备然后non-border矩形网格生成与ROI池汇集成固定大小的功能。池允许不同大小的网格与单个域分类器兼容而不改变提取的特征的分段特征。形式上设f为特征提取器，X为输入图像集合我们在彡个尺度上执行分割池，结果分别是spl(f(X))、spm(f(X)和sps(f(X))我们根据量表将它们分开，因为我们想要独立地研究不同量表的贡献这些局部斑块特征可以反映像不同光照、天气变化等图像级域的变化。由于这些位移分布在整个图像上这种现象对于目标检测更为明显，因为输入图像通常较夶

然后，我们开发了图像级自适应模块该模块利用匹配的局部特征进行多尺度对齐。具体地说它首先将从分割池中提取的局部特征配对，为三个尺度中的每个组成两个组从而处理图像级别的移动。例如对于小尺度的patch，

在这里，第一组Gs1中的对仅由源域中的样本组荿而第二组Gs2中的对由源域中的一个样本和目标域中的另一个样本组成。这种配对方案有效地扩展了有限的目标域特征样本

为了适应检測模型，采用领域对抗性学习目标对构建的两组特征进行对齐领域对抗性学习利用生成对抗性学习的原理，通过特征发生器和领域鉴别器上的对抗性目标使近似的领域差异距离最小化。因此数据分布是一致的，源任务网络可以用于目标域具体来说，域鉴别器试图将特征划分为源域和目标域而特征生成器则试图混淆鉴别器。小尺度判别器

这样鉴别器就可以清楚地区分源-源特征对和源-目标特征对。該生成器的目标是通过最大限度地增加上述损失将两个域的特征转换为鉴别器，使其无法被区分

对于中、大型鉴频器，如

也可以得箌类似的损耗。我们为每个量表使用3个独立的鉴别器此外，该模块的运行不需要监视因此，它可以用于无监督域自适应(UDA)综上所述，圖像级鉴别器的目标是最小化:

特征生成器的目标是最大化

为了减少目标实例级域的转移我们提出了实例级自适应模块，该模块对成对的目标特性进行语义对齐

具体来说，我们将更快的R-CNN ROI抽样扩展到实例ROI抽样更快的R-CNN ROI抽样方案对ROI进行抽样，为分类和回归头创建训练就变强数據默认情况下，它用IOU阈值0.5分隔前台和后台roi并以特定的比例(例如1:3)对它们进行采样。不同的是我们提出的实例ROI抽样保持所有具有较高IOU阈徝的前台ROI(即， 0.7在我们的实现中)以确保ROI更接近真实的目标区域，并适合对齐源域图像和目标域图像的前景ROI特征，根据它们的类别通过Φ间层(即，将ROI池后的各层进行分类和回归得到源目标特征集Ois和目标对象特征集Oit。这里

是类标签并且C是总共类的数量并且C是总共类的数量。然后他们进一步配对成两组相同的方式作为图像水平补丁功能导致

输出，其目标是最小化:

表示第一组第i类的鉴别器输出相应地，特征发生器的目标是最小化

它的目的是混淆两个域之间的鉴别器同时避免对其他类的错误分类。

3.4、源模型特征正则化

在对抗性学习中訓练就变强不稳定性是一个常见的问题，在训练就变强数据不足的情况下训练就变强不稳定性更为严重，这可能导致过度适应使用有限的目标数据进行微调也不可避免地会导致过度拟合。我们采用强正则化的方法来解决这种不稳定性通过强迫自适应模型在l2差分意义下對源输入产生与源模型一致的特征响应。其目的是避免对有限的目标样本过度更新学习表示从而降低性能。在图像到图像的转换方法中也采用了相似形式的l2惩罚来约束内容的变化。形式上设fs和ft分别为源模型和自适应模型的特征提取器。则源模型特征正则化(SMFR)项为：

其中w囷h为特征图的宽度和高度然而，目标检测更关注局部的前景特征区域而背景区域往往是不利的优势和噪声。我们发现直接对全局特征圖进行正则化会导致在适应目标域时出现严重的退化因此，我们建议将feature map上的前景区域估计为具有IOU的锚点位置其中ground truth框大于阈值(在实现中使用0.5)。表示M为估计的前景掩码然后我们对提出的正则化修改如下:

其中k为正掩模位置的个数。部分原因是[1]中的“内容相似度损失”它使鼡可用的呈现信息对生成的图像的前景区域施加l2惩罚。

使用源模型初始化框架并在以下目标之间进行优化:

步骤1、最小化以下损失w.r.t.全检模型:

表示对源数据更快的R-CNN检测训练就变强损耗，

为控制损耗交互作用的超参数均衡

步骤2、将下列损失降至最低:

在本节中，我们给出了该方法在多个数据集构建的不同领域移动的自适应场景的评估结果实验中采用基于VGG16网络的Fast R-CNN作为检测模型。

我们采用以下四个数据集来建立跨領域的适应场景以评估模型的适应能力和比较方法。SIM10K数据集包含10k个合成图像其中包含汽车、摩托车和人的边界框注释。Cityscapes数据集包含大約5000个精确注释的真实世界图像带有像素级的类别标签。在[5]之后我们使用实例掩码的框信封来包围框注释。雾蒙蒙的城市景观数据集是甴模拟雾的城市景观生成的Udacity自动驾驶数据集(简称Udacity)是一个开源的数据集，它以不同的光照、相机状态和周围环境作为城市景观进行采集

!C);場景5:城市景观到雾蒙蒙的城市景观(C!F)。前两个场景捕捉到从合成到真实数据领域的转移这一点很重要，因为从合成数据中学习是解决缺乏標记训练就变强数据的非常有前途的方法[6,38,33];场景3和场景4都是基于真实世界采集的数据集构建的主要针对光照、相机条件等领域的移位，这對实际应用非常重要;最后一个场景捕捉了从正常到雾天的极端天气变化从目标训练就变强集中抽取样本，对目标val集进行测试利用完整嘚源数据集对源模型进行训练就变强。

!C);场景5:城市景观到雾蒙蒙的城市景观(C!F)前两个场景捕捉到从合成到真实数据领域的转移，这一点很重偠因为从合成数据中学习是解决缺乏标记训练就变强数据的非常有前途的方法;场景3和场景4都是基于真实世界采集的数据集构建的，主要針对光照、相机条件等领域的移位这对实际应用非常重要;最后一个场景捕捉了从正常到雾天的极端天气变化。从目标训练就变强集中抽取样本对目标val集进行测试，利用完整的源数据集对源模型进行训练就变强

Baselines：我们将我们的方法与以下基线进行比较:(1)源训练就变强模型。该模型只使用源数据进行训练就变强并直接对目标域数据进行评估。(2)加入[43]ADDA是解决无监督对抗域适应问题的通用框架。最后在实验中對特征图进行对齐(3)域转移和微调(DT+FT)。该方法已作为[20]中的一个模块用于对目标域进行自适应检测。在UDA设置中我们使用CycleGAN训练就变强源图像並将其转换到目标域。在FDA设置中由于可用的目标域样本很少，我们在[22]中使用了只需要一个目标样式图像就可以训练就变强转换的方法這个基线表示为DTf+FT。(4)域自适应较快的R-CNN该方法是专门为无监督域自适应而开发的，称为FRCNN

我们通过对已建立的场景进行大量的实验来评估所提絀的方法为了量化每一步的相对效果，研究了不同配置下的性能在无监督域自适应(UDA)环境下，我们还评估了基于分割池的图像水平自适應算法具体来说，对于少镜头域适配(FDA)设置每次运行我们都执行以下步骤:(1)随机抽取固定数量的目标域图像样本，确保所需类被呈现;(2)模拟松散的标注过程得到带标注的目标域图像，即只随机标注固定数量的对象实例;(3)逐步结合我们方法的各个组成部分，运行自适应记录性能(AP);(4)对相同的采样图像运行比较方法并记录性能对于UDA设置，由于目标域中没有可用的注释因此只使用建议的基于拆分池的自适应组件。

凊景1的结果：如表1所示在FDA设置下，与源训练就变强模型相比三个不同尺度的图像级自适应模块分别提供了较好的增益。将二者进一步結合得到了更高的改善(平均AP增益2.7)，说明了不同尺度下比对的互补效应对象实例级自适应组件独立生成3.1 AP改进。将图像级组件与实例级模塊相结合进一步增强检测器，仅在实例级模块上增加1.6 AP仅在图像级自适应上增加2.0 AP，实现了两个模块的互补效果有限松散标注的目标样夲函数化虽然带来了较小的改进，但其增益与对抗性适应模块是正交的所有提议的组件的组合在原始源模型的基础上带来了5.2 AP boost，在UDA设置下原始源模型的性能已经超过了最先进的方法。很明显基线方法产生的改进较少。ADDA和FRCNN UDA方法几乎没有给探测器带来任何好处这表明它们鈈能有效地捕获和缓解只有少量目标数据样本的域转移。DTf+FT方法得到的AP增益约为1.0这表明样式转移方法只能微弱地捕捉到我们设置中的域转迻，而在我们的设置中这些真实图像与漫画或艺术作品[22]之间没有如此剧烈的样式差异。对于UDA设置由于有足够的目标域数据可用，三种仳较方法都得到了较好的结果而我们提出的基于拆分池的适应带来了更好的结果。我们观察到6.4 AP增益超过基准源模型表明该模块有效地捕获和减轻了域偏移，在两种情况下少数或足够的目标域图像是可用的。

别的四种场景的结果：如表1至表3所示对于所有其他场景，结果与场景-1具有相似的趋势对于FDA设置，我们的方法为源训练就变强模型提供了有效的适应性显著地超过了所有基线，并在UDA设置下优于最先进的方法对于UDA设置，我们的方法使用提出的基于分割池的自适应生成SOTA性能有趣的是，场景1 (S!U)的性能比场景3 (C!U)要低得多尽管它们共享相哃的测试集。在方案2和方案4中也观察到类似的趋势

图3显示了场景2 (S!C)的一些定性结果。可以清楚地看到1)自适应模型对每个目标输出更紧密嘚边界框，表明具有更好的定位能力;2)自适应模型对检测到的目标具有较高的置信度特别是对较难检测的目标(如第一张被道路标志遮挡的圖像中的汽车);3)源模型遗漏了一些小目标，而自适应模型可以检测到这些小目标

匹配的影响：如表4所示，我们独立地研究了对分割池模块囷目标实例级自适应模块的配对效果当不配对时，我们减少相应鉴别器的输入通道数保持其他部分不变。如果没有引入配对自适应性能会显著下降。这表明该配对对增强识别器学习输入数据的有效性

示例图像和带注释的框的数量：我们研究了在场景1、4和5下改变目标域图像的数量和标注边界框的效果。我们画出了所有抽样轮的均值曲线由于car是场景-1和场景-4的目标域的丰富类，我们将带注释的框号从1改為最多6个框(考虑到一小组图像包含少于6个car对象最多6个框)。我们将目标图像的数量从1个指数变化到8个指数对于场景5，对于大多数类(如卡車、公共汽车、火车、骑手)一个图像中只有一个实例，我们只为每个图像注释一个框图4(a)(b)和图4(c)中涉及的目标实例最多为48个(6个框*8张图)和64个(1個框*8类*8张图)，所以我们只检查了8张图这就足够FDA进行评估了。如图4所示结果表明，使用更多的图像和更多的框会产生更高的适应结果這是一种常见的现象。随着图像数量呈指数增长近似线性的改善

在鉴别器之间共享参数：对于基于分割池的自适应，我们使用相同的鉴別器体系结构具有不同规模的共享参数。而鉴别器也可以是独立的不共享参数。如表6所示可以清楚地观察到，在小、中、大尺度之間共享鉴别器可以提供更好的结果这一有趣的现象表明，不同尺度的图像斑块具有相似的图像水平域位移表征特征它们是互补的，并將它们结合起来进一步增强了鉴别器，从而得到更好的域不变表示

共享不同鉴别器之间的参数：对于基于分割池的自适应，我们使用楿同的鉴别器体系结构具有不同规模的共享参数。而鉴别器也可以是独立的不共享参数。如表6所示可以清楚地观察到，在小、中、夶尺度之间共享鉴别器可以提供更好的结果这一有趣的现象表明，不同尺度的图像斑块具有相似的图像水平域位移表征特征它们是互補的，并将它们结合起来进一步增强了鉴别器，从而得到更好的域不变表示

从SMFR中获得的稳定性：对小数据集进行微调不可避免地会导致发球过度拟合，而不稳定性是对抗性训练就变强中一个常见的恼人特征为了评估所提出的源模型特征正则化(SMFR)的重要性，在一轮样本内我们测量了在10次不同随机参数初始化的情况下自适应模型性能的标准推导。表5说明1)微调直接导致方差非常大且存在严重的过拟合，被調优模型的性能比源训练就变强模型差;采用SMFR大大降低了方差模型实际上受益于有限的目标样本数据。2)虽然SMFR并没有显著改善拟议组件的整體性能(即sp,

在本文中，我们探讨了仅利用少量的目标域松散注释图像样本来减轻由域偏移引起的目标检测器性能下降的可能性基于Faster R-CNN，通過精心设计自适应模块和适当的正则化我们的框架能够在目标样本很少的情况下，对源训练就变强模型进行鲁棒性的自适应并且仍然優于访问完整未标记目标集的现有方法。

}

Faster R-CNN是互怼完了的好基友一起合作出來的巅峰之作本文翻译的比例比较小，主要因为本paper是前述paper的一个简单改进方法清晰，想法自然什么想法？就是把那个一直明明应该換掉却一直被几位大神挤牙膏般地拖着不换的选择性搜索算法即区域推荐算法。在Fast R-CNN的基础上将区域推荐换成了神经网络而且这个神经網络和Fast R-CNN的卷积网络一起复用，大大缩短了计算时间同时mAP又上了一个台阶，我早就说过了他们一定是在挤牙膏。

最新的检测网络都依赖區域推荐算法来推测物体位置像SPPnet[1]和Fast R-CNN[2]已经大幅削减了检测网络的时间开销，但区域推荐的计算却变成了瓶颈本作将引入一个区域推荐网絡（RPN）和检测网络共享全图像卷积特征，使得区域推荐的开销几近为0一个RPN是一个全卷积网络技能预测物体的边框，同时也能对该位置进荇物体打分RPN通过端到端的训练就变强可以产生高质量的推荐区域，然后再用Fast R-CNN进行检测通过共享卷积特征，我们进一步整合RPN和Fast R-CNN到一个网絡用近期流行的“术语”说，就是一种“注意力”机制RPN组件会告诉整合网络去看哪个部分。对于非常深的VGG-16模型[3]我们的检测系统在GPU上達到了5fps的检测帧率（包括所有步骤），同时也在PASCAL VOC和MS COCO数据集上达到了最好的物体检测精度而对每张图片只推荐了300个区域。在ILSVRC和COCO 2015竞赛中Faster R-CNN和RPN昰多个赛道都赢得冠军的基础。代码已经公开

本文的一个早期版本发布在[10]上。从那时起RPN和Faster R-CNN的框架就已经被采用，并应用到其他的方法Φ比如3D物体检测[13]，基于组件的检测[14]实力分割[[13]和图像字幕[16]。我们的快速而有效的物体检测系统已经构建在想Pinterests[17]这样的商业系统中提升了鼡户交互。

R-CNN和RPN也用于多个其他领先名词的团队所使用这些结果都说明我们的方法不仅实用省时，而且有效精准

用于物体检测的深度网絡。R-CNN方法[5]端到端地训练就变强CNNs用于将推荐区域分类成物体类别或背景。R-CNN主要扮演了分类器的角色它并不预测物体的边框（除了用于约束框回归的净化模块）。他的精度依赖于区域推荐模块的性能（见[20]中的比较）多篇论文推荐是用深度网络预测物体约束框 [25], [9], [26], [27]。OverFeat方法中一個全连接网络用于训练就变强预测定位任务的单一物体的框坐标。为了检测多个特定类的物体又将全连接层转变成卷积层MultiBox方法[26][27]也使用网絡产生推荐，它的最后一个全连接层可以同时预测多个未知类的框推广了OverFeat的“单框”风格。这些未知类方框也被R-CNN[5]所使用MuiltiBox推荐网络应用於单张图片的一个裁切，或者一个大型图片的多个裁切（比如224×224）和我们的全卷积模式完全不同。MultiBox并不在推荐和检测网络之间共享特征后面结合我们的方法，我们将深入讨论OverFeat和MultiBox和我们的工作同时进行的DeepMask方法[28]也被开发出来用于语义推荐。

卷积计算的共享 [9], [1], [29],[7], [2]已经越来越受關注。OverFeat[9]中针对分类、定位、检测时会只从一个图像金字塔计算卷积特征尺寸自适应的SPP[1]也是建立在共享卷积特征图智商的，在基于区域的粅体检测[1][30]和语义分割[29]上很有效Fast R-CNN[2]使得端到端的检测器训练就变强全部建立在共享卷积特征之上，表现出了有引人注目的精度和速度

我们嘚物体检测系统，成为Faster R-CNN有两个模块组成第一个模块是深度卷积网络用于生成推荐区域，第二个模块是Fast R-CNN检测器[2]使用推荐的区域。整个系統是一个单一的统一的网络（图2）使用近期流行的属于“注意力”[31]机制，RPN模块告知Fast R-CNN看向哪里3.1节我们介绍网络的设计和特性。3.2节我们開发算法用于训练就变强模块和特征共享。

特征推荐网络接收任意尺寸的图像输入输出一组矩形框代表物体推荐区域，每个区域都会有┅个物体性的打分我们使用完全卷积网络（FCN）[7]构建这个过程，本节将详细表述它由于我们的终极目标是共享Fast R-CNN和物体检测网络[2]之间的计算力，我们假定两个网络可以共享一套卷积层在实验中，我们研究了Zeiler和Fergus模型[32](ZF)他们就共享了5个卷积层，还研究了Simonyan 和Zisserman模型[3] (VGG-16)他们共享了13个卷积层。

为了产生区域推荐我们用一个小网络在最后一个卷积层的卷积特征图上滑动。每个滑动窗口都映射到一个更加低维度的特征（對ZF使用256对VGG使用512，后面跟一个ReLU[33]）这个特征再喂给两个并列的全连接层，一个框回归层（reg）和一个框分类层（cls）本文中，我们使用n=3,一个茬大图片（对于ZF和VGG来说分别是171和228像素）十分有效的感受野大小。这个迷你网络在单一位置的示意如图3（左）注意，由于迷你网络以滑動窗口的方式进行操作全连接层是在全部空间位置共享的。这个架构很自然就就实现成一个nxn的卷积网络跟两个1×1的卷积网络层（分别是reg囷cls）

在每个滑窗位置，我们同时预测多个区域推荐每个位置的最大滑窗推荐数量定位为k。这样reg层就有4k的输出编码k个框的坐标cls就有2k的預测对象还是非对象的概率的打分。k个推荐是针对k个参考框进行参数化的这个参考框我们称之为锚点。一个锚点就是正在关注的滑窗的Φ心并和缩放比例、宽高比想关联（图3左）（译者注：就是滑窗中心坐标、缩放比例、宽高比形成的三元组决定一个锚点）。默认我们使用3个缩放尺度和3个宽高比在每个滑动位置产生k=9个锚点。对于一个WxH（通常是2400）大小的卷积特征图总共有WHk个锚点。

我们方法有一个重要特性就是平移不变性无论是锚点还是相对锚点计算推荐的函数都有这个特性。如果在一涨图片上移动一个物体推荐也应该平移并且相哃的函数应该能够在新的位置也计算出推荐来。我们的方法可以保证这种平移不变性作为对比，MultiBox方法[27]使用k-means产生了800个锚点却不能保持平迻不变性。因此MultiBox不能保证在物体平移后产生同样的推荐

1）x800）少了两个数量级。如果考虑特征映射层我们的推荐层也还是少一个数量级。我们预期这个方法可以在PASCAL VOC这样的小数据集上有更小的过拟合风险

多尺度锚点作为回归参照物

我们的锚点设计是解决多尺度问题的一种噺颖形式。如图1所示有两种流行的多尺度预测形式。第一种是基于图像/特征金字塔也就是DPM[8]和基于CNN的方法[9][1][2]。图像被缩放到各种尺度特征图(HOG[8]或深度卷积特征[9][1][2])也在每个尺度进行计算，参见图1（a）这种方式通常很有用，但是很耗时第二种方式是在特征图的多个尺度上使用滑窗。例如在DPM[8]中，不同缩放比例的模型分开训练就变强使用了不同的过滤器尺寸（诸如5×7,7×5）。如果这种方式解决多尺度问题可以看作是过滤器的金字塔，图1（b）第二种方式通常和第一种方式联合使用[8]。作为比较我们的基于锚点的方法是建立在锚点金字塔上的，昰否高效我们的方法使用不同尺度和不同宽高比的锚点作为参考分类和回归约束框。他之和单一尺度的图像和特征图有关并且使用单┅尺寸的过滤器，这些过滤器在特征图上进行滑动我们通过实验显示了我们这个方法解决多尺度和多尺寸问题的效果（表8）。由于基于錨点的多尺度设计我们可以和Fast R-CNN检测器[2]一样，只在单一尺度的图像上计算卷积特征多尺度锚点的设计是不用额外计算开销共享特征解决哆尺度问题的关键。

为了训练就变强RPNs我们设计了针对每个锚点的二分类标签（是否是一个物体）。我们给两类锚点标记位正例：（i）和標注框最大重合的锚点（ii）和任何标注框IoU重叠度超过0.7的对于一个真实标注可能会产生多个正例锚点。通常第二类情况就足够确定正例了但我们仍然采用第一类的原因是一些特别极端的案例里面没有正例。对于与标注框重叠度低于0.3的都标注为负例既正且负的锚点对训练僦变强没有帮助。结合这些定义我们参照Fast R-CNN中的多任务损失函数的定义我们的损失函数是：

对于约束框回归，我们对四个坐标参数化[5]：

【甴于faster r-cnn的设计十分简洁后续的英文原文十分易懂，感兴趣的可以直接阅读原文了略】

}

米需爱网