fastrcnn网络模型 rpn 怎么训练

Region Proposal(候选区域),就是预先找出图中目标可能出现的位置,通过利用图像中的纹理、边缘、颜色等信息,保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率(IoU,Intersection-over-Union)。

1、 训练步骤繁琐(微调网络+训练SVM+训练bbox);

2、 训练、均速度慢 ;

}

面试的时候面试官很详细的问了rpn网络的最后几层,虽然之前跑过,也看过一些博客写的,但是总是觉得似懂非懂,而且现在觉得很多博客也写的似懂非懂的,所以只能深入了解读一下代码。Faster rcnn代码的体系真的挺庞杂的。

rcnn的框架放在这里。RPN网络的输出是(4+2)*9,anchors是W*H*(4+2)*9。所以说训练RPN网络的时候,输入是一张图片,然后在这张图片中找出正样本和负样本,总共256个样本,正常时1:1的正负样本比例,但是如果正样本不够了,剩下的就用负样本补齐。训练的时候,对于一个feature map的每一个小点,进行一次预测,得到对应九个尺度的anchor的预测值,并加到损失函数中。这样一张图就相当于一个batch为256的训练集。训练完后,生成proposals,采用NMS算法留下2000个proposals做Fast-rcnn的训练输入。对Pascal-Voc数据集有5000个训练图片,5000个测试图片,20类物体。COCO8万的训练图片,4万的验证图片,2万的测试图片。VGG16能达到73.2%的准确率。

其实总的来说,我的问题就在于ROI-pooling怎么计算的,现在看完,应该是这样的。首先用generate产生anchors,对于每个anchor的基础大小是16,然后针对ratio和scale得到合适的九个anchors。这样得到的anchors是图片的尺寸,而不是特征图的尺寸。



这是rpn的网络,可以看出前面提取特征的层是一样的,但是后面的会选择性沉默,训练rpn时,沉默fastrcnn的层,训练

再训练fastrcnn,所以说总共是四步。

最后的最后,感慨一句,看了这么多博客,还是原文解释的好呀!!!所以呀,要看原文!!

}

我要回帖

更多关于 fastrcnn 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信