如何在物体检测代码中使用ROI Pool和ROI Align（PyTorch 1.0）

2019-10-19 22:08:07 AI公園

作者：Andrew Jong
编译：ronghuaiyang

导读

如果你想做一个与计算机视觉或图像处理相关的深度学习项目，你可能会用到ROI Pool和ROI Align层。虽然最初是为目标检测而构建的，但是ROI Pool的变体对于从图像的局部区域提取信息也很有用。

如果你想做一个与计算机视觉或图像处理相关的深度学习项目，你可能会用到ROI Pool和ROI Align层。虽然最初是为目标检测而构建的，但是ROI Poll的变体对于从图像的局部区域提取信息也很有用。例如，你可能想从一个人身上提取特定的身体部位：

如何在物体检测代码中使用ROI Pool和ROI Align（PyTorch 1.0）

在此图中，ROI Pool用来从图像中的六个任意大小的区域提取纹理信息。ROI Pooling将矩形转换成一个漂亮的方形的张量。

我发现了许多有用的文章，解释了ROI Pool和ROI Align在概念上是如何工作的，然而，我没有找到任何关于如何将ROI Pooling/Aglign层在我的神经网络中编写代码的清晰教程。

不幸的是，PyTorch没有内置ROI Pool(及其变体)。当然，你可以自己实现这些层。但是要实现一个实际的与gpu兼容的实现，你必须花时间在CUDA中编写代码。更实际的选择是使用第三方库。然而，这些库大多数都没有文档。

因此，这篇文章总结了我从几周的探索、实验和与无文档库的斗争中学到的东西。我将解释如何安装和编译第三方实现以供你的项目使用，以及如何使用所提供的ROI层的API。希望有了这个指南，我可以节省别人很多时间！

安装

我使用了来自https://github.com/jwyang/faster-rcnn.pytorch的ROI层实现。这是GitHub上最流行的fast-rcnn PyTorch库，因此提供了一个可靠的选择。另外，我认为这里的一些ROI层代码受Facebook的maskrcnn-benchmark库的影响很大。(Maskrcnn介绍了改进的变体，ROI Align！)

注意：我使用的是Python 3.7，但是这应该适用于任何Python版本(2.7或以上)。我还使用了PyTorch 1.0，但是PyTorch 0.4的用户应该能够进行一些小的调整。

首先，克隆jwyang的fast -rcnn.pytorch库。然后确保check out出pytorch-1.0分支。这是很重要的！编译步骤在master分支(对于PyTorch 0.4)和PyTorch -1.0分支之间有所不同。

git clone https://github.com/jwyang/faster-rcnn.pytorch.git
cd faster-rcnn.pytorch
git checkout pytorch-1.0

复制自述文件中的说明，使用pip安装requirements ，然后使用Python安装使用setup tools安装和编译：

jwyang/fast -rcnn截图。pytorch-1.0分支上的自述，显示编译指令。

pip install -r requirements.txt
cd lib
python setup.py build develop

要点：要能够使用ROI-Pool和ROI-Align层，必须在Python环境中安装 requirements.txt。否则会遇到segfault错误。如果使用conda，请确保激活的环境与用于编译库的环境相同。

要确保安装成功，打开Python提示符并键入：

>>> import sys
>>> sys.path.append(“/[location_to]/faster-rcnn.pytorch/lib”)
>>> from model.roi_layers import ROIPool # PyTorch 1.0 specific!
>>> roi_pool = ROIPool((2,2), 1)

[location_to]是fast -rcnn所在的位置。sys.path语句将编译后的库附加到Python的路径中，这样我们就可以导入“ROIPool”。

如果一切顺利，应该不会出现导入错误。如果导入失败，则说明编译出错或路径不正确。

注意：import语句是特定于PyTorch 1.0的。如果你使用PyTorch 0.4，正确的导入语句是：> from model.roipooling.modules import roipool # PyTorch 0.4

基本用法

好！既然我们已经编译了这个库并验证了它是可以工作的，那么我们如何使用在实际项目中使用ROI Pool和ROI Align呢？

用法如下：

如果你已经对如何加载ROI文件以及spatial_scale和sampling_ratio的含义很有信心，那么你就可以往下走了！只是需要注意一下sampling_ratio的值意味着ROI Align将会对每个bin采样sampling_ratio²个点，例如sampling_ratio=2将通过双线性插值对每个bin采样4个点，然后对这些点进行平均。

如果你不知道这些词的意思，那就继续读下去！

细节

首先，如果你还不知道ROI Pool的概念，请阅读教程：(https://deepsense.ai/region-of-interest-pooling-explained/)。

ROI Pool 需要 1)图像，2)感兴趣区域(ROI)进行提取。这个图像很简单—就是标准的张量。你的DataLoader的输出生成一个(batch×channel×height×width)形状的张量。但是我们如何来用ROI呢？ROIs长什么样呢？

ROI Data长什么样子？

按照实际标准，ROIs是用第一列中的image-ID进行格式化的。其余四列包含边框左上角和右下角的坐标。

在上面的示例中，对于image-ID 0有两个roi，对于image-ID为1有两个roi。

通常，所有roi都存储在一个csv文件中。我们可以使用pandas将它加载到一个numpy数组中，然后将该数组转换为一个PyTorch张量。最后，创建一个自定义数据集和DataLoader将图像+ roi输入到你的神经网络。

当我们向ROI层提供数据时，输入维度必须如下所示：

ROI维度和图像id的问题

但是，你可能会注意到，dataloader总是为批大小添加额外的维度。例如，如果你的minibatch处理大小为4，那么DataLoader将生成一个 (4×n×5)的ROI张量。但是roipool和roialign 只适用于(n×5)张量。我们该怎么办？

解决方法是用PyTorch的view()函数重新构造ROI张量：

# turn our (batch_size×n×5) ROI into just (n×5)
rois = rois.view(-1, 5)

另一个问题是图像id将不会与批处理索引对齐。这是因为数据集中的每个图像id都是惟一的，但是批处理索引是0~batch_size。因此，我们必须手动“重置”图像id：

# reset ROI image-ID to align with the 0-indexed minibatch
rois[:, 0] = rois[:, 0] - rois[0, 0]

ROI层初始化参数

我们构建如下所示的ROI层，但是这些参数都是什么意思呢？

# init the layers
roi_pool = ROIPool((width, height), spatial_scale)
roi_align = ROIAlign((width, height), spatial_scale, sampling_ratio)

让我们从一个典型的CNN开始。下面是VGG16的示意图：

CNN在网络中的传播中可以有效的对图像进行下采样。这个比例因子是空间缩放比例。例如，第4层(28×28)相对于输入(224×224)的空间尺度为28/224=0.125。如果我们要在第4层进行ROI池，我们将向spatial_scale参数传递0.125。

在ROI align中sampling_ratio是什么？为了理解这一点，我们需要了解一下ROI是如何对齐的。(http://check%20out%20page%203%20from%20this%20excellent%20writeup/)的第3页提供了一个很好的解释。

每个“bin”在ROI Align 层输出大小中的值由双线性插值样本的平均确定。在左边的图像中，每个bin有4个样本(蓝色的点)。

参数sampling_ratio决定采样的“宽度”。例如，如果sampling_ratio=2，采样将有2×2=4个点。(如果你想自己验证这一点，请查看实现的底层C源代码。)

总结

希望现在你已经了解了如何在PyTorch中为你自己的神经网络添加ROI层。我们介绍了如何从jwyang的库中安装ROI实现，如何在代码中使用层和ROI，并解释了初始化参数。如果你有任何问题，请在评论中告诉我。编程快乐！

英文原文：https://medium.com/@andrewjong87/how-to-use-roi-pool-and-roi-align-in-your-neural-networks-pytorch-1-0-b43e3d22d073

分享到:

閱讀更多 AI公園 的文章

關鍵字: 人工智能 Fac 代码

如何在物体检测代码中使用ROI Pool和ROI Align（PyTorch 1.0）

导读

相關文章:

缓冲池(buffer pool)，这次彻底懂了！！！

HALCON中级篇：ROIs

关于 vertical-align 你应该知道的一切

同源建模总结（二） 具体命令详解

白话 NLP，3 个因果告诉你 Mask 矩阵因何而产生？

一次 Druid 连接池泄露引发的血案

一文让你学会手动创建线程池

Python高级编程之消息队列(Queue)与进程池(Pool)实例详解

实例详解：python高级编程之消息队列(Queue)与进程池(Pool)

01.14 深入理解css之vertical-align

springboot实现java代理IP池 Proxy Pool，供可用率达到95%代理IP

解决mysql服务器Cannot allocate memory for the buffer pool

css实现两端对齐:text-align-last:justify

DUBBO Thread pool is EXHAUSTED! 的问题

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

第一章 Spring Framework概述

opencv人工智能深度学习这样实现人脸的年龄检测

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

深入了解ProcessFunction的状态操作(Flink-1.10)

Redis内存分析工具--rdr安装与使用

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

一行代码提升迁移性能

利用相似几何信息，做可泛化3D形状分割模型

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

分布式缓存，真香

特征工程的力量

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

SpringBoot如何优雅的使用RocketMQ

css代码规范工具stylelint

同源建模总结（二）具体命令详解

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪