大数据文摘转载

2018/05/21 14:21

Yanruo、小鱼编译

从R-CNN到YOLO，一文带你了解目标检测模型

这是一份详细介绍了目标检测的相关经典论文、学习笔记、和代码示例的清单，想要入坑目标检测的同学可以收藏了！

R-CNN

R-CNN是2014年出现的。它是将CNN用于对象检测的起源，能够基于丰富的特征层次结构进行目标精确检测和语义分割来源。

如何确定这些边界框的大小和位置呢？R-CNN网络是这样做的：在图像中提出了多个边框，并判断其中的任何一个是否对应着一个具体对象。

Fast R-CNN

2015年，R-CNN的作者Ross Girshick解决了R-CNN训练慢的问题，发明了新的网络Fast R-CNN。主要突破是引入感兴趣区域池化（ROI Pooling），以及将所有模型整合到一个网络中。

你可以通过以下GitHub链接查看模型的各种实现代码：

https://github.com/rbgirshick/fast-rcnn

https://github.com/precedenceguo/mx-rcnn

https://github.com/mahyarnajibi/fast-rcnn-torch

https://github.com/apple2373/chainer-simple-fast-rnn

https://github.com/zplizzi/tensorflow-fast-rcnn

这里还有一个利用对抗学习改进目标检测结果的应用：

http://abhinavsh.info/papers/pdfs/adversarial_object_detection.pdf

https://github.com/xiaolonw/adversarial-frcnn

Faster R-CNN

2015年，一个来自微软的团队（任少卿，何恺明，Ross Girshick和孙剑）发现了一种叫做“Faster R-CNN”的网络结构，基于区域建议网络进行实时目标检测，重复利用多个区域建议中相同的CNN结果，几乎把边框生成过程的运算量降为0。

你可以在这里看到关于Faster R-CNN的更多介绍，包括PPT和GitHub代码实现：

http://web.cs.hacettepe.edu.tr/~aykut/classes/spring2016/bil722/slides/w05-FasterR-CNN.pdf

Matlab

https://github.com/ShaoqingRen/faster_rcnn

Caffe

https://github.com/rbgirshick/py-faster-rcnn

MXNet

https://github.com/msracver/Deformable-ConvNets/tree/master/faster_rcnn

PyTorch

https://github.com//jwyang/faster-rcnn.pytorch

TensorFlow

https://github.com/smallcorgi/Faster-RCNN_TF

Keras

https://github.com/yhenon/keras-frcnn

C++

https://github.com/D-X-Y/caffe-faster-rcnn/tree/dev

SPP-Net（空间金字塔池化网络）

SPP-Net是基于空间金字塔池化后的深度学习网络进行视觉识别。它和R-CNN的区别是，输入不需要放缩到指定大小，同时增加了一个空间金字塔池化层，每幅图片只需要提取一次特征。

YOLO模型

YOLO是指标准化、实时的目标检测。

可以先看大数据文摘翻译的这个视频了解YOLO：

TED演讲 | 计算机是怎样快速看懂图片的：比R-CNN快1000倍的YOLO算法

有了YOLO，不需要一张图像看一千次，来产生检测结果，你只需要看一次，这就是我们为什么把它叫"YOLO"物体探测方法（You only look once）。

代码实现：

https://github.com/pjreddie/darknet

https://github.com/gliese581gg/YOLO_tensorflow

https://github.com/xingwangsfu/caffe-yolo

https://github.com/tommy-qichang/yolo.torch

https://github.com/nilboy/tensorflow-yolo

YOLOv2模型

时隔一年，YOLO作者放出了v2版本，称为YOLO9000，并直言它“更快、更高、更强”。YOLO v2的主要改进是提高召回率和定位能力。

各种实现：

Keras

https://github.com/allanzelener/YAD2K

PyTorch

https://github.com/longcw/yolo2-pytorch

Tensorflow

https://github.com/hizhangp/yolo_tensorflow

Windows

https://github.com/AlexeyAB/darknet

Caffe

https://github.com/choasUp/caffe-yolo9000

YOLOv3模型

再次改进YOLO模型。提供多尺度预测和更好的基础分类网络。相关实现：

https://pjreddie.com/darknet/yolo/

https://github.com/pjreddie/darknet

https://github.com/experiencor/keras-yolo3

https://github.com/marvis/pytorch-yolo3

SSD（单网络目标检测框架）

SSD可以说是YOLO和Faster R-Cnn两者的优势结合。相比于Faster R-Cnn，SSD的目标检测速度显著提高，精度也有一定提升；相比YOLO，速度接近，但精度更高。

DSOD（深度监督目标检测方法）

与SSD类似，是一个多尺度不需要proposal的检测框架，是一种完全脱离预训练模型的深度监督目标检测方法。

相关技术

基于区域的卷积神经网络

来源：个人主页 Girshick

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

池化技术

池化（Pooling）是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。有多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合。通常来说，CNN的卷积层之间都会周期性地插入池化层。

来源：cs231n

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

卷积技术

TensorFlow技术

TensorFlow是一个开源软件库，用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品，如语音识别、Gmail、Google 相册和搜索，其中许多产品曾使用过其前任软件DistBelief。

来源：维基百科

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在维空间内，有个分量的一种量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换。称为该张量的秩或阶（与矩阵的秩和阶均无关系）。在数学里，张量是一种几何实体，或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达，记作标量的数组，但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中，表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了，它们都是二阶张量，对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

大数据技术技术

大数据，又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源：维基百科

MobileNets技术

MobileNet是专用于移动和嵌入式视觉应用的卷积神经网络，是基于一个流线型的架构，它使用深度可分离的卷积来构建轻量级的深层神经网络。通过引入两个简单的全局超参数，MobileNet在延迟度和准确度之间有效地进行平衡。MobileNets在广泛的应用场景中有效，包括物体检测、细粒度分类、人脸属性和大规模地理定位。

来源：arXiv

MXNet技术

MXNet是开源的，用来训练部署深层神经网络的深度学习框架。它是可扩展的,允许快速模型训练,并灵活支持多种语言（C ++，Python，Julia，Matlab，JavaScript, Go，R，Scala，Perl，Wolfram语言）

来源：Wikipedia

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia