使用TensorFlow进行训练识别视频图像中物体技术頭條網

使用TensorFlow进行训练识别视频图像中物体

本教程针对Windows10实现谷歌公布的TensorFlow Object Detection API视频物体识别系统，其他平台也可借鉴。

本教程将网络上相关资料筛选整合（文末附上参考资料链接），旨在为快速搭建环境以及实现视频物体识别功能提供参考，关于此API的更多相关信息请自行搜索。

注意： windows用户名不能出现中文！！！

安装Python

注意： Windows平台的TensorFlow仅支持3.5.X版本的Python进入Python3.5.2下载页，选择 Files 中Windows平台的Python安装包，下载并安装。

安装TensorFlow

进入TensorFlow on Windows下载页，本教程使用最简便的组合 CPU support only + Native pip。

打开cmd，输入以下指令即进行TensorFlow的下载安装，下载位置为python\\Lib\\site-packages\\tensorflow：

打开 IDLE，输入以下指令：

如果出现如下结果则安装成功：

若出现问题，请参考TensorFlow on Windows下载页底端的常见问题。

安装Protoc

Protoc用于编译相关程序运行文件，进入Protoc下载页，下载类似下图中带win32的压缩包。

解压后将bin文件夹内的protoc.exe拷贝到c:\\windows\\system32目录下（用于将protoc.exe所在的目录配置到环境变量当中）。

安装git

进入git官网下载Windows平台的git，详细安装及配置注意事项可参考此文。

安装其余组件

在cmd内输入如下指令下载并安装相关API运行支持组件：

注意： Native pip会受电脑中另外Python应用的影响，博主因为之前做仿真安装了Anaconda，导致下载的jupyter等相关组件安装到了Anaconda内的site-packages文件夹，后期调用失败。

下载代码并编译

在cmd中输入如下代码：

从github下载谷歌tensorflow/models的代码，一般默认下载到C盘。

同样在cmd进入到models文件夹，编译Object Detection API的代码：

运行notebook demo

继续在models文件夹下运行如下命令：

浏览器自动开启，显示如下界面：

进入object_detection文件夹中的object_detection_tutorial.ipynb：

点击Cell内的Run All，等待三分钟左右（博主电脑接近报废），即可显示如下结果：

注意：要将图片名称设置的和代码描述相符合，如image1.jpg

TensorFlow Object Detection API中提供了五种可直接调用的识别模型，默认的是最简单的ssd + mobilenet模型。

可直接将MODEL_NAME修改为如下值调用其他模型：

<code>MODEL_NAME = 'ssd_inception_v2_coco_11_06_2017'

MODEL_NAME = 'rfcn_resnet101_coco_11_06_2017'

MODEL_NAME = 'faster_rcnn_resnet101_coco_11_06_2017'

MODEL_NAME = 'faster_rcnn_inception_resnet_v2_atrous_coco_11_06_2017'
/<code>

将模型换为faster_rcnn_inception_resnet，结果如下：

准确率确实获得了极大提高，但是速度却下降了，在博主的老爷机上需要五分钟才能跑出结果。

视频物体识别

谷歌在github上公布了此项目的完整代码，接下来我们将在现有代码基础上添加相应模块实现对于视频中物体的识别。

第一步：下载opencv的cv2包

在Python官网即可下载opencv相关库，点击此处直接进入。

博主安装的版本如下：

下载完成后，在cmd中执行安装命令

<code>pip install opencv_python-3.2.0.8-cp35-cp35m-win_amd64.whl
/<code>

安装完成后，进入IDLE输入命令

<code>import cv2 

/<code>

若未报错，则opencv-python库成功导入，环境搭配成功。

第二步：在原代码中引入cv2包

第三步：添加视频识别代码主要步骤如下：1.使用 VideoFileClip 函数从视频中抓取图片。2.用fl_image函数将原图片替换为修改后的图片，用于传递物体识别的每张抓取图片。3.所有修改的剪辑图像被组合成为一个新的视频。

在原版代码基础上，在最后面依次添加如下代码（可从完整代码处复制，但需要作出一些改变，当然也可以直接从下文复制修改后的代码）：

<code># Import everything needed to edit/save/watch video clips
import imageio
imageio.plugins.ffmpeg.download()

from moviepy.editor import VideoFileClip
from IPython.display import HTML
/<code>

此处会下载一个剪辑必备的程序ffmpeg.win32.exe，内网下载过程中容易断线，可以使用下载工具下载完然后放入如下路径：

<code>C:\\Users\\ 用户名 \\AppData\\Local\\imageio\\ffmpeg\\ffmpeg.win32.exe

def detect_objects(image_np, sess, detection_graph):
    # Expand dimensions since the model expects images to have shape: [1, None, None, 3]
    image_np_expanded = np.expand_dims(image_np, axis=0)
    image_tensor = detection_graph.get_tensor_by_name('image_tensor:0')

    # Each box represents a part of the image where a particular object was detected.
    boxes = detection_graph.get_tensor_by_name('detection_boxes:0')

    # Each score represent how level of confidence for each of the objects.
    # Score is shown on the result image, together with the class label.
    scores = detection_graph.get_tensor_by_name('detection_scores:0')
    classes = detection_graph.get_tensor_by_name('detection_classes:0')
    num_detections = detection_graph.get_tensor_by_name('num_detections:0')

    # Actual detection.
    (boxes, scores, classes, num_detections) = sess.run(
        [boxes, scores, classes, num_detections],
        feed_dict={image_tensor: image_np_expanded})

    # Visualization of the results of a detection.
    vis_util.visualize_boxes_and_labels_on_image_array(
        image_np,
        np.squeeze(boxes),
        np.squeeze(classes).astype(np.int32),
        np.squeeze(scores),
        category_index,
        use_normalized_coordinates=True,
        line_thickness=8)
    return image_np
/<code>

处理图像

<code>def process_image(image):
    # NOTE: The output you return should be a color image (3 channel) for processing video below
    # you should return the final output (image with lines are drawn on lanes)
    with detection_graph.as_default():
        with tf.Session(graph=detection_graph) as sess:
            image_process = detect_objects(image, sess, detection_graph)
            return image_process
/<code>

输入视频文件

<code>white_output = 'video1_out.mp4'
clip1 = VideoFileClip("video1.mp4").subclip(25,30) 

white_clip = clip1.fl_image(process_image) #NOTE: this function expects color images!!s
%time white_clip.write_videofile(white_output, audio=False)
其中video1.mp4已经从电脑中上传至object_detection文件夹，subclip（25,30）代表识别视频中25-30s这一时间段。
/<code>

原版视频：

展示识别完毕的视频：

<code>from moviepy.editor import *
clip1 = VideoFileClip("video1_out.mp4")
clip1.write_gif("final.gif")
/<code>

将识别完毕的视频导为gif格式，并保存至object_detection文件夹。

至此，快速教程结束。各位应该都能使用谷歌开放的API实现了视频物体识别。

知乎：何之源对于“谷歌开放的TensorFlow Object Detection API 效果如何？”的回答
林俊宇的博客：导入opencv-python库
myboyliu2007的专栏：ffmpeg安装方法
陈强：安装protocolbuffer详解
机器之心：如何使用TensorFlow API构建视频物体识别系统
windows安装git和环境变量配置

原创作者:withzheng，原文链接：https://blog.csdn.net/xiaoxiao123jun/article/details/76605928

欢迎关注我的微信公众号「码农突围」，分享Python、Java、大数据、机器学习、人工智能等技术，关注码农技术提升•职场突围•思维跃迁，20万+码农成长充电第一站，陪有梦想的你一起成长。

分享到:

閱讀更多 程序員前線 的文章

關鍵字: 2019科技 Windows Git

使用TensorFlow进行训练识别视频图像中物体

相關文章:

基于最小外接矩形的图像目标前景背景分离

Sketch基础教程（五）文本、图像

黑客帝国屏保源码！快拿去试试吧！炫酷无比

12.15 黑客帝国屏保源码！快拿去试试吧！炫酷无比

Python全国平均薪资25160

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

第一章 Spring Framework概述

opencv人工智能深度学习这样实现人脸的年龄检测

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

深入了解ProcessFunction的状态操作(Flink-1.10)

Redis内存分析工具--rdr安装与使用

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

一行代码提升迁移性能

利用相似几何信息，做可泛化3D形状分割模型

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

分布式缓存，真香

特征工程的力量

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

SpringBoot如何优雅的使用RocketMQ

css代码规范工具stylelint

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪