当前位置:首页 > 范文大全 > 公文范文 >

公文范文

基于Transformer改进YOLO,v4的火灾检测方法

2022-03-31 10:42:16公文范文
摘要:针对火灾检测算法检测多尺度火焰和烟雾精度低,且实时性差的问题,提出了一种基于Transform

摘 要:
针对火灾检测算法检测多尺度火焰和烟雾精度低,且实时性差的问题,提出了一种基于Transformer改进YOLO v4的火灾检测方法。首先,结合MHSA(Multi-Head Self-Attention)改进了CSPDarknet53主干网络,建模全局依赖关系以充分利用上下文信息。此外,基于MHSA改进了PANet模块进行多尺度特征图融合,获取更多的细节特征。为验证改进方法的有效性,与YOLO v4、YOLO v3等算法进行比较。实验证明,不仅能够检测多尺度目标,且视频监控场景下达到实时性,具有准确率高、误报率低、检测实时性等优点,满足监控视频场景下的火灾检测任务。

关键词:
深度学习; 注意力机制; YOLO v4算法; 火灾检测

文章编号:
2095-2163(2021)07-0086-05中图分类号:TP183文献标志码:
A

Fire detection method based on Transformer improved YOLO v4

WANG Guorui

(College of Computer Science and Engineering, Shandong University of Science and Technology, Qingdao

Shandong 266590, China)

【Abstract】Aiming at the problem of low accuracy and poor real-time performance of  the fire detection algorithms in detecting multi-scale flames and smoke, a fire detection method based on Transformer improved YOLO v4 is proposed. First, combined with MHSA (Multi-Head Self-Attention) to improve the CSPDarknet53 backbone network,  global dependencies is modeled to make full use of context information. In addition, based on MHSA, the PANet module is improved to perform multi-scale feature map fusion to obtain more detailed features. In order to verify the effectiveness of the improved method, it is compared with YOLO v4, YOLO v3 and other algorithms. Experiments have proved that it can not only detect multi-scale targets, but also achieve real-time performance in video surveillance scenarios. It has the advantages of high accuracy, low false alarm rate, and real-time detection, which can meet the fire detection tasks in surveillance video scenarios.

【Key words】deep learning; attention mechanism; YOLO v4 algorithm; fire detection

0 引 言

隨着社会的不断发展,各类灾害对公共安全与社会财富的危险性也相应地有所增加,其中火灾较为常见,防范与及时发现火灾越来越受到重视。传统的火灾检测方法,通常是采集温度、烟雾传感器数据进行火灾检测,缺点是误报率比较高、实时性较差。基于图像识别的火灾检测方式,因其具有响应快、事后追溯直观等特点,被广泛应用于监控视频场景下的火灾检测与实时报警任务。

近年来,深度学习技术在图像分类、目标检测等计算机视觉领域得到广泛应用,并取得丰硕的研究成果。基于深度学习的火灾检测方法主要通过CNN进行特征提取获取火灾图像特征,然后进行分类与回归获得检测结果。文献[1]提出基于改进YOLO v3[2]的火灾检测与识别方法,通过改进YOLO v3解决小目标识别性能不足的问题。文献[3]提出嵌入DenseNet[4]结构和空洞卷积模块改进YOLO v3的火灾检测方法,通过在Darknet-53[5]中嵌入空洞卷积模块来扩展感受野,提升对多尺度目标火灾的特征提取效果,其本质是充分利用上下文信息。文献[6]采用Anchor-Free网络结构的实时火灾检测算法,优点是避免了Anchor方法中超参数过多、网络结构复杂的缺点,主干网络选取MobileNetV2[7],同时引入了特征选择模块。上述火灾检测方法存在以下问题:

(1)主干网络多为图像分类任务设计的,未针对目标检测任务对进行优化,导致算法缺乏鲁棒性。

(2)通过堆叠卷积模块扩展网络深度,虽然获得良好的检测效果,但难以达到实时性。

(3)针对火灾小尺度目标检测任务性能不足。

在此基础上,通过借鉴Bottleneck Transformer[8]算法设计思想,提出了一种改进YOLO v4[9]的火灾检测方法,主要改进点如下:

(1)在原CSPDarknet53[10]中引入了MHSA(Multi-Head Self-Attention)层,有效地将目标之间的信息与位置感知相关联,增强网络全局依赖关系建模的能力,充分利用多尺度上下文信息,提升火灾小目标的检测能力。

(2)采用同样的方式对PANet[11]模块进行优化,改善多尺度特征融合能力,獲取更多特征细节。

实验表明,改进的YOLO v4算法在监控视频场景下检测精度达到94%,检测速度达到26帧/s,优于现有的其他火灾检测算法,满足监控视频场景下的火灾检测。

1 YOLO v4与 MHSA原理

1.1 YOLO v4算法原理

YOLO v4算法是一种端到端的实时目标检测框架,其网络结构如图1所示,该网络主要包括CSPDarknet53、SPP附加模块[12]、PANet路径聚合模块、YOLO v3 头部。

在Darknet53基础上引入CSP结构,减少了计算量并增强梯度表现,主要思想:在输入block之前,分为2个部分。其中,一个部分直接通过一个短路进行连接,该方式降低了20%的计算量,提高了计算能力。同时使用Mish[13]激活函数,在PANet中使用了Leaky relu激活函数,通过上述方式使得YOLO v4的检测精度更高。

SPP附加模块与PANet路径聚合网络称为Neck结构,优化了多尺度特征融合的能力。研究中,SPP附加模块采用5×5、9×9、13×13三种不同尺度的最大池化操作,扩展了感受野。PANet路径聚合网络主要通过从底向上的路径增强、自适应特征池化、全连接融合的方式形成新的不同尺度特征图。

1.2 MHSA模块网络结构

近年来,Transformer不仅在NLP领域取得可观成果,同时在CV领域获取巨大成功,比如图像分类任务的ViT[14]、目标检测任务的DETR[15]和Deformable DETR[16]模型,均是基于Transformer思想设计的。UC Berkeley和Google基于Transformers结构设计了BoTNet[8],是一种简单且功能强大的Backbone。通过仅在ResNet的最后3个bottleneck blocks中用多头注意力层(Multi-Head Self-Attention, MHSA)替换3×3空间卷积,如图2所示。MHSA层如图3所示,引入相对位置编码不仅考虑内容信息,而且考虑不同位置的要素之间的相对距离,有效地相关联物体之间的信息与位置感知。

2 改进的YOLOv4火灾检测方法

2.1 网络结构改进

2.1.1 特征提取主干网络的改进

主干网络由5个采用CSP单元模块组成,分别为CSPRes1、CSPRes2、CSPRes8-1、CSPRes8-2、CSPRes4,每个模块中有多个残差单元构建,参见图1。引入CSP结构单元,一定程度降低计算量,但难以建模全局依赖关系。本文借鉴了Bottleneck Transformer结构对主干网络改进,采用MHSA层替换3×3空间卷积层。通过上述方式不仅增强网络全局依赖关系建模的能力,同时减少了参数,降低了计算时延。

对主干网络的改进主要思路为2点:

(1)使用卷积从大图像中学习抽象和低分辨率的特征图。

(2)使用全局(all2all)Self-Attention来处理和聚合卷积捕获高层语义信息。

采用这种混合设计的方式,通过使卷积进行空间下采样并结合注意力模型集中在较小的分辨率上,同时可以有效地处理大尺度图像。具体改进思路如下:

(1)首先改进网络中CSPRes8-1与CSPRes8-2,CSPRes8-x模型,输入经过一层3×3卷积层处理后分成2个分支,第一分支仅经过一层1×1点卷积层处理,第二分支先经过一层1×1点卷积层处理以及循环经过8个ResBlock Bottleneck模块,紧接着经过一层1×1点卷积层,并与第一分支输入的特征图进行拼接,再将拼接后的特征图经过1×1点卷积处理后输出。将模块中3×3卷积层替换为MHSA层,如图4所示。

(2)主干网络中CSPRes4与CSPRes8-x模块结构相似,主要区别在于ResBlock Bottleneck结构不同,CSPRes4模块中ResBlock Bottleneck模块先经过3×3卷积层,然后是1×1点卷积处理。其次,CSPRes4经过4个ResBlock Bottleneck模块循环。具体改进方式将ResBlock Bottleneck模块中3×3卷积层替换为MHSA层,如图5所示。

2.1.2 PANet模块改进

PANet路径聚集模块为YOLO v4的Neck,参见图1。对PANet的改进,同样借鉴Bottleneck Transformer设计思想,将网络中部分3×3 CBL单位替换为MHSA层,如图6所示。

2.2 火灾检测方法流程

火灾检测方法以改进的YOLOv4网络结构为基础,火灾检测的主要流程如下:

(1)对构建的火灾检测训练集进行预处理,标签转换为YOLOv4标准训练集格式。

(2)将经过预处理的训练集图像输入到改进的CSPDarknet53网络进行特征提取。

(3)获取CSPRes8-1层、CSPRes8-2层为输出第一、第二尺度的特征,CSPRes4层经过SPP处理获取第三尺度的特征。

(4)上述三种尺度特征经过PANet层进行特征融合,获取76×76、38×38、19×19三种尺度的最终输出特征。

(5)分别将3种尺度特征输入的YOLOv4检测层,经过多轮训练生成最终的网络权值。

(6)测试阶段,将测试图像输入到YOLOv4网络中,调用训练得到的网络权值进行预测,并输出火灾检测结果。

3 实验结果与分析

3.1 火灾检测数据集

由于公開火灾数据集较少,通过采集互联网数据与视频监控数据两种方式,构建涵盖室内、野外、工厂、城市高楼、隧道等多个场景的火灾检测数据集。采集约5万张图片,通过数据清洗,12 886张用于构建数据集,如图7所示。

3.2 实验环境与模型训练

基于Ubuntu 18.04 操作系统,硬件配置为2块Intel 至强 E5 CPU,显卡为6块 16GB NVIDIA Tesla P100,内存500 GB。采用python与PyTorch深度学习框架搭建模型。

训练参数:初始学习率为0.001、动量初始值为0.9、权重衰减率为0.000 5,批处理大小为64,迭代次数为8 000,采用步阶衰减学习率调度策略。

3.3 实验结果分析

改进的YOLO v4分别与YOLO v3、YOLO v4对比实验,主要对比精确率、召回率、平均精度(mAP)和检测时间,见表1。

分析可知,改进YOLO v4算法相比YOLO v3、YOLO v4,精确率方面提升11.2%、7.4%,召回率方面提升8.9%、6.3%,mAP提升9%、4.8%。改进后的YOLO v4,检测速度比YOLO v3与YOLO v4均有大幅度提升,检测速度达到27帧/s。火灾检测结果如图8所示。

实验表明改进的火灾检测算法能够检测大尺度与小尺度的火焰与烟雾目标,既是在存在干扰目标、目标遮挡的复杂场景下,依然能够有效检测目标,具有检测精度高、误检率低、鲁棒性等优点。

4 结束语

针对YOLO v4火灾检测性能不足的问题,借鉴Bottleneck Transformer结构设计思想,引入MHSA层对YOLO v4主干网络CSPDarknet和PANet模块进行改进。由于火灾检测数据集较少,采集了大量图片与视频火灾数据,构建多场景火灾检测数据集。

通过对比YOLO v4、YOLO v3火灾检测方法表明,本文改进后的方法比现有的火灾检测方法具有更好的鲁棒性、更低的误检测率,检测精度与实时性均有良好的性能。测试集上达到94.6%的准确率、85.6%的召回率、87.3%的mAP。未来的研究工作中,重点研究结合Transformer改进网络进行优化,提升检测效果与实时性,以及扩展现有的火灾检测数据集,增加火灾样本的多样性,提升检测算法的泛化能力。

参考文献

[1]任嘉锋, 熊卫华, 吴之昊,等. 基于改进YOLOv3的火灾检测与识别[J]. 计算机系统应用, 2019, 28(12):171-176.

[2]REDMON J, FARHADI A. YOLOv3:
An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.

[3]张为, 魏晶晶. 嵌入DenseNet结构和空洞卷积模块的改进YOLO v3火灾检测算法[J]. 天津大学学报(自然科学与工程技术版), 2020, 53(9):100-107.

[4]HUANG G, LIU Z, LAURENS V, et al. Densely Connected Convolutional Networks[J]. arXiv preprint arXiv:1608.06993, 2016.

[5] REDMON J. Darknet:
Open source neural networks in C[EB/OL]. [2013-2016]. http://pjreddie.com/darknet/.

[6]晋耀,张为. 采用Anchor-Free网络结构的实时火灾检测算法[J]. 浙江大学学报(工学版), 2020, 54(12):163-169.

[7]SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2:
Inverted residuals and linear bottlenecks[J]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, UT, USA:
IEEE, 2018:4510-4520.

[8]SRINIVAS A, LIN T Y, PARMAR N, et al. Bottleneck transformers for visual recognition[J]. arXiv preprint arXiv:2101.11605, 2021.

[9]BOCHKOVSKIY A, WANG C Y, LIAO H. YOLOv4:
Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv:2004.10934,2020.

[10]WANG C Y, LIAO H, YEH I H, et al. CSPNet:
A new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Seattle, WA, USA :IEEE,2019:1571-1580.

[11]CHEN Yunian, WANG Yanjie, ZHANG Yang, et al. PANet:
A context based predicate association network for scene graph generation[C]// 2019 IEEE International Conference on Multimedia and Expo (ICME). Shanghai, China:IEEE, 2019:508-513.

[12]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep Convolutional Networks for visual recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 37(9):1904-1916.

[13]MISRA D. Mish:
A self regularized non-monotonic neural activation function[J]. arXiv preprint arXiv:1908.08681,2019.

[14]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words:
Transformers for image recognition at scale[J]. ICLR2021,Vienna, Austria:[s. n.], 2020:1-21.

[15]CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[M]//VEDALDI A, BISCHOF H, BROX T, et al. Computer Vision-ECCV 2020. ECCV 2020. Lecture Notes in Computer Science. Cham :Springer, 2020,12346:213-229.

[16]ZHU Xizhou, SU Weijie, LU Lewei, et al. Deformable DETR:
Deformable transformers for end-to-end object detection[J]. arXiv preprint arXiv:2010.04159, 2020.

[17]ZHENG Zhaohui, WANG Ping, LIU Wei, et al. Distance-IoU loss:
Faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):12993-13000.

作者簡介:
王国睿(2000-),男,本科生,主要研究方向:图像视觉。

收稿日期:
2021-04-27

猜你喜欢深度学习姿态估计算法在视频监控中的应用计算机时代(2020年12期)2020-12-29在线教学中师生交互对深度学习的影响研究中国电化教育(2020年11期)2020-12-28SPOC平台支持下的深度学习"U型管道"实现模型教学研究(2020年6期)2020-12-28“形式”的改变助力“质”的飞跃数学大世界·上旬刊(2020年11期)2020-12-23深度学习下初中物理互动式教学实践研究新课程·上旬(2020年41期)2020-12-23基于深度学习的大学英语混合学习模式的构建与应用教育教学论坛(2020年47期)2020-12-23当深度学习遇到低年级数学数学大世界·下旬刊(2020年10期)2020-12-23深度学习视域下数学学材功能的分析中学数学杂志(高中版)(2020年5期)2020-12-14小学语文深度学习课堂构建探析学习周报·教与学(2020年46期)2020-12-07基于深度学习小学四年级英语绘本阅读的教学策略广东教学报·教育综合(2020年45期)2020-05-11

推荐访问:火灾 检测方法 改进