网站建设自学建站视频教程网站吗
2026/1/3 1:27:47 网站建设 项目流程
网站建设自学建站视频教程,网站吗,建筑人才网官网挂证,wordpress开启七牛文章目录前言1.深度学习2.two-stage 和one-stage 检测算法一.候选框的提取1. 暴力遍历2.在穷举暴力法的基础上#xff0c;进行一些剪枝操作#xff1a;二.选择性搜索#xff08;SS Selective Search#xff09;1.去掉冗余的候选区域2.自底向上合并3.合并方法4. 计算相似度的…文章目录前言1.深度学习2.two-stage 和one-stage 检测算法一.候选框的提取1. 暴力遍历2.在穷举暴力法的基础上进行一些剪枝操作二.选择性搜索SS Selective Search1.去掉冗余的候选区域2.自底向上合并3.合并方法4. 计算相似度的几种方式三.评价公式1.定位精度评价公式 IOU2.mAP(mean Average Precision)四.OverFeat1.OverFeat关键步骤2.OverFeat的核心思想3.多尺度分类-全卷积4.多尺度分类-offset池化5.多尺度分类-预测阶段6.OverFeat总结五.RCNN1.相关概念2.NMS5-2-1. 在损失函数中加入NMS损失函数5-2-2. Soft-NMS5-2-3.RCNN步骤5-2-4.缺陷问题六 SPPNET1.网络结构2.新技术3.优缺点4.相关问答七 Fast RCNN1.优缺点2.新技术2-1 ROI Pooling Layer2-2 Multi-task loss(多任务损失函数)2-3SVD(类似连续的FC层没有激活)八 Faster R-CNN1.Faster R-CNN 网络结构2.RPN网络2.1锚点八.SSD1.简介2.网络结构3.新技术3.1.重用Faster R-CNN的Anchors机制3.2多尺度特征图抽样3.3全卷积网络结构3.4.空洞卷积4.网络结构分析5.训练测试样本6损失函数前言1.深度学习随着深度学习模型效果的优化基于深度学习的目标检测算法盖过了传统计算机视觉中的目标检测算(DPM)从而导致很多之前研究传统目标检测算法的人员转向深度学习并且现在工业界中应用最多的目标检测方式以深度学习为主。其中R-CNN是奠定深度学习方向发展目标检测的的基础算法是第一个真正可以工业级应用的目标检测解决方案是结合区域提名(Region Proposal)和卷积神经网络(CNN)的一种目标检测算法。2.two-stage 和one-stage 检测算法目前主流的目标检测算法主要是基于深度学习模型主要可以分为两大类two-stage 检测算法和one-stage 检测算法。• two-stage检测算法将检测问题划分为两个阶段首先产生候选区域(region proposals), 然后对候选区域进行分类(一般需要进行位置精修)这类算法实现主要有OverFeatAlexNet,R-CNN、SPPNET、Fast R-CNN、Faster R-CNN,Mask R-CNN家族。他们识别错误率低漏识别率也较低但速度较慢不能满足实时检测场景。• one-stage检测算法是一种端到端的检测算法直接进行区域定位与分类这类算法实现主要有SSD、YOLO、FPN等。一.候选框的提取1. 暴力遍历提取候选框后进行特征提取冗余数据太多导致计算速度慢实际应用中是不太可行的2.在穷举暴力法的基础上进行一些剪枝操作只选用固定大小和长宽比的窗口获取候选框特定应用场景中有效对于普通的目标检测而言计算复杂度较高二.选择性搜索SS Selective Search1.去掉冗余的候选区域核心在于如何去掉冗余的候选区域2.自底向上合并利用冗余候选区域大多是发生重叠 的这个特性进行自底向上合并相邻的相似区域从而减少冗余3.合并方法只计算每个区域和她相邻区域的相似度取一个和它自己(ri)相似度最大的那个区域(rj)并合并成新的区域 rt去掉集合中ri 和r* rj和r的相似度计算新区域rt和r的相似度并重复前两部合并4. 计算相似度的几种方式区域合并采用了多样性的策略如果仅仅考虑单一策略容易导致合并不相似的区域比如仅考虑纹理的时候不同颜色的区域很可能会误合并所以在选择性搜索中采用三种多样性策略来增加候选区域的可能性多种颜色空间考虑RGB灰度HSV颜色相似度归一化–25biin纹理相似度8个方向10个bin直方图每个方向3个颜色3X8X10240bin通过更改阈值初始化原始区域阈值越大分割区域的块越少优先合并小的区域【如果只基于颜色和纹理合并会导致合并后区域不断吞并周围区域所以要给小区域大的权重】如果区域ri包含在rj内那么应该被合并如果ri和rj是很难相接的那么就不应该合并到一起所以可以通过定义区域之间的距离来衡量两个区域是否应该进行合并其主要指标采用合并后区域的Bounding Box(最小矩形面积)越小表示相似度越高合并四种相似度 颜色相似度纹理相似度区域大小相似度距离相似度填充乘以权重• 常见获取候选框的方式有EdgeBoxes、Selective Search等。三.评价公式1.定位精度评价公式 IOUIOU 定义了两个bounding box 的重叠度 也就是两个bounding box 重叠区域面积占总面积比。defforward(self,pred,target):# pred, target格式x,y,w,hassertpred.shape[0]target.shape[0]predpred.view(-1,4)targettarget.view(-1,4)tltorch.max((pred[:,:2]-pred[:,2:]/2),(target[:,:2]-target[:,2:]/2))brtorch.min((pred[:,:2]pred[:,2:]/2),(target[:,:2]target[:,2:]/2))area_ptorch.prod(pred[:,2:],1)area_gtorch.prod(target[:,2:],1)en(tlbr).type(tl.type()).prod(dim1)area_itorch.prod(br-tl,1)*en area_uarea_parea_g-area_i iou(area_i)/(area_u1e-16)2.mAP(mean Average Precision)mAP:目标检测中定义为平均精度评估指标值AP值是衡量一个类别的检测好坏情况的mAP就是对多个类别的检测好坏情况进行评估简单来讲就是将所有类别的AP值进行平均取值即可。比如现在有两个类别 类别A的AP值为0.5类别B的AP值为0.2那么mAP(0.50.2)/20.35四.OverFeat1.OverFeat关键步骤利用滑动窗口进行不同尺度的区域提名然后使用CNN模型对每个区 域进行分类得到类别和置信度利用多尺度滑动窗口来增加检测数量提升分类效果用回归模型预测每个对象的位置边框合并2.OverFeat的核心思想• 区域提名结合滑动窗口和规则块即多尺度multi-scale)的滑动窗口• 分类和定位统一用CNN来做分类和预测边框位置模型与AlexNet类似其中 1-5层为特征抽取层即将图片转换为固定维度的特征向量6-9层为分类层(分 类任务专用)不同的任务分类、定位、检测公用特征抽取层1-5层只替换6-9层• 累积因为用了滑动窗口同一个目标对象会有多个位置也就是多个视角 因为用了多尺度同一个目标对象又会有多个大小不一的块。这些不同位置和 不同大小块上的分类置信度会进行累加从而使得判定更为准确3.多尺度分类-全卷积全卷积是替换全连接的一种方式相比于全连接而言可以针对任意输 入不同尺度的图像进行特征的提取4.多尺度分类-offset池化offset池化指的其实就是移动一定位置后再进行池化操作。(仅用于预测 过程中训练过程中使用普通池化)5.多尺度分类-预测阶段• 在测试阶段不是使用221*221的图像输入网络而是输入六个不同尺寸 的图像也就是多尺度输入预测。具体输入图像大小如下所示6.OverFeat总结在分类、定位任务中共享前面的特征提取层的网络结构提出多尺度的窗口滑动来提取任务的效果使用feature map上的滑窗相比于传统的图像滑窗(对整幅图像进行密集采 样然后处理每一个采样最后组合结果)大大提升了执行效率其中多视野、多尺度的测试这个特性是其网络的核心。五.RCNN1.相关概念R-CNN:(Regions with Convolutional Neural Network Features)是一种基于Region Proposal的CNN网络结构2.NMS【非极大值抑制(Non-Maximum Suppression,】顾名思义就是抑制 不是极大值的元素可以理解为局部 最大搜索。是目标检测中常用的一种 精修bounding box的方式对于多类别的检测任务如果对每个类别分别进行NMS那么当 检测结果中包含两个被分到不同类别的目标且IOU较大的时候 会导致结果合并出现不可接受的结果。针对这个问题有两种解 决方案5-2-1. 在损失函数中加入NMS损失函数5-2-2. Soft-NMS5-2-3.RCNN步骤5-2-4.缺陷问题六 SPPNETSPPNETSpatial Pyramid Pooling 空间金字塔池化【其网络主要修正的是R-CNN网络的效率问题也就是主要更改的是R-CNN 中每个ROI区域均需要通过一个CNN 提取高阶特征的这个阶段的结构。】1.网络结构2.新技术1.共享卷积 -- 在Conv5层提取所有区域的高阶特征直接对整个输入图像卷积然后在得到的feature map 上得到ss 的2000个候选框的高阶特征2.空间金字塔池化层【Spatial Pyramid Pooling layer】3.优缺点4.相关问答七 Fast RCNNFast R-CNN 的训练速度是 R-CNN 的 10 倍推断速度是后者的 150 倍。1.优缺点2.新技术2-1 ROI Pooling Layer目标检测typical architecture 通常可以分为两个阶段1region proposal给定一张输入image找出objects可能存在的所有位置。这一阶段的输出应该是一系列object可能位置的bounding box。这些通常称之为region proposals或者 regions of interestROI。2final classification确定上一阶段的每个region proposal是否属于目标一类或者背景。这个architecture存在的一些问题是产生大量的region proposals 会导致performance problems很难达到实时目标检测。在处理速度方面是suboptimal。无法做到end-to-end training。这就是ROI pooling提出的根本原因。(3)• 空间金字塔结构SPP的单层特例• 将ROI区域卷积高阶特征转换为HxW的结构• 内部使用Max Pooling。ROI pooling example我们有一个88大小的feature map一个ROI以及输出大小为22.1.输入的固定大小的feature map2.region proposal 投影之后位置左上角右下角坐标0378。3.将其划分为22个sections因为输出大小为22我们可以得到4.对每个section做max pooling可以得到说明在此案例中region proposals 是57大小的在pooling之后需要得到22的所以在57的特征图划分成22的时候不是等分的行是5/2第一行得到2剩下的那一行是3列是7/2第一列得到3剩下那一列是4。ROI pooling总结ROI Pooling 就是将大小不同的feature map 池化成大小相同的feature map利于输出到下一层网络中。1用于目标检测任务2允许我们对CNN中的feature map进行reuse3可以显著加速training和testing速度4允许end-to-end的形式训练目标检测系统。2-2 Multi-task loss(多任务损失函数)2-3SVD(类似连续的FC层没有激活)总结八 Faster R-CNNFaster R-CNN Fast R-CNN RPN1.Faster R-CNN 网络结构2.RPN网络• RPN实际上是Faster R-CNN中的一个小的神经网络通过这个网络来生成候选区域框ROI• 通过nxn(论文中为3x3)的卷积对通用卷积层的输出feature map来提取当前区域256维的高阶特征然后基于这个高阶特征来分别构建两个分支第一个分支cls layer分类层的主要功能是判断reference boxes/anchor box是前景物体还是背景。第二个分支reg layer回归层的主要功能是对于referenceboxes/anchor box的坐标和候选框(Region Proposal Box)之间的坐标之间的线性转换关系做一个预测(类似R-CNN的回归预测结构)。2.1锚点• Anchor锚点对于一个sliding window而言可以产生k个原始proposal候选框即k个reference boxs每个reference boxs可以用一个scale、一个aspect_ratio和一个sliding window中的锚点来唯一确定。对于WH的feature map而言总共有WH*k个reference boxs。反向映射到原始图像上相当于是以对应锚点为中心的k个候选框所以可以认为Anchor box是初步候选框并且在feature map上进行sliding window的滑动相当于让候选框出现在原始图像上的任意位置并且通过scale和aspect_ratio的操作让Anchor产生的候选框具有 尺度不变性的特点• 对于RPN产生的候选框主要采用如下操作• 1. 移除超出边界的anchors( 在图像内的anchor box 区域宽度、高度低于最小区域大小的情况)• 2. 选择出前景概率最大的N 个proposal( 论文中建议12000 训练/6000 预测)• 3. 使用非极大值抑制(NMS) 对候选框进行过滤(IoU 阈值0.7) • 4. 对NMS 结果再做Top M 的操作获取概率最大的M 个proposal( 论文中建议2000 训练/300 测试• 5. 将ROI 和Ground Truth 的IoU 区域比在[0.5,1] 的anchor 当做正样本将IoU在 [0.1,0.5) 之间的anchor 当做负样本Bounding box regression 仅使用正样本进行模型训练Proposal Layer 网络中的训练。Faster RCNN• 数据图像大小要求• 单一尺度训练• 要求输入的图像短边至少为600像素• Anchor boxs还原到原始图像上后可以包含所有区域当600像素的情况下。3.如果处理多尺度问题即如何使224×224和1080×720的车辆同时在一个训练好的网络中都能正确识别4.R-CNN、SPP Net、Fast R-CNN、Faster R-CNN各个网络对比八.SSDSSD:Single Shot MultiBox Detector( 单步多框目标检测)1.简介2.网络结构3.新技术3.1.重用Faster R-CNN的Anchors机制(Default boxes 默认框 and aspect ratios 纵横比)3.2多尺度特征图抽样(Multi-scale feature maps for detection)3.3全卷积网络结构(Convolutional predictors for detection)3.4.空洞卷积基础网络结构使用VGG并且将FC6 Layer和FC7 Layer转换为卷积层并将原来的MaxPooling5的大小从2x2-s2变化为3x3-s1这样pooling5操作后feature map还是保持较大的尺寸这样就会导致之后的感受野变小也就是一个点对应到原始图形中的区域变小了。• 为了保障感受野以及利用到原来的FC6和FC7的模型参数使用atrous algorithm的方式来增大感受野也就是 膨胀卷积/ 空洞卷积。4.网络结构分析• 在基础网络之后使用不同层次卷积的feature map来分别提取default box对于每个layer的feature map使用两个并行的3x3卷积分别来提取位置信息(offset box)和置信度信息结合Default box和Ground Truth box构建损失函数。• 对于Con4_3的数据提取的时候会先对feature map做一个L2 norm的操作因为层次比较靠前防止出现数据值过大的情况。5.训练测试样本难负样本挖掘数据增强6损失函数

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询