96SEO 2026-02-20 04:58 0
R-CNN改进一先提取特征后区域建议改进二全连接神经网络改进三裁剪缩放特征RoI

【计算机视觉】计算机视觉与深度学习-07-目标检测-北邮鲁鹏老师课程笔记
目标检测的目标是确定图像中存在的目标的类别并在图像中标记出它们的位置通常使用边界框来表示目标的位置和大小。
深度学习通过使用深层神经网络模型可以从原始像素级别上学习和提取图像特征从而实现目标检测。
目标检测中一般不从头开始训练网络而是使用ImageNet上预训练的模型。
在这个阶段通常使用预训练的分类模型如在ImageNet上预训练的模型来进行训练。
该模型已经在大规模图像分类任务上学习到了丰富的图像特征。
然后将最后的全连接层替换成适应目标检测任务的新的全连接层并使用目标检测数据集进行训练。
这个阶段的目标是学习分类任务所需的特征表示。
在这个阶段固定预训练模型的大部分层并仅仅调整输出层和一些顶层特征层。
然后使用目标检测数据集进行训练让模型学习如何准确地定位目标。
这个阶段的目标是学习目标的位置信息。
在这个阶段不仅训练分类任务还同时训练目标的位置信息。
在模型中同时使用分类和定位损失函数并根据这两个任务的权重进行综合训练。
这个阶段的目标是综合考虑分类和定位任务使模型能够准确地检测并定位目标。
Estimation是计算机视觉中的一个重要任务旨在从图像或视频中推断出人体、物体或其他目标的姿态信息包括位置、方向和关节角度等。
coordinates不同的是在人体上标注关键点然后通过训练与标答进行对比。
首先使用目标检测算法来检测图像中的人体目标。
目标检测算法可以是传统的方法如基于特征的方法或深度学习方法如基于卷积神经网络的方法。
检测到的人体目标将作为后续姿态估计的输入。
对于每个检测到的人体目标需要进一步定位其关键点例如人体姿态估计中的关节点。
可以使用关键点检测算法如姿态估计算法或关键点检测算法来定位人体关键点。
这些算法可以是传统的机器学习方法也可以是基于深度学习的方法。
一旦获得了人体关键点的位置可以使用姿态估计算法来推断人体的姿态信息如人体的位置、旋转和关节角度等。
姿态估计算法可以基于几何模型、优化方法或深度学习方法。
根据应用需求可以选择合适的姿态表示形式如关节角度、骨架模型或三维姿态等。
最后可以对估计的姿态结果进行后处理如滤波或平滑操作以提高估计的准确性和稳定性。
得到最终的姿态估计结果后可以将其应用于各种应用领域如动作识别、运动分析、虚拟现实、增强现实等。
神经网络的标答是预先建立好的因为多目标检测中目标数量并不确定输出的维度不确定就无法建立Correct
box标答如果使用单目标检测的训练方法无法建立多目标检测的表达训练将不能进行。
在图像上以不同的尺度和位置滑动固定大小的窗口然后在每个窗口上应用分类器或特征提取方法来判断窗口内是否存在目标。
滑动窗口方法可以用于检测不同尺寸的目标并且可以通过滑动步长控制检测的精度和速度。
将图像中所有可能的区域都给到分类器进行分类只留下能正确分类的窗口。
困境CNN需要对图像中所有可能的区域不同位置、尺寸、长宽比进行分类计算量巨大
针对这个问题提出了一种新的思想先从图像中产生一些候选区域再进行分类而不是穷举图像中所有区域。
例如selective
AdaBoost是一个非常快的分类器可以对图像上的区域进行穷举后分类。
是一种集成学习算法用于提高分类器的性能。
它通过迭代训练一系列弱分类器如决策树、支持向量机等每次迭代都根据前一轮分类结果对样本进行调整使得难以分类的样本获得更高的权重从而加强对这些样本的分类能力。
最终通过组合多个弱分类器AdaBoost
针对穷举图像所有区域神经网络分类计算量大这个问题提出了一种新的思想先从图像中产生一些候选区域再进行分类而不是穷举图像中所有区域。
例如selective
Search选择性搜索是一种经典的区域建议算法。
它基于图像的颜色、纹理、边缘等信息在不同尺度和层次上进行区域合并和分割生成一系列候选区域。
区域建议生成的区域可能有损失效果不好进行边界框回归就是为了修正区域建议生成的区域与真实区域的偏差。
Proposal。
那么即便红色的框被分类器识别为飞机但是由于红色的框定位不准(IoU0.5)
问题计算效率低下每张图像大约有2k个区域需要卷积网络进行特征提取重叠区域反复计算。
R-CNN中首先通过卷积神经网络CNN提取整个图像的特征图。
然后针对每个感兴趣区域Region
InterestRoI通过RoI池化层将其映射为固定大小的特征图。
这样可以避免在每个RoI上进行独立的卷积操作从而大大减少了计算量。
接下来将RoI映射后的特征图输入到全连接层中进行目标分类和边界框回归。
分类部分使用softmax函数对RoI进行多类别分类而边界框回归则用于预测目标的位置和大小。
R-CNN的训练是端到端的可以通过反向传播同时优化特征提取网络和分类/回归网络。
这种端到端的训练方式比R-CNN中的多阶段训练更加高效。
如果先进行区域建议后进行特征提取计算量比较大。
因此先对整个图片进行卷积提取特征后在特征图上进行区域扣取。
先来看一个问题对于传统的CNN如AlexNet和VGG当网络训练好后输入的图像尺寸必须是固定值同时网络输出也是固定大小的vector
matrix。
如果输入图像大小不定这个问题就变得比较麻烦。
有2种解决办法
从图像中crop一部分传入网络。
将图像warp成需要的大小后传入网络。
两种办法的示意图如图可以看到无论采取那种办法都不好要么crop后破坏了图像的完整结构要么warp破坏了图像原始形状信息。
回忆RPN网络生成的proposals的方法对positive
regression那么这样获得的proposals也是大小形状各不相同即也存在上述问题。
所以Faster
Pooling即使大小不同的proposal输出结果都是固定大小实现了固定长度输出。
Pool处理前不同的区域特征的空间尺寸可能不一致但是处理后的所有区域特征尺寸都是一样的。
中的精度损失和空间错位问题。
它通过使用双线性插值的方式精确地计算感兴趣区域内每个位置的特征值。
具体而言RoI
将感兴趣区域划分为更细的小格然后在每个小格内使用双线性插值计算对应位置的特征值。
最后这些特征值通过平均池化得到感兴趣区域的特征表示。
在每个小格内使用双线性插值来计算对应位置的特征值。
双线性插值利用小格内的四个相邻像素的特征值通过加权平均来估计目标位置的特征值。
双线性插值通过使用周围四个最近的数据点来估计目标位置的值。
假设我们要在一个二维网格上进行插值其中四个最近的数据点的坐标为
f1f(x1)(x−x1)∗(f(x2)−f(x1))/(x2−x1)
f2f(x1)(x−x1)∗(f(x2)−f(x1))/(x2−x1)。
f3f(x1)(x−x1)∗(f(x2)−f(x1))/(x2−x1)
f4f(x1)(x−x1)∗(f(x2)−f(x1))/(x2−x1)。
f12f1(y−y1)∗(f2−f1)/(y2−y1)。
f34f3(y−y1)∗(f4−f3)/(y2−y1)。
ff12(y−y1)∗(f34−f12)/(y2−y1)。
可以共享卷积层的计算从而更高效地提取特征。
单次前向传播Fast
可以通过单次前向传播同时计算所有候选区域的特征和分类结果而慢速
需要为每个候选区域独立地进行前向传播效率较低。
损失函数Fast
在目标检测任务中RPN的作用是在输入图像上提出可能包含目标的候选框或称为候选区域。
RPN是一个小型的神经网络它以滑动窗口的方式在特征图上滑动并为每个位置生成多个不同尺度和长宽比的候选框。
RPN的输入是经过卷积神经网络如VGG、ResNet等提取的特征图。
特征图具有丰富的语义信息可以帮助RPN更好地定位目标。
RPN在特征图上应用一个小型的卷积滑动窗口并对每个窗口位置生成多个anchors。
对于每个anchorRPN会通过卷积和全连接层进行处理并输出两个值
通过这个过程RPN能够生成大量的候选框并为每个候选框提供目标概率和边界框的修正信息。
然后根据这些概率和修正信息可以对候选框进行筛选和精细调整选出最具有潜力的候选区域。
RPN所生成的候选区域随后被传递给后续的分类器和边界框回归器进行目标分类和精确定位。
实际使用中对于每个特征图上的每个位置我们通常会采用k个不同尺寸和分辨率的锚点区域anchor
RPN通过在输入图像上滑动窗口并在不同位置和尺度上生成一系列的候选框也称为锚框或anchors这些候选框可能包含目标。
对于每个候选框RPN预测其包含目标的概率以及对应目标边界框的修正信息。
R-CNN使用先前生成的候选区域作为输入对这些候选区域进行目标分类和边界框回归。
通常这个阶段包括一个用于特征提取的卷积神经网络如VGG、ResNet等以及用于目标分类和边界框回归的全连接层。
这些层将从候选区域中提取的特征映射与目标类别进行关联并对边界框进行微调以更准确地定位目标。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback