96SEO 2026-02-20 07:44 7
inproceedings{hu2019segmentation,title{Segmentation-driven

recognition},pages{3385--3394},year{2019}
3385-3394).原文https://openaccess.***cvf.com/content_CVPR_2019/html/Hu_Segmentation-Driven_6D_Object_Pose_Estimation_CVPR_2019_paper.html
最近在估计刚体物体的6D姿态方面的趋势是训练深度网络直接从图像回归姿态或预测3D关键点的2D位置然后使用PnP算法得到姿态。
在这两种情况下物体都被视为一个全局实体并计算一个单一的姿态估计。
因此这些技术可能容易受到大面积遮挡的影响。
在本文中我们引入了一个基于分割的6D姿态估计框架其中每个物体的可见部分都为姿态预测提供了局部的2D关键点位置信息。
然后我们使用预测的置信度度量来将这些姿态候选者组合成一组稳健的3D至2D对应关系从中可以获得可靠的姿态估计。
我们的方法在具有挑战性的Occluded-LINEMOD和YCB-Video数据集上超越了现有技术这证明了我们的方法能够很好地处理多个质地较差的相互遮挡物体。
此外我们的系统依赖于简单足够的架构以实现实时性能。
基于图像的6D物体姿态估计在许多实际应用中至关重要如增强现实或机器人操控。
传统上这一任务通过建立已知3D模型与2D像素位置之间的对应关系来处理然后使用Perspective-n-Point
(PnP)算法计算6个姿态参数。
虽然当物体纹理丰富时这种方法非常稳定但在物体无特征或场景中有多个相互遮挡的物体时这种方法可能会失败。
因此最近的研究侧重于克服这些困难通常使用深度网络直接从图像回归到6D姿态或者检测与物体相关的关键点然后执行PnP。
然而在这两种情况下物体仍然被视为一个全局实体使得算法容易受到大面积遮挡的影响。
图1展示了这样一个情况被遮挡的钻机的边界框与其他物体重叠这些物体向姿态估计器提供了无关的信息从而降低了其性能。
因为这种情况经常发生许多最新的方法需要一个额外的后处理步骤来精炼姿态。
因此全局估计的姿态是错误的。
c在我们的方法中只有标记为与钻机对应的图像补丁才参与到姿态估计中。
d
在本文中我们展示了通过结合多个局部预测而不是单一的全局预测可以获得更稳健的姿态估计。
为此我们引入了一个基于分割的6D姿态估计网络其中每个可见的物体部分都通过预测的3D关键点的2D投影贡献了一个姿态估计。
利用我们网络预测的置信值我们进一步组合了每个3D关键点最可靠的2D投影形成了一组稳健的3D至2D对应关系。
然后我们使用基于RANSAC的PnP策略来推断每个物体的单一可靠姿态。
从局部补丁的角度推理不仅使我们的方法对遮挡具有鲁棒性而且还为场景中的每个物体提供了大致的分割。
换句话说与其他将物体检测与姿态估计分离的方法不同我们同时执行这两项任务同时依靠足够简单的架构以实现实时性能。
简而言之我们的贡献是一个简单但有效的基于分割的网络它可以产生准确的6D物体姿态估计无需后处理即使在有多个纹理较差的物体相互遮挡的情况下也是如此。
它将分割和集成学习结合在一个有效且高效的架构中。
我们将展示它在标准基准测试上如OccludedLINEMOD和YCB-Video数据集超越了现有的最先进方法。
在本文中我们专注于从RGB图像中进行6D物体姿态估计与基于RGBD的方法不同后者可以访问深度图。
传统方法是从输入图像中提取局部特征与模型的特征匹配然后在得到的3D至2D对应关系上运行PnP算法。
多年来为了使这些特征描述符对各种变换具有不变性从而可以更加稳健地匹配投入了大量的努力。
与此同时为了处理噪声和误匹配开发了越来越有效的PnP方法。
因此当处理纹理丰富的物体时基于特征的姿态估计现在既快速又稳健即使在存在轻微遮挡的情况下也是如此。
然而它通常难以处理重度遮挡和纹理较差的物体。
在过去无纹理的物体通常通过模板匹配来处理。
图像边缘成为主要的信息来源研究人员开发了基于不同距离度量的策略如Hausdorff和Chamfer距离来匹配3D模型与输入图像。
这些技术虽然对纹理较差的物体有效但在轻微遮挡和背景混乱的情况下常常失败
在许多计算机视觉领域中现代的6D物体姿态估计涉及深度神经网络。
已经出现了两个主要趋势直接从图像回归到6D姿态或预测图像中的2D关键点位置然后通过PnP获得姿态。
这两种方法都将物体视为一个全局实体并产生单一的姿态估计。
这使它们易受遮挡的影响因为考虑到所有方法都使用物体边界框来自其他物体或背景的信号会污染预测。
在文献[35,
45]中通过对感兴趣的物体进行分割来解决这一问题但所得到的算法仍然提供单一的全局姿态估计这可能是不可靠的如图1所示并在结果部分进行了演示。
因此这些方法通常需要调用一个额外的姿态细化步骤[23]。
根据我们所知[16]和[31]的研究是最近尝试超越全局预测的唯一尝试。
尽管[16]中的方法也依赖于最先进的语义分割网络进行分割但它使用回归到位于非常大空间中的3D物体坐标其性能令人失望。
相比之下[31]中的技术从局部补丁预测多个关键点位置热图并将它们组合成PnP算法的输入。
然而使用的补丁仍然相对较大因此仍可能包含无关信息。
此外在运行时这种方法依赖于计算成本高昂的滑动窗口策略不适合实时处理。
在这里我们提出通过以集成方式结合多个局部姿态预测并实时进行无需后处理来实现稳健性。
在结果部分我们将展示这种方法如何超越现有的最先进方法[17,
33]也与全局6D物体姿态预测技术相关。
然而这些方法针对非刚性物体需要从更大的感受区域中提取更多的全局信息并且不可避免地对遮挡更敏感。
相比之下处理刚性物体使我们能够依赖可以稳健组合的局部预测局部可见的物体部分可以为所有关键点提供可靠的预测。
我们展示了这些局部预测的组合如何产生稳健的姿态估计即使在观察到多个相互遮挡的物体时也是如此。
在给定的RGB图像中我们的目标是同时检测物体并估计它们的6D姿态包括3个旋转和3个平移。
我们假设物体是刚性的并且它们的3D模型是已知的。
如同[35,
39]中所做的我们设计了一个CNN架构来回归一些预定义3D点的2D投影例如物体边界框的8个角。
然而与这些方法不同的是它们对每个物体的预测是全局性的因此会受到遮挡的影响我们使得各个图像补丁预测它们属于哪个物体以及2D投影的位置。
然后我们结合分配给同一物体的所有补丁的预测以进行基于PnP的稳健姿态估计。
图2描述了相应的工作流程。
在本节的剩余部分中我们首先介绍我们的双流网络架构。
然后我们分别描述每个流最后介绍我们的推理策略。
我们的架构有两个流一个用于物体分割另一个用于回归2D关键点位置。
这两个流共享一个公共的编码器但解码器是分开的。
每一个都产生一个定义了在图像上的
S×S网格的空间分辨率的张量。
分割流预测每个网格位置观察到的物体的标签。
回归流预测该物体的2D关键点位置。
本质上我们旨在通过将图像补丁分配给物体和回归这些物体所属关键点的2D坐标来共同执行分割如图3所示。
为此我们设计了图2所示的双流架构每个任务一个流。
它具有编码器-解码器结构一个共用的编码器用于两个流以及两个独立的解码器。
在回归流中每个网格单元预测它所属物体的2D关键点位置。
在这里我们将边界框的8个角作为我们的关键点。
对于编码器我们使用了YOLOv3中的Darknet-53架构[37]该架构已被证明在目标检测方面非常有效和高效。
对于解码器我们设计了输出空间分辨率为
Dreg的特征向量。
该网格的空间分辨率控制了投票物体标签和特定关键点投影的图像补丁的大小。
高分辨率产生精细的分割掩模和许多投票。
然而这会带来更高的计算成本可能对我们的目的来说是不必要的。
因此我们没有匹配Darknet-53编码器的5个下采样层和5个上采样层而只使用了2个这样的层标准步幅为2。
同样的架构尽管输出特征大小不同用于两个解码器流。
Lreg。
这种组合损失函数用于同时优化分割和关键点位置回归的任务以提升模型在6D姿态估计中的整体性能。
这个公式结合了一个分割项和一个回归项我们用它来评估每个流的输出。
现在我们来详细描述它们各自的内容。
S×S网格的每个单元格分配一个标签如图3(a)所示。
更具体地说考虑到有
在训练期间我们可以访问3D物体模型及其真实姿态。
因此我们可以通过将3D模型投影到图像中并考虑每个物体的深度来处理遮挡从而生成真实的语义标签。
实际上图像通常包含的背景区域远多于物体区域。
因此我们采用公式1中的
1]中的中值频率平衡技术来权衡不同的样本。
我们根据像素级别的类别频率而不是全局类别频率来进行这一操作以考虑到不同物体的大小差异。
回归流的目的是预测与3D物体模型相关联的预定义3D关键点的2D投影。
按照标准做法[35,
N为我们想要预测其投影的每个物体的3D关键点数量。
当使用边界框角点时
在实际中我们不直接预测关键点的2D坐标。
相反对于每一个关键点我们预测一个相对于相应网格单元中心的偏移向量如图3(b)所示。
也就是说设
si(c)该值通过网络输出上的sigmoid函数获得。
这些置信度值应该反映预测的2D投影与真实值的接近程度。
为了鼓励这一点我们定义了第二个损失项
Lconfc∈M∑i1∑N∥si(c)−exp(−τ∥Δi(c)∥2)∥1(4)
M内的区域它们的梯度也只向这些区域回传。
如同在分割流中一样为了解决像素级别的类别不平衡我们根据训练集中的像素级别类别频率对不同物体的回归损失项进行加权。
S×S网格的每个前景单元返回一个物体类别和一组N个3D关键点的投影的预测2D位置。
由于我们执行的是基于类的分割而不是基于实例的分割如果场景中存在两个同类的物体可能会出现歧义。
为了避免这种情况我们利用预测的2D关键点位置倾向于根据它们对应的物体聚集的事实并使用简单的像素距离阈值来识别这样的聚类。
对于每个聚类即每个物体我们然后利用网络预测的置信分数来建立图像与物体3D模型之间的2D至3D对应关系。
最简单的做法是使用RANSAC对所有预测进行处理。
然而这会显著减慢我们的方法。
相反我们依赖于每个3D关键点最有信心的n个2D预测。
实践中我们发现n10能够很好地平衡速度和准确性。
根据这些过滤后的2D至3D对应关系我们使用基于RANSAC的EPnP算法[20]获得每个物体的6D姿态。
图4演示了这一过程。
a预测属于杯子的网格单元被覆盖在图像上。
b每一个单元预测对应关键点的2D位置显示为绿色点。
c对于每个3D关键点选择网络最有信心的n10个2D位置。
d在这些位置上运行基于RANSAC的PnP得到一个准确的姿态估计如正确绘制的轮廓所证实的。
数据集上评估我们的基于分割的多物体6D姿态估计方法这些数据集与LINEMOD
评估指标。
我们报告了常用的2D重投影REP误差[3]。
它编码了使用预测姿态和使用真实姿态获得的3D模型点的2D重投影之间的平均距离。
此外我们还报告了3D空间中的姿态误差[12]它对应于使用预测姿态变换的3D点与使用真实姿态获得的点之间的平均距离。
如[23,
45]中所述我们将其称为ADD。
由于数据集中的许多物体是对称的我们使用这两个指标的对称版本并报告它们的REP-5px和ADD-0.1d值。
如果REP低于5像素阈值且ADD低于模型直径的10%则认为预测姿态是正确的。
下面我们用上标*标注被认为是对称的物体。
与[37]中一样我们将输入图像调整至608×608分辨率用于训练和测试。
此外在回归2D重投影时我们将水平和垂直位置标准化到[0,10]的范围内。
在估计置信度时我们使用相同的标准化程序。
LINEMOD上训练网络300个周期在YCB-Video上训练30个周期。
在这两种情况下初始学习率设为1e-3并在总周期数的50%、75%和90%后分别降低10倍。
我们使用带有动量0.9和权重衰减5e-4的SGD作为我们的优化器。
每个训练批次包含8张图像我们采用了常用的数据增强技术如随机亮度、高斯噪声、平移和缩放。
我们还使用了[47]中的随机擦除技术来更好地处理遮挡。
我们的源代码公开可用于以下网址https://github.com/cvlab-epfl/segmentation-driven-pose.
Occluded-LINEMOD数据集[18]是通过对LINEMOD原始数据集[12]的一个子集中所有物体的姿态进行标注而编制的。
这个子集展示了1214幅图像中的8种不同物体。
虽然也提供了深度信息我们仅利用RGB图像。
Occluded-LINEMOD图像如同LINEMOD图像一样展示了一个中心物体被非中心物体所环绕。
标准协议只评估非中心物体。
39]中的相同程序。
我们使用从真实姿态推断出的掩模来分割每张图像中的中心物体因为如上所述它不会被用于评估。
然后我们通过在随机的PASCAL
VOC图像[7]之间进行图像修复生成3到8个物体的合成图像。
这些物体被随机放置在不同的位置、方向和尺度上。
这一程序仍然使我们能够恢复每个物体的遮挡状态并生成相应的分割掩模。
通过使用任何一张原始LINEMOD图像中的中心物体只要它是在Occluded-LINEMOD中使用的8个物体之一我们生成了20k个训练样本。
我们将我们的方法与最先进的技术进行比较包括[45]PoseCNN、[35]BB8和[39]Tekin这些方法都产生单一的全局姿态估计。
此外我们还报告了最近的研究成果如[16]iPose和[31]Heatmaps这些方法结合了多个相对较大的补丁的预测但依赖于昂贵的滑动窗口策略。
需要注意的是[31]也提供了使用特征映射技术[36]获得的结果。
然而大多数方法包括我们的不使用这种技术为了公平比较我们因此报告了所有方法的结果包括[31]的结果但没有使用这种技术。
我们在表1中报告了我们的结果并在表2中提供了方法的运行时间。
我们的方法在很大程度上优于全局推理方法[45,
39]。
它也优于Heatmaps尽管优势较小。
此外由于我们简单的架构和一次性推理策略我们的方法的运行速度是Heatmaps的5倍多。
我们的方法每张图像分割和2D重投影估计需要30ms每个物体的融合需要3-4ms。
平均每张图像有5个物体这样计算的总运行时间大约为50ms。
图5展示了我们的一些结果。
注意即使在有大面积遮挡的情况下它们的准确性也很高。
我们将我们的结果与PoseCNN[45]、BB8[35]、Tekin[39]、iPose[16]和Heatmaps[31]的结果进行比较。
原始论文中缺失的结果标记为“-”。
在每一列中我们从上到下展示前景分割掩模、所有2D重投影候选者、被选中的2D重投影以及最终的姿态结果。
即使在有大面积遮挡的情况下我们的方法也能生成准确的姿态估计。
此外它可以实时处理多个物体。
如图4所示并非所有局部预测的2D关键点位置都是准确的。
因此我们在第3.4节中描述的基于预测置信度值的融合策略对于选择正确的位置至关重要。
在这里我们评估了它对最终姿态估计的影响。
为此我们报告了使用最高置信度HC选择每个3D关键点的2D位置所获得的结果以及使用我们的最有信心选择策略中不同的n值所获得的结果。
我们将此称为B-n对于特定的n值。
请注意我们然后在选定的2D至3D对应关系上使用RANSAC。
在表3中我们将这些不同策略的结果与始终使用中心网格预测的2D重投影的无融合方法我们称之为无融合NF进行了比较。
这些结果证明所有融合方案都优于无融合方案。
我们还报告了通过使用真实2D重投影选择每个3D关键点的最佳预测2D位置获得的Oracle结果。
这表明我们的方法可以通过改进置信度预测或设计更好的融合方案来进一步受益。
Occluded-LINEMOD上不同融合策略的准确性REP-5px。
我们比较了一个无融合NF方案和一个依赖最高置信度预测的方案以及依赖于对最有信心的预测执行RANSAC的策略B-n。
Oracle由选择使用真实地面的最佳2D位置组成并报告以指示我们方法的改进潜力。
在底行我们还报告了这些不同策略的平均运行时间。
我们的方法使我们能够从局部可见的物体区域推断刚性物体的关键点位置而不需要从更大的感受野中提取对遮挡更敏感的更全局的信息。
为了进一步支持这一说法我们将我们的方法与两种最先进的人体姿态估计方法进行比较Mask
[44]这些方法针对的是非刚性物体即人体。
相比之下处理刚性物体允许我们依赖可以稳健组合的局部预测。
具体来说我们修改了公开可用的Mask
R-CNN和CPM的代码使其输出8个边界框2D角而不是人体关键点并在Occluded
LINEMOD上对这些方法进行了训练。
正如表4所示尽管Mask
R-CNN和CPM的表现略优于其他全局推理方法我们的局部方法产生了更准确的预测。
R-CNN[10]和CPM[44]以输出边界框角位置。
虽然Mask
R-CNN和CPM的表现略优于其他全局推理方法但我们的局部方法产生了更准确的预测。
我们还在最新且更具挑战性的YCB-Video数据集[45]上评估了我们的方法。
它包括从YCB数据集[5,
4]中选取的21个不同大小且纹理不同的物体。
这个数据集包含大约130K的真实图像来自92个视频序列以及大约80K的只包含前景物体的合成渲染图像。
它提供了所有物体的姿态注释以及相应的分割掩模。
测试图像展示了照明、噪声和遮挡的极大多样性这使得这个数据集极具挑战性。
与之前一样虽然有深度信息可用我们只使用彩色图像。
在这里我们使用与第4.1节中相同的随机背景程序生成完整的合成图像从80K合成前景图像中生成。
如之前所述我们报告的结果不包括特征映射因为无论是PoseCNN还是我们的方法都没有使用它们。
在这个较新的数据集上只有少数方法报告了结果。
在表5中我们将我们的方法与两个基准进行了对比。
我们的方法明显优于PoseCNN[45]和Heatmaps[31]。
此外请记住我们的方法的运行速度是它们的5倍多。
我们将我们的结果与PoseCNN[45]和Heatmaps[31]的结果进行比较。
在图6中我们比较了PoseCNN和我们的定性结果。
虽然我们的姿态估计在这个数据集上的准确性不如在Occluded-LINEMOD上那么高但它们仍然比PoseCNN的结果好得多。
再次这证明了在有大面积遮挡的情况下考虑局部物体部分而不是全局的好处。
顶部PoseCNN和底部我们的方法。
这展示了在有大面积遮挡的情况下相较于全局分析考虑局部物体部分的好处。
尽管我们的方法在大多数情况下表现良好但它仍然无法处理最极端的遮挡或非常小的物体。
在这些情况下我们依赖的网格表示变得过于粗糙。
然而这可以通过使用更细的网格来解决或者为了限制计算负担使用能够适应性细分以更好处理每个图像区域的网格。
此外正如表3所显示的我们的性能还没有达到使用预测最佳2D位置的Oracle的水平。
这表明还有提升预测置信度得分质量以及融合程序本身的空间。
这将是我们未来研究的主题。
我们引入了一种基于分割的6D物体姿态估计方法该方法可以同时检测多个物体并估计它们的姿态。
通过以稳健的方式结合多个局部姿态估计我们的方法即使在存在大面积遮挡的情况下也能产生准确的结果无需进行精细化步骤。
我们在两个具有挑战性的数据集上的实验表明我们的方法优于现有的最先进技术并且与最佳竞争者相比能够实时预测多个物体的姿态。
将来我们将探索使用其他主干网络架构作为编码器并设计更好的融合策略来选择最佳预测然后执行PnP。
我们还将寻求将PnP步骤整合到网络中以便拥有一个完整的端到端学习框架。
这项工作部分得到了瑞士创新机构Innosuisse的支持。
我们要感谢Markus
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback